Spark大数据处理与案例分析_公开课

课程详情

模块一Spark

2.1概述

1、Spark产生背景，包括mapreduce缺陷，多计算框架并存等

2、Spark 基本特点

3、Spark版本演化

4、Spark核心概念，包括RDD, transformation, action, cache等

5、Spark生态系统，包括Spark生态系统构成，以及与Hadoop生态系统关系

6、Spark在互联网公司中的地位与应用

7、介绍当前互联网公司的Spark应用案例

8、Spark集群搭建，包括测试集群搭建和生产环境中集群搭建方法，并亲手演示整个过程

9、背景知识补充介绍

模块二

Spark Core

Spark 程序设计与企业级应用案例

1、Spark运行模式介绍

Spark运行组件构成，spark运行模式（local、standalone、mesos/yarn等）

2、Spark开发环境构建

集成开发环境选择，亲手演示spark程序开发与调试，spark运行

3、常见transformation与action用法

介绍常见transformation与action使用方法，以及代码片段剖析

4、常见控制函数介绍

包括cache、broadcast、accumulator等

5、Spark 应用案例：点击流日志分析

包括：背景介绍，数据导入，数据分析，常见Spark transformation和action用法在线演示

模块三 Spark

内部原理剖析与源码阅读 1、Spark运行模式剖析

深入分析spark运行模式，包括local，standalone以及spark on yarn

2、Spark运行流程剖析

包括spark逻辑查询计划，物理查询计划以及分布式执行

3、Spark shuffle剖析

深入介绍spark shuffle的实现，主要介绍hash-based和sort-based两种实现

4、Spark 源码阅读

Spark源码构成以及阅读方法

模块三

Spark

程序调优技巧

1、数据存储格式调优数据存储格式选择，数据压缩算法选择等

2、资源调优

如何设置合理的executor、cpu和内存数目，YARN多租户调度器合理设置，启用YARN的标签调度策略等

3、程序参数调优

介绍常见的调优参数，包括避免不必要的文件分发，调整任务并发度，提高数据本地性，JVM参数调优，序列化等

4、程序实现调优

如何选择最合适的transformation与action函数

5、调优案例分享与演示

演示一个调优案例，如何将一个spark程序的性能逐步优化20倍以上。

模块四Spark sql

2.1Spark SQL基本原理

1、Spark SQL是什么

2、Spark SQL基本原理

3、Spark Dataframe与DataSet

4、Spark SQL与Spark Core的关系

模块五

Spark SQL

程序设计与企业级应用案例

1、Spark SQL程序设计

a. 如何访问MySQL、HDFS等数据源，如何处理parquet格式数据

b. 常用的DSL语法有哪些，如何使用

c. Spark SQL调优技巧

d. 数据倾斜解决方案

模块六 Spark Streaming程序设计及应用案例

1、Spark Streaming基本原理

a. Spark Streaming是什么

b. Spark Streaming基本原理

c. Structured Streaming

d. Spark Streaming 编程接口介绍

e. Spark Streaming应用案例

2、Spark Streaming程序设计与企业级应用案例

a. 常见流式数据处理模式

b. Spark Streaming与Kafka 交互

c. Spark Streaming与Redis交互

d. Spark Streaming部署与运行

e. Spark Streaming企业级案例：用户行为实时分析系统

模块七Spark Mllib

Spark MLlib

企业级案例

1. Spark MLlib简介

2. 数据表示方式

3. MLlib中的聚类、分类和推荐算法

4. 如何使用MLlib的算法

5. Spark MLLib企业级案例：用户画像之性别预测

模块八Spark综合案例

信用评分实时分析系统

1. 背景介绍

2. 什么是Lambda architecture

3. 利用Spark Core+MLlib+构建离线处理

4. 利用flume+Spark Streaming+Redis构建实时处理线

5. 整合批处理和实时处理线

模块八Spark综合案例

信用评分实时分析系统

1. 背景介绍

2. 什么是Lambda architecture

3. 利用Spark Core+MLlib+构建离线处理

4. 利用flume+Spark Streaming+Redis构建实时处理线

5. 整合批处理和实时处理线

模块九典型项目

案例实战

■基于spark日志分析

■个性化推荐系统：带你揭开其神秘面纱

■在线投放引擎

■揭开淘宝点击推荐系统的神秘面纱

■淘宝数据服务架构实时计算平台

讲师介绍

张老师,( )资深讲师。阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。　

课程介绍评价详情(0)