Spark大数据处理与案例分析高级工程师实战培训_公开课

培训受众:

各地政府云计算物联网产业相关负责人，各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人

课程收益:

课程目标本课程将为大家全面而又深入的介绍Spark相关内容导读“Spark” 大数据实时处理-基于Spark的大数据实时处理及应用技术培训北京2016-4-20(3天)
Spark生态系统(BDAS项目)已经发展成一个，包含多个子项目的集合，包括Spark SQL、Spark Streaming、GraphX、MLlib等，基于Spark的大数据实时处理及应用技术课程从大数据实时处理技术以及Spark实战的角度，结合理论和实践，全方位地介绍Spark大数据实时处理工具的原理和内核,包括Spark大数据计算框架、运行架构、设计模型和数据管理策略，及Spark在业界的应用。

课程大纲

培训大纲（3天课程）
模块一Spark生态介绍
Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark（内存计算框架）
SparkSteaming（流式计算框架）
Spark SQL（ad-hoc）
Mllib（MachineLearning）
GraphX（bagel将被代）
DlinkDB介绍
parkR介绍

模块二Spark安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark应用程序部署工具spark-submit
Spark的高可用性部署

模块三Spark运行架构和解析
Spark的运行架构
• 基本术语
• 运行架构
• Spark on Standalone运行过程
• Spark on YARN 运行过程
Spark运行实例解析
• Spark on Standalone实例解析
• Spark on YARN实例解析

模块四Sparkscala编程
• Scala基本语法与高阶语法
• Scala基本语法
• Scala开发环境搭建
• Scala开发Spark应用程序
• 使用java编程
• 使用scala编程
• 使用python编程
• 比较 Standalone与YARN模式下的优缺点

模块五Spark编程模型和解析
Spark的编程模型
• Spark编程模型解析
• RDD的特点、操作、依赖关系
• Spark应用程序的配置
Spark的架构
spark的容错机制
数据的本地性
缓存策略介绍
宽依赖与窄依赖

模块六Spark 数据挖掘
Mllib的介绍
graphX核心原理
table operator和graph operator区别
vertices、edges和triplets介绍
构建一个graph
SparkR原理
SparkR实战

模块七Spark Streaming原理和实践
Spark Streaming与Strom的区别
Kafka的部署
Kafka与Spark Streaming的整合
Spark Streaming原理
• Spark流式处理架构
• DStream的特点
• Dstream的操作和RDD的区别
• 带状态的transformation与无状态transformation
• Spark Streaming的优化
Spark Streaming实例
Streaming的容错机制
streaming在yarn模式下的注意事项
对于需结合第三方存储机制的与流式处理方案
• 文本实例
• 网络数据处理
• Kafka+Spark Streaming实现日志的实时分析案例

模块八Spark的优化
序列化优化——Kryo
Spark参数优化实战
Spark 任务的均匀分布策略
Partition key倾斜的解决方案
Spark任务的监控
GC的优化
Spark Streaming吞吐量优化
Spark RDD使用内存的优化策略
Spark在使用中的感想分享

模块九Spark的数据源
Spark与HDFS的整合
HDFS RDD原理和实现
Spark与Hbase的整合
Spark与Cassendera整合
Hbase RDD的分区读取
Hbase RDD的原理和实现
Spark parallelism RDD的工作机制

模块十Spark Streaming应用及案例分析
Spark Streaming产生动机　
Spark Streaming程序设计
（1）创建DStream
（2）基于DStream进行流式处理
Spark Streaming容错与性能优化
（1）Spark Streaming容错机制
（2）如何对spark Streaming进行优化
Spark Streaming案例分析基于Spark Streaming的用户标签系统，内容包括项目背景，项目架构以及实施方法

模块十一典型项目案例实战
基于spark日志分析
个性化推荐系统：带你揭开其神秘面纱
在线投放引擎
揭开淘宝点击推荐系统的神秘面纱
淘宝数据服务架构—实时计算平台

培训师介绍

张老师：
阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。
近年主要典型的项目有：
某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程对象各地政府云计算物联网产业相关负责人，各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
对于怀有设计疑问和问题，需要梳理解答的团队和个人

本课程名称： Spark大数据处理与案例分析高级工程师实战培训

查看更多：市场营销公开课

上一篇： SOP 标准化作业及生产效率改善

下一篇： SPC＆MSA

与 it java 设计相关的最新课程

•《数字化时代的市场营销高级研修...(2024-11-23 上海市)

•Incoterms2020贸易...(2024-11-21 北京市)

•海外客户开发、维护管理与商务谈...(2024-12-26 上海市)

•采销合同视角下的国际货代实务、...(2024-12-26 上海市)

•构建卓越的客户服务管理体系(2024-11-22 北京市)

•华为铁三角营销实战工作坊(2024-11-28 深圳市)

•营销制胜、勇拔头筹市场营销管理...(2024-11-22 成都市)