你的位置: 首页 > 公开课首页 > 市场营销 > 课程详情

details

Spark大数据处理与案例分析高级工程师实战培训

推荐

暂无评价   
  • 开课时间:2017/01/07 09:00 已结束
  • 结束时间:2017/01/11 17:00
  • 开课地点:广州市
  • 授课讲师: 张老师
  • 课程编号:321258
  • 课程分类:市场营销
  •  
  • 收藏 人气:519
你实际购买的价格
付款时最多可用0淘币抵扣0元现金
购买成功后,系统会给用户帐号返回的现金券
淘课价格
6800
你还可以: 收藏

培训受众:

各地政府云计算物联网产业相关负责人,各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人

课程收益:

课程目标 本课程将为大家全面而又深入的介绍Spark相关内容导读“Spark” 大数据实时处理-基于Spark的大数据实时处理及应用技术培训 北京2016-4-20(3天)
Spark生态系统(BDAS项目)已经发展成一个,包含多个子项目的集合,包括Spark SQL、Spark Streaming、GraphX、MLlib等,基于Spark的大数据实时处理及应用技术课程从大数据实时处理技术以及Spark实战的角度,结合理论和实践,全方位地介绍Spark大数据实时处理工具的原理和内核,包括Spark大数据计算框架、运行架构、设计模型和数据管理策略,及Spark在业界的应用。

课程大纲:

培训大纲(3天课程)
模块一Spark生态介绍
Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
DlinkDB介绍
parkR介绍

模块二Spark安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark应用程序部署工具spark-submit
Spark的高可用性部署

模块三Spark运行架构和解析
Spark的运行架构
• 基本术语
• 运行架构
• Spark on Standalone运行过程
• Spark on YARN 运行过程
Spark运行实例解析
• Spark on Standalone实例解析
• Spark on YARN实例解析

模块四Sparkscala编程
• Scala基本语法与高阶语法
• Scala基本语法
• Scala开发环境搭建
• Scala开发Spark应用程序
• 使用java编程
• 使用scala编程
• 使用python编程
• 比较 Standalone与YARN模式下的优缺点

模块五Spark编程模型和解析
Spark的编程模型
• Spark编程模型解析
• RDD的特点、操作、依赖关系
• Spark应用程序的配置
Spark的架构
spark的容错机制
数据的本地性
缓存策略介绍
宽依赖与窄依赖

模块六Spark 数据挖掘
Mllib的介绍
graphX核心原理
table operator和graph operator区别
vertices、edges和triplets介绍
构建一个graph
SparkR原理
SparkR实战

模块七Spark Streaming原理和实践
Spark Streaming与Strom的区别
Kafka的部署
Kafka与Spark Streaming的整合
Spark Streaming原理
• Spark流式处理架构
• DStream的特点
• Dstream的操作和RDD的区别
• 带状态的transformation与无状态transformation
• Spark Streaming的优化
Spark Streaming实例
Streaming的容错机制
streaming在yarn模式下的注意事项
对于需结合第三方存储机制的与流式处理方案
• 文本实例
• 网络数据处理
• Kafka+Spark Streaming实现日志的实时分析案例

模块八Spark的优化
序列化优化——Kryo
Spark参数优化实战
Spark 任务的均匀分布策略
Partition key倾斜的解决方案
Spark任务的监控
GC的优化
Spark Streaming吞吐量优化
Spark RDD使用内存的优化策略
Spark在使用中的感想分享

模块九Spark的数据源
Spark与HDFS的整合
HDFS RDD原理和实现
Spark与Hbase的整合
Spark与Cassendera整合
Hbase RDD的分区读取
Hbase RDD的原理和实现
Spark parallelism RDD的工作机制

模块十Spark Streaming应用及案例分析
Spark Streaming产生动机 
Spark Streaming程序设计
(1)创建DStream
(2)基于DStream进行流式处理
Spark Streaming容错与性能优化
(1)Spark Streaming容错机制
(2)如何对spark Streaming进行优化
Spark Streaming案例分析基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法

模块十一 典型项目案例实战
基于spark日志分析
个性化推荐系统:带你揭开其神秘面纱
在线投放引擎
揭开淘宝点击推荐系统的神秘面纱
淘宝数据服务架构—实时计算平台

培训师介绍:

 

张老师:
阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。
近年主要典型的项目有:
某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程对象各地政府云计算物联网产业相关负责人,各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
对于怀有设计疑问和问题,需要梳理解答的团队和个人

本课程名称: Spark大数据处理与案例分析高级工程师实战培训

查看更多:市场营销公开课

it java 设计 相关的最新课程
讲师动态评分 与同行相比

授课内容与课纲相符00%

讲师授课水平00%

服务态度00%