淘课网-企业专家讲师服务平台

培训受众:

各地政府云计算物联网产业相关负责人，各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人

课程收益:

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、系统基础知识，概念及架构， Spark实战技巧，Spark经典案例等。
通过本课程实践，帮助学员对Spark生态系统有一个清晰明了的认识；理解Spark、系统适用的场景；掌握Spark等初中级应用开发技能；搭建稳定可靠的Spark集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴等

培训颁发证书:

参加相关培训并通过考试的学员，可以获得：
1.工业和信息化部颁发的《Spark大数据处理高级工程师证书》该证书可作为专业技术人员职业能力考核的证明，以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注：请学员带一寸彩照2张（背面注明姓名）、身份证复印件一张。

课程大纲:

课程模块	课程主题	主要内容(内容可以根据学员的要求可以现场调整）
模块一	Spark 生态介绍	¬ Mapreduce、storm和spark模型的比较和使用场景介绍 ¬ Spark产生背景 ¬ Spark（内存计算框架） ¬ SparkSteaming（流式计算框架） ¬ Spark SQL（ad-hoc） ¬ Mllib（MachineLearning） ¬ GraphX（bagel将被代） ¬ DlinkDB介绍 ¬ SparkR介绍
模块二	Spark 安装部署	¬ Spark安装简介 ¬ Spark的源码编译 ¬ Spark Standalone安装 ¬ Spark应用程序部署工具spark-submit ¬ Spark的高可用性部署
模块三	Spark 运行架构和解析	¬ Spark的运行架构 • 基本术语 • 运行架构 • Spark on Standalone运行过程 • Spark on YARN 运行过程 ¬ Spark运行实例解析 • Spark on Standalone实例解析 • Spark on YARN实例解析 • 比较 Standalone与YARN模式下的优缺点
模块四	Spark scala编程	• Scala基本语法与高阶语法 • Scala基本语法 • Scala开发环境搭建 • Scala开发Spark应用程序 • 使用java编程 • 使用scala编程 • 使用python编程
模块五	Spark 编程模型和解析	¬ Spark的编程模型 • Spark编程模型解析 • RDD的特点、操作、依赖关系 • Spark应用程序的配置 • Spark的架构 • spark的容错机制 • 数据的本地性 • 缓存策略介绍宽依赖与窄依赖
模块六	Spark 数据挖掘	¬ Mllib的介绍 ¬ graphX核心原理 ¬ table operator和graph operator区别 ¬ vertices、edges和triplets介绍 ¬ 构建一个graph ¬ SparkR原理 ¬ SparkR实战
模块七	Spark Streaming原理和实践	¬ Spark Streaming与Strom的区别 ¬ Kafka的部署 ¬ Kafka与Spark Streaming的整合 ¬ Spark Streaming原理 • Spark流式处理架构 • DStream的特点 • Dstream的操作和RDD的区别 • 带状态的transformation与无状态transformation • Spark Streaming的优化 ¬ Spark Streaming实例 • Streaming的容错机制 • streaming在yarn模式下的注意事项对于需结合第三方存储机制的与流式处理方案 • 文本实例 • 网络数据处理 • Kafka+Spark Streaming实现日志的实时分析案例
模块八	Spark的优化	¬ 序列化优化——Kryo ¬ Spark参数优化实战 ¬ Spark 任务的均匀分布策略 ¬ Partition key倾斜的解决方案 ¬ Spark任务的监控 ¬ GC的优化 ¬ Spark Streaming吞吐量优化 ¬ Spark RDD使用内存的优化策略 ¬ Spark在使用中的感想分享
模块九	Spark的数据源	¬ Spark与HDFS的整合 ¬ HDFS RDD原理和实现 ¬ Spark与Hbase的整合 ¬ Spark与Cassendera整合 ¬ Hbase RDD的分区读取 ¬ Hbase RDD的原理和实现 ¬ Spark parallelism RDD的工作机制
模块十	Spark Streaming应用及案例分析	¬ Spark Streaming产生动机 ¬ Spark Streaming程序设计（1）创建DStream （2）基于DStream进行流式处理 ¬ Spark Streaming容错与性能优化（1）Spark Streaming容错机制（2）如何对spark Streaming进行优化 ¬ Spark Streaming案例分析基于Spark Streaming的用户标签系统，内容包括项目背景，项目架构以及实施方法
模块十一	典型项目案例实战	¬ 基于spark日志分析 ¬ 个性化推荐系统：带你揭开其神秘面纱 ¬ 在线投放引擎 ¬ 揭开淘宝点击推荐系统的神秘面纱 ¬ 淘宝数据服务架构—实时计算平台

培训师介绍：

张老师：阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。　

本课程名称： “Spark大数据处理与案例分析高级工程师” 实战培训班

查看更多：互联网/语言公开课

上一篇：上海交通大学高级工商管理研修班

下一篇：网络部署实战及架构设计高级培训班

与 Spark大数据处理与案例分析高级工程师 实战培训班 相关的最新课程

•DAMA 国际数据管理专业人士...(2023-09-21 广州市)

•DAMA中国数据治理工程师CD...(2023-10-24 成都市)

•企业数字化转型顶层设计与企业架...(2023-12-20 北京市)

•2022版ISO27001信息...(2023-10-28 北京市)

•国家软考中级-软件设计师(2023-09-23 北京市)

•国家软考中级-网络工程师(2023-09-23 北京市)

•网络部署实战高级培训班(2023-09-22 三亚市)