淘课网-企业专家讲师服务平台

培训受众:

IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人，CIO、信息中心、技术总监，云计算产业投资团队，云计算应用开发商，云计算硬件设备、运营服务提供商，高校、科研院所云计算项目负责人。
高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。

课程收益:

1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点，从而把握分布式计算框架及未来发展方向，在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、全面掌握Hadoop的架构原理和使用场景，并通过贯穿课程的项目进行实战锻炼，从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍，帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识，可以独立规划及部署生产环境的Hadoop集群，掌握Hadoop基本运维思路和方法，对Hadoop集群进行管理和优化。

培训颁发证书:

工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明，以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。证书查询：www.ncie.gov.cn

课程大纲:

培训内容（3天课程）
课程模块课程主题  主要内容  案例和演示

第一天 Hadoop简介和生态系统介绍  传统大规模数据分析存在的问题
 Hadoop概述
 Hadoop与分布式文件系统
 Hadoop生态系统
 Hadoop的行业应用案例分析
 Hadoop在云计算和大数据的位置和关系
 Hadoop版本介绍
 Hadoop与Google FS的关系
 Hadoop在国内的使用情况和未来  Hadoop在推荐领域的使用案例介绍
大数据应用场景  离线计算架构、技术和应用场景
 实时查询架构、技术和应用场景
 流式计算架构、技术和应用场景
 内存计算架构、技术和应用场景
 海量数据的ETL
Hadoop组件介绍  Hadoop NameNode 介绍
 Hadoop SecondaryNameNode 介绍
 Hadoop DataNode 介绍
 Hadoop JobTracker 介绍
 Hadoop TaskTracker 介绍
Hadoop的HDFS模块  HDFS架构介绍
 HDFS原理介绍
 NameNode功能详解
 DataNode功能详解
 SecondaryNameNode功能详解
 HSFD的fsimage和editslog详解
 HDFS的block详解
 HDFS的block的备份策略
 Hadoop的机架感知配置
 HDFS的shell命令介绍
 HDFS的thrift server服务介绍
 HDFS的API接口介绍
 HDFS的权限详解
 Hadoop的客服端接入案例  Hadoop的shell命令演示
 Hadoop的API接口演示
 Hadoop的客服端接入案例

第二天
Hadoop生态组件  集群管理工具—ambari
 分布式存储—HDFS
 分布式计算— MapReduce
 noSQL数据库—H
 工作流工具—Oozie
 数据的并行采集—Flume
 MapReduce脚本工具—Pig
 与关系型数据库之间的数据迁移—Sqoop
 资源管理平台—Yarn
 数据挖掘算法—Mahout
 分布式统一服务—Zookeeper
 Hadoop安全工具—Knox 
MapReducer入门  Mapreduce原理
 MapReduce流程
 剖析一个MapReduce程序
 Mapper和Reducer抽象类详解
 Mapreduce的最小驱动类
 MapReduce自带的类型
 自定义Writables和WritableComparables
 Mapreduce的输入InputFormats
 MapReduce的输出OutputFormats
 Combiner详解
 Partitioner详解
 DistributeFileSystem详解
 Hadoop Tools工具介绍
 Counter计数器详解
 自定义Counter计数器
 基于Hadoop二次开发实战
 MapReduce的优化
 Map和Reduce的个数设置
 Hadoop小文件优化
 任务调度
 默认的任务调度
 公平任务调度
 能力任务调度
 使用 Hadoop MapReduce Streaming 编程
 MapReduce的单元测试  MapReduce实现海量数据比较大小案例
 自定义Hadoop类型案例
 自定义Partitioner案例
 实现在内存随机生成100个数，分成两个Map来比较大小
 多文件输出和自动定义MapReduce的输出名
 MapReduce实现Join算法案例
 MapReduce实现海量文档相似度算法
 自定义Counter案例实现
 MapReduce实现Pangrank算法。
 MapReduce单元测试：Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。
 某公司使用MapReduce分析日志案例（10T数据以上）
 配置公平调度器案例实战

Yarn资源控制  使用Cgroups支持CPU隔离
 指定某个应用的资源使用策略；
 根据指定策略实现 CPU 与内存的固定配额调度
 根据指定策略实现 CPU 与内存百分比的配额调度
 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布
 根据指定策略实现不同计算模型个对资源的限定
 根据指定策略实现不同计算模型在具体哪些节点上启动
 基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler)  Yarn资源控制实战
Hive  Hive和Pig基础
 Hive、Impala和presto的比较
 Hive的作用和原理说明
 Hadoop仓库和传统数据仓库的协作关系
 Hadoop/Hive仓库数据数据流
 Hive 部署和安装
 Hive Cli 的基本用法
 Hive的server启动
 HQL基本语法
 Hive的加载数据本地加载和HDFS加载
 Hive的partition详解
 Hive的存储方式详解
 RCFILE、TEXTFILE和SEQUEUEFILE
 Hive的UDF和UDAF
 Hive的transform详解
 Hive的JDBC连接  使用JDBC 连接Hive进行查询和分析
 使用正则表达式加载数据
 编写UDF函数
 编写UDAF自定义函数
 Partition使用实战
 Transform使用实战
 某些大型公司使用hive分析日志案例详解和实战。
第三天
H使用
 H原理
 Hmaster详解
 RegionServer详解
 Zookeeper介绍
 H安装
 H逻辑视图介绍
 H物理视图介绍
 H的二级索引介绍
 H 的DDL和DML
 H表的设计案例
 H的import功能介绍
 MapReduce操作H
 H的 thrift Server介绍
 H 的API介绍
 H案例分析  H安装实战
 MapReduce操作H实战
 H的API实战
 H表结构设计实战
Spark介绍
 内存计算—Spark
 实时计算—Spark Streaming
 SQL on Spark— Spark QL & Shark
 基于spark的数据挖掘— Mllib
 基于Spark的图计算—graphx
 Spark on Yarn实战
 Spark Kafka Spark Streaming H实时计算实战
互联网大数据应用案例
 阿里的ODPS大数据平台架构介绍
 阿里的实时推荐架构
 阿里的交叉营销系统
 阿里支付宝交易监控系统
 支付宝微贷案例分析(互联网征信系统)
 京东打白条系统分析
 百度预测大数据平台案例分析
 联通大数据开放平台变现案例分析
 基于spark推荐案例实战(数据导入、数据建模、开发、效果展示)
 银行大数据风险监控系统架构详解

培训师介绍：

刘老师：阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、H、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

课程介绍评价详情(0)