刘老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、H、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程介绍 评价详情(0)
培训受众:
高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。
课程收益:
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
培训颁发证书:
课程大纲
课程模块 课程主题  主要内容  案例和演示
第一天 Hadoop简介和生态系统介绍  传统大规模数据分析存在的问题
 Hadoop概述
 Hadoop与分布式文件系统
 Hadoop生态系统
 Hadoop的行业应用案例分析
 Hadoop在云计算和大数据的位置和关系
 Hadoop版本介绍
 Hadoop与Google FS的关系
 Hadoop在国内的使用情况和未来  Hadoop在推荐领域的使用案例介绍
大数据应用场景  离线计算架构、技术和应用场景
 实时查询架构、技术和应用场景
 流式计算架构、技术和应用场景
 内存计算架构、技术和应用场景
 海量数据的ETL
Hadoop组件介绍  Hadoop NameNode 介绍
 Hadoop SecondaryNameNode 介绍
 Hadoop DataNode 介绍
 Hadoop JobTracker 介绍
 Hadoop TaskTracker 介绍
Hadoop的HDFS模块  HDFS架构介绍
 HDFS原理介绍
 NameNode功能详解
 DataNode功能详解
 SecondaryNameNode功能详解
 HSFD的fsimage和editslog详解
 HDFS的block详解
 HDFS的block的备份策略
 Hadoop的机架感知配置
 HDFS的shell命令介绍
 HDFS的thrift server服务介绍
 HDFS的API接口介绍
 HDFS的权限详解
 Hadoop的客服端接入案例  Hadoop的shell命令演示
 Hadoop的API接口演示
 Hadoop的客服端接入案例
第二天
Hadoop生态组件  集群管理工具—ambari
 分布式存储—HDFS
 分布式计算— MapReduce
 noSQL数据库—H
 工作流工具—Oozie
 数据的并行采集—Flume
 MapReduce脚本工具—Pig
 与关系型数据库之间的数据迁移—Sqoop
 资源管理平台—Yarn
 数据挖掘算法—Mahout
 分布式统一服务—Zookeeper
 Hadoop安全工具—Knox 
MapReducer入门  Mapreduce原理
 MapReduce流程
 剖析一个MapReduce程序
 Mapper和Reducer抽象类详解
 Mapreduce的最小驱动类
 MapReduce自带的类型
 自定义Writables和WritableComparables
 Mapreduce的输入InputFormats
 MapReduce的输出OutputFormats
 Combiner详解
 Partitioner详解
 DistributeFileSystem详解
 Hadoop Tools工具介绍
 Counter计数器详解
 自定义Counter计数器
 基于Hadoop二次开发实战
 MapReduce的优化
 Map和Reduce的个数设置
 Hadoop小文件优化
 任务调度
 默认的任务调度
 公平任务调度
 能力任务调度
 使用 Hadoop MapReduce Streaming 编程
 MapReduce的单元测试  MapReduce实现海量数据比较大小案例
 自定义Hadoop类型案例
 自定义Partitioner案例
 实现在内存随机生成100个数,分成两个Map来比较大小
 多文件输出和自动定义MapReduce的输出名
 MapReduce实现Join算法案例
 MapReduce实现海量文档相似度算法
 自定义Counter案例实现
 MapReduce实现Pangrank算法。
 MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。
 某公司使用MapReduce分析日志案例(10T数据以上)
 配置公平调度器案例实战
Yarn资源控制  使用Cgroups支持CPU隔离
 指定某个应用的资源使用策略;
 根据指定策略实现 CPU 与内存的固定配额调度
 根据指定策略实现 CPU 与内存百分比的配额调度
 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布
根据指定策略实现不同计算模型个对资源的限定
根据指定策略实现不同计算模型在具体哪些节点上启动
基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler)  Yarn资源控制实战
Hive  Hive和Pig基础
 Hive、Impala和presto的比较
 Hive的作用和原理说明
 Hadoop仓库和传统数据仓库的协作关系
 Hadoop/Hive仓库数据数据流
 Hive 部署和安装
 Hive Cli 的基本用法
 Hive的server启动
 HQL基本语法
 Hive的加载数据本地加载和HDFS加载
 Hive的partition详解
 Hive的存储方式详解
 RCFILE、TEXTFILE和SEQUEUEFILE
 Hive的UDF和UDAF
 Hive的transform详解
 Hive的JDBC连接  使用JDBC 连接Hive进行查询和分析
 使用正则表达式加载数据
 编写UDF函数
 编写UDAF自定义函数
 Partition使用实战
 Transform使用实战
 某些大型公司使用hive分析日志案例详解和实战。
第三天
H使用
 H原理
 Hmaster详解
 RegionServer详解
 Zookeeper介绍
 H安装
 H逻辑视图介绍
 H物理视图介绍
 H的二级索引介绍
 H 的DDL和DML
 H表的设计案例
 H的import功能介绍
 MapReduce操作H
 H的 thrift Server介绍
 H 的API介绍
 H案例分析  H安装实战
 MapReduce操作H实战
 H的API实战
 H表结构设计实战
Spark介绍
 内存计算—Spark
 实时计算—Spark Streaming
 SQL on Spark— Spark QL & Shark
 基于spark的数据挖掘— Mllib
 基于Spark的图计算—graphx
 Spark on Yarn实战
 Spark Kafka Spark Streaming H实时计算实战
互联网大数据应用案例
 阿里的ODPS大数据平台架构介绍
 阿里的实时推荐架构
 阿里的交叉营销系统
 阿里支付宝交易监控系统
 支付宝微贷案例分析(互联网征信系统)
 京东打白条系统分析
 百度预测大数据平台案例分析
 联通大数据开放平台变现案例分析
 基于spark推荐案例实战(数据导入、数据建模、开发、效果展示)
 银行大数据风险监控系统架构详解
培训师介绍
本课程名称: “Hadoop大数据处理高级工程师” 实战培训
查看更多:语言公开课