Hadoop大数据平台开发与案例分析_公开课

课程详情

第一天上午

第一部分：移动互联网、大数据、云计算相关技术介绍

第二部分：大数据的挑战和发展方向

理论讲授+案例分析

下午

第三部分：大数据文件存储系统技术和分布式文件系统平台及其应用

第四部分：Hadoop文件系统HDFS最佳实战

理论讲授+案例分析+小组讨论

第二天

上午

第五部分：Hadoop运维管理与性能调优

第六部分：NOSQL数据库Hbase与Redis

理论讲授+案例分析+实战演练

下午

第七部分：类SQL语句工具Hive

第八部分：数据挖掘SPARK建模基础介绍

理论讲授+案例分析+实战演练

第三天

上午

第九部分：Kafka基础介绍

第十部分：大数据典型应用与开发案例分析：互联网数据运营理论讲授+案例分析

下午

第十一部分：当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例

第十二部分：课程总结与问题答疑

评估培训

理论讲授+案例分析+小组讨论

模块一移动互联网、大数据、云计算相关技术介绍

1、数据中心与云计算技术应用

2、智慧城市与云计算技术应用

3、移动互联网、大数据与云计算关联技术

4、移动云计算的生态系统及产业链

5、大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践

6、国内外主流的大数据解决方案介绍

7、当前大数据解决方案与传统数据库方案的剖析比较

8、Cloudera Hadoop 大数据平台方案剖析

9、开源的大数据生态系统平台剖析

模块二大数据的挑战和发展方向

1、大数据时代的挑战

■战略决策能力

■技术开发和数据处理能力

■组织和运营能力

2、大数据时代的发展方向

■云计算是基础设施架构

■大数据是灵魂资产

■分析、挖掘是手段

■发现和预测是最终目标

3、大数据挖掘在各行业应用情况

■电信行业应用及案例分析

■互联网行业应用及案例分析

■金融行业应用及案例研究

■销售行业应用案例分析

课程模块课程主题主要内容及案例和演示

模块一移动互联网、大数据、云计算相关技术介绍 1、数据中心与云计算技术应用

2、智慧城市与云计算技术应用

3、移动互联网、大数据与云计算关联技术

4、移动云计算的生态系统及产业链

5、大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践

6、国内外主流的大数据解决方案介绍

7、当前大数据解决方案与传统数据库方案的剖析比较

8、Cloudera Hadoop 大数据平台方案剖析

9、开源的大数据生态系统平台剖析

模块二大数据的挑战和发展方向 1、大数据时代的挑战

■战略决策能力

■技术开发和数据处理能力

■组织和运营能力

2、大数据时代的发展方向

■云计算是基础设施架构

■大数据是灵魂资产

■分析、挖掘是手段

■发现和预测是最终目标

3、大数据挖掘在各行业应用情况

■电信行业应用及案例分析

■互联网行业应用及案例分析

■金融行业应用及案例研究

■销售行业应用案例分析

模块三大数据文件存储系统技术和分布式文件系统平台及其应用 1、Hadoop的发展历程

■Hadoop大数据平台架构

■基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制

■Hadoop 的核心组件剖析

2、分布式文件系统HDFS

■概述、功能、作用、优势

■应用范畴、应用现状

■发展趋势

3、分布式文件系统HDFS架构及原理

■核心关键技术

■设计精髓

■基本工作原理

■系统架构

■文件存储模式

■工作机制

■存储扩容与吞吐性能扩展

4、分布式文件系统HDFS操作

■SHELL命令操作

■I/O流式操作

■文件数据读取、写入、追加、删除

■文件状态查询

■数据块分布机制

■数据同步与一致性

■元数据管理技术

■主节点与从节点工作机制

■大数据负载均衡技术

■HDFS大数据存储集群管理技术

5、Hadoop生态系统组件

■Storm

■HDFS

■MapReduce

■HIVE

■HBase

■Spark

■GraphX

■MLib

■Shark

模块四 Hadoop文件系统HDFS最佳实战

1、HDFS的设计

2、HDFS的概念

■数据块

■namenode和datanode

■联邦HDFS

■HDFS的高可用性

3、命令行接口

4、Hadoop文件系统

5、Java接口

■从Hadoop URL读取数据

■通过FileSystem API读取数据

■写入数据

■目录

■查询文件系统

■删除数据

6、数据流

■剖析文件读取

■剖析文件写入

■一致模型

7、通过Flume和Sqoop导入数据

8、通过distcp并行复制

9、Hadoop存档

■使用Hadoop存档工具

■不足

模块五 Hadoop运维管理与性能调优

1、第二代大数据处理框架

■Yarn的工作原理及

■DAG并行执行机制

■Yarn大数据分析处理案例分析

■Yarn 框架并行应用程序实践

2、集群配置管理

■Hadoop集群配置

■Hadoop性能调优与参数配置

■Hadoop机架感知策略与配置

■Hadoop压缩机制

■Hadoop任务负载均衡

■Hadoop 集群维护

■Hadoop监控管理

3、HDFS的静态调优技巧

■HDFS 的高吞吐量I/O性能调优技巧

■MapReduce/Yarn的并行处理性能调优技巧

■Hadoop集群的运行故障剖析，以及解决方案

■基于Hadoop大数据应用程序的性能瓶颈剖析与提

■Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置

■Hadoop运维管理监控系统Ambari平台的安装部配置

■Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置

模块六 NOSQL数据库Hbase与Redis

1、NOSQL基础

■CAP理论

■Base与ACID

■NOSQL数据库存储类型

键值存储

列存储

文档存储

图形存储

2、HBase分布式数据基础

3、安装Hbase

4、Hbase应用

■HBase的逻辑数据模型，HBase的表、行、列族、列、单元格、版本、row key排序

■HBase的物理模型，命名空间（表空间）、表模式（Schema）的设计法则

■HBase 主节点HMaster的工作原理，HMaster的高可用配置，以及性能调优

■HBase 从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优

■HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构剖析

■HBase表设计与数据操作以及数据库管理操作

■HBase集群的安装部署、参数配置和性能优化

5、HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处

■HBase分布式数据库集群的主从式平台架构和关键技术剖析

■HBase伪分布式和物理集群分布式的控制与运行配置

■HBase从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优

■HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构剖析

■HBase表设计与数据操作以及数据库管理操作

■HBase集群的安装部署、参数配置和性能优化

■ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战

■ZooKeeper集群的原理架构，以及应用配置

6、Redis内存数据库介绍，以及业界应用案例

■Redis内存数据库集群架构以及核心技术剖析

■Redis 集群的安装部署与应用开发实战

模块七类SQL语句工具Hive

1、安装Hive

2、示例

3、运行Hive

■配置Hive

■Hive服务

■Metastore

4、Hive与传统数据库相比

■读时模式vs.写时模式

■更新、事务和索引

5、HiveQL

■数据类型

■操作与函数

6、表

■托管表和外部表

■分区和桶

■存储格式

■导入数据

■表的修改

■表的丢弃

7、查询数据

■排序和聚集

■MapReduce脚本

■连接

■子查询

■视图

8、用户定义函数

■写UDF

■写UDAF

模块八数据挖掘SPARK建模基础介绍

1、Spark简介

■Spark是什么

■Spark生态系统BDAS

2、Spark架构

■Spark分布式架构与单机多核架构的异同

3、Spark集群的安装与部署

■Spark的安装与部署

■Spark集群初试

4、Spark硬件配置

■Spark硬件

■Spark硬件配置流程

模块九 Kafka基础介绍

1、Kafka介绍

2、kafka体系结构

3、kafka设计理念简介

4、kafka通信协议

5、kafka的伪分布安装、集群安装

6、kafka的shell操作、java操作

7、kafka设计理念*

8、kafka producer和consumer开发

9、Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战

10、Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战

11、Hadoop与DBMS之间数据交互工具Sqoop的应用实践，

12、Sqoop导入导出数据以及Sqoop集群部署与配置

13、Kettle 集群的平台架构、核心技术、部署配置和应用实战

14、利用Sqoop实现 MySQL 与 Hadoop 集群之间

模块十大数据典型应用与开发案例分析：互联网数据运营

1、案例1：贵州数据交易中心

■交易所交易形式：电子交易

■交易所服务：大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发

■大数据交易安全性探讨分析

■数据交易中心商业模式探讨分析

2、案例2：大数据应用案例：公共交通线路的智能规划

■UrbanInsights：为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务

■Urban Insights数据源、数据收集、数据仓库、数据分析设计运营线路

■Urban Insights通过互联网数据的运营

3、讨论：浙江移动大数据应用与开发方向

模块十一当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例 1、流商业大数据解决方案比较

2、主流开源云计算系统比较?

3、国内外代表性大数据平台比较?

4、各厂商最新的大数据产品介绍

5、案例分析

■Facebook的SNS平台应用

■Google的搜索引擎应用

■Rackspace的日志处理

■Verizon成立精准市场营销部

■TelefonicaDynamicInsights推出的名为智慧足迹的商业服务

■中国联通的移动通信用户上网记录集中查询与分析支撑系统

模块十二

课程总结与问题答疑

讲师介绍

张老师,( )资深讲师。阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。　

课程介绍评价详情(0)