大数据平台搭建与高性能计算最佳实战培训班_公开课

第一天
上午
■大数据技术基础
1.大数据的产生背景与发展历程
2.大数据的4V特征，以及与云计算的关系
3.大数据应用需求以及潜在价值分析
4.业界最新的大数据技术发展态势与应用趋势
5.大数据思维的转变
6.大数据项目的系统与技术选型，及落地实施的挑战
7.互联网+时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍
■业界主流的大数据技术方案
1.大数据软硬件系统全栈与关键技术介绍
2.大数据生态系统全景图
3.主流的大数据解决方案介绍
4.Apache大数据平台方案剖析
5.CDH大数据平台方案剖析
6.HDP大数据平台方案剖析
7.基于云的大数据平台方案剖析
8.大数据解决方案与传统数据库方案比较
9.国内外大数据平台方案与厂商对比
■大数据计算模型（一）批处理MapReduce
1.MapReduce产生背景与适用场景
2.MapReduce计算模型的基本原理
3.MapReduce作业执行流程
4.MapReduce基本组件，JobTracker和TaskTracker
5.MapReduce高级编程应用，Combiner和Partitioner
6.MapReduce性能优化技巧
7.MapReduce案例分析与开发实践操作
第一天
下午
■大数据存储系统与应用实践
1.分布式文件系统HDFS产生背景与适用场景
2.HDFS master-slave系统架构与读写工作原理
3.HDFS核心组件技术讲解，NameNode与fsimage、editslog，DataNode与数据块
4.HDFS Federation机制，viewfs机制，使用场景讲解
5.HDFS高可用保证机制，SecondaryNameNode，NFS冷备份，基于zookeeper的HA方案
■大数据实战练习一
1. Hadoop平台搭建、部署与应用实践，包含HDFS分布式文件系统，YARN资源管理软件，MapReduce计算框架软件
2. HDFS shell命令操作
3. MapReduce程序在YARN上运行
第二天
上午
■Hadoop框架与生态发展，以及应用实践操作
1.Hadoop的发展历程
2.Hadoop 1.0的核心组件JobTracker，TaskTracker，以及适用范围
3.Hadoop 2.0的核心组件YARN工作原理，以及与Hadoop 1.0的联系与区别
4.Hadoop YARN的资源管理与作业调度机制
5.Hadoop 常用性能优化技术
■大数据计算模型（二）实时处理/内存计算 Spark
■1.MapReduce计算模型的瓶颈
2.Spark产生动机、基本概念与适用场景
3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制
4.Spark实时处理平台运行架构与核心组件
5.Spark宽、窄依赖关系与DAG图分析
6.Spark容错机制
7.Spark作业调度机制
8.Spark standardalone，Spark on YARN运行模式
9.Scala开发介绍与Spark常用Transformation函数介绍
第二天
下午
■大数据仓库查询技术Hive、SparkSQL、Impala，以及应用实践
1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
2.Hive数据仓库的平台架构与核心技术剖析
3.Hive metastore的工作机制与应用
4.Hive 分区、分桶机制，Hive行、列存储格式
5.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
6.Spark SQL实时数据仓库的实现原理与工作机制
7.SparkSQL程序开发与DataFrame机制介绍
8.基于MPP的大型分布式数据仓库Impala基础知识与应用场景
9.Impala实时查询系统平台架构、关键技术介绍，以及与Hive，SparkSQL的对比
■Hadoop集群运维监控工具
1.Hadoop运维管理监控系统Ambari工具介绍
2. 第三方运维系统与工具Ganglia, Nagios
■大数据实战练习二
1.基于 Hadoop平台搭建、部署与配置Spark集群，Spark shell环境实践，Spark案例程序分析，Spark程序开发与运行
2. 基于MapReduce的Hive数据仓库实践，Hive集群安装部署，基于文件的Hive数据仓库表导入导出与分区操作，Hive SQL操作，Hive客户端操作
3. 基于Hive的SparkSQL shell实践操作
第三天
上午
■大数据计算模型（三）流处理Storm, SparkStreaming
■1.流数据处理应用场景与流数据处理的特点
2.流数据处理工具Storm的平台架构与集群工作原理
3.Storm关键技术与并发机制
4.Storm编程模型与基本开发模式
5.Storm数据流分组
6.Storm可靠性保证与Acker机制
7.Storm应用案例分析
8.流数据处理工具Spark Streaming基本概念与数据模型
9.SparkStreaming工作机制
10.SparkStreaming程序开发介绍
11.Storm与SparkStreaming的对比
第三天
下午
■大数据ETL操作工具，与大数据分布式采集系统
1.Hadoop与DBMS之间数据交互工具的应用
2.Sqoop导入导出数据的工作原理
3.Flume-NG数据采集系统的数据流模型与系统架构
4.Kafka分布式消息订阅系统的应用介绍与平台架构，及其使用模式
■面向OLTP型应用的NoSQL数据库及应用实践
1.关系型数据库瓶颈，以及NoSQL数据库的发展，概念，分类，及其在半结构化和非结构化数据场景下的适用范围
2.列存储NoSQL数据库HBase简介与数据模型剖析
3.HBase分布式集群系统架构与读写机制，ZooKeeper分布式协调服务系统的工作原理与应用
4.HBase表设计模式与primary key设计规范
5.文档NoSQL数据库MongoDB简介与数据模型剖析
6.MongoDB集群模式、读写机制与常用API操作
8.键值型NoSQL数据库Redis简介与数据模型剖析
9.Redis多实例集群架构与关键技术
10.NewSQL数据库技术简介及其适用场景
■大数据实战练习三
1.Sqoop安装、部署与配置，基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出
2.Kafka安装、部署与配置，基于Kafka创建和消费topic实践操作
3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作
■大数据项目选型、实施、优化等问题交流讨论
■大数据项目的需求分析、应用实施、系统优化，以及解决方案等咨询与交流讨论
第四天
■学习考核与业内经验交流

课程介绍评价详情(0)

课程收益:

通过此次课程培训，可使学习者获得如下收益：
1.深刻理解在互联网+时代下大数据的产生背景、发展历程和演化趋势；
2.了解业界市场需求和国内外最新的大数据技术潮流，洞察大数据的潜在价值；
3.理解大数据项目解决方案及业界大数据应用案例，从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考；
4.掌握业界最流行的Hadoop与Spark大数据技术体系；
5.掌握大数据采集技术；
6.掌握大数据分布式存储技术；
7.掌握NoSQL与NewSQL分布式数据库技术；
8.掌握大数据仓库与统计机器学习技术；
9.掌握大数据分析挖掘与商业智能（BI）技术；
10.掌握大数据离线处理技术；
11.掌握Storm流式大数据处理技术；
12.掌握基于内存计算的大数据实时处理技术；
13.掌握大数据管理技术的原理知识和应用实战；
14.深入理解大数据平台技术架构和使用场景；
15.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求；
16.熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。

课程大纲

培训师介绍

蒋老师,()资深讲师。清华大学博士，云计算专家熟悉主流的云计算平台，并有商业与开源云计算平台的实践经验,对云计算关键技术有深刻了解和实践经验，如分布式系统、虚拟化、分布式文件系统、云存储等，参与并领导多个大型云计算项目。对大数据关键技术有深刻了解和实践经验，如NoSQL数据库、大数据处理、Hadoop、Hive、HBase、Spark等。

本课程名称： 大数据平台搭建与高性能计算最佳实战培训班

查看更多：职业技能公开课

上一篇：大数据可视化技术与应用培训

下一篇：大数据时代的社会化营销

与思维 互联网 制造业 数据库 相关的最新课程

•全国化妆品配方师资格证考试护肤...(2024-12-02 上海市)

•《秘书与助理职业化综合技能提升...(2024-11-14 上海市)

•《Excel在职场办公中的高效...(2024-11-14 北京市)

•《Excel高效应用&...(2024-11-14 北京市)

•《PPT设计制作与商务呈现》(2024-11-15 北京市)

•大数据挖掘、可视化与ChatG...(2024-11-21 北京市)

•软件设计模式与软件重构实战训练...(2024-11-21 北京市)