你的位置: 首页 > 公开课首页 > 职业技能 > 课程详情

details

大数据平台搭建与高性能计算最佳实战

暂无评价   
  • 开课时间:2019/05/17 09:00 已结束
  • 结束时间:2019/05/20 17:00
  • 开课地点:武汉市
  • 授课讲师: 蒋老师
  • 课程编号:386101
  • 课程分类:职业技能
  •  
  • 收藏 人气:152
你实际购买的价格
付款时最多可用0淘币抵扣0元现金
购买成功后,系统会给用户帐号返回的现金券
淘课价格
5800
你还可以: 收藏

课程大纲:

课程详情

第一天

上午

■大数据技术基础

1.大数据的产生背景与发展历程

2.大数据的4V特征,以及与云计算的关系

3.大数据应用需求以及潜在价值分析

4.业界最新的大数据技术发展态势与应用趋势

5.大数据思维的转变

6.大数据项目的系统与技术选型,及落地实施的挑战

7.互联网+时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

■业界主流的大数据技术方案

1.大数据软硬件系统全栈与关键技术介绍

2.大数据生态系统全景图

3.主流的大数据解决方案介绍

4.Apache大数据平台方案剖析

5.CDH大数据平台方案剖析

6.HDP大数据平台方案剖析

7.基于云的大数据平台方案剖析

8.大数据解决方案与传统数据库方案比较

9.国内外大数据平台方案与厂商对比

■大数据计算模型(一)批处理MapReduce

1.MapReduce产生背景与适用场景

2.MapReduce计算模型的基本原理

3.MapReduce作业执行流程

4.MapReduce基本组件,JobTracker和TaskTracker

5.MapReduce高级编程应用,Combiner和Partitioner

6.MapReduce性能优化技巧

7.MapReduce案例分析与开发实践操作

第一天

下午

■大数据存储系统与应用实践

1.分布式文件系统HDFS产生背景与适用场景

2.HDFS master-slave系统架构与读写工作原理

3.HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块

4.HDFS Federation机制,viewfs机制,使用场景讲解

5.HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案

■大数据实战练习一

1. Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件

2. HDFS shell命令操作

3. MapReduce程序在YARN上运行

第二天

上午

■Hadoop框架与生态发展,以及应用实践操作

1.Hadoop的发展历程

2.Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围

3.Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别

4.Hadoop YARN的资源管理与作业调度机制

5.Hadoop 常用性能优化技术

■大数据计算模型(二)实时处理/内存计算 Spark

■1.MapReduce计算模型的瓶颈

2.Spark产生动机、基本概念与适用场景

3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制

4.Spark实时处理平台运行架构与核心组件

5.Spark宽、窄依赖关系与DAG图分析

6.Spark容错机制

7.Spark作业调度机制

8.Spark standardalone,Spark on YARN运行模式

9.Scala开发介绍与Spark常用Transformation函数介绍

第二天

下午

■大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践

1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

2.Hive数据仓库的平台架构与核心技术剖析

3.Hive metastore的工作机制与应用

4.Hive 分区、分桶机制,Hive行、列存储格式

5.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

6.Spark SQL实时数据仓库的实现原理与工作机制

7.SparkSQL程序开发与DataFrame机制介绍

8.基于MPP的大型分布式数据仓库Impala基础知识与应用场景

9.Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

■Hadoop集群运维监控工具

1.Hadoop运维管理监控系统Ambari工具介绍

2. 第三方运维系统与工具Ganglia, Nagios

■大数据实战练习二

1.基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践,Spark案例程序分析,Spark程序开发与运行

2. 基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作

3. 基于Hive的SparkSQL shell实践操作

第三天

上午

■大数据计算模型(三)流处理Storm, SparkStreaming

■1.流数据处理应用场景与流数据处理的特点

2.流数据处理工具Storm的平台架构与集群工作原理

3.Storm关键技术与并发机制

4.Storm编程模型与基本开发模式

5.Storm数据流分组

6.Storm可靠性保证与Acker机制

7.Storm应用案例分析

8.流数据处理工具Spark Streaming基本概念与数据模型

9.SparkStreaming工作机制

10.SparkStreaming程序开发介绍

11.Storm与SparkStreaming的对比

第三天

下午

■大数据ETL操作工具,与大数据分布式采集系统

1.Hadoop与DBMS之间数据交互工具的应用

2.Sqoop导入导出数据的工作原理

3.Flume-NG数据采集系统的数据流模型与系统架构

4.Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

■面向OLTP型应用的NoSQL数据库及应用实践

1.关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

2.列存储NoSQL数据库HBase简介与数据模型剖析

3.HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

4.HBase表设计模式与primary key设计规范

5.文档NoSQL数据库MongoDB简介与数据模型剖析

6.MongoDB集群模式、读写机制与常用API操作

8.键值型NoSQL数据库Redis简介与数据模型剖析

9.Redis多实例集群架构与关键技术

10.NewSQL数据库技术简介及其适用场景

■大数据实战练习三

1.Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出

2.Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作

3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作

■大数据项目选型、实施、优化等问题交流讨论

■大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

第四天

■学习考核与业内经验交流

讲师介绍

蒋老师,资深讲师。清华大学博士,云计算专家 熟悉主流的云计算平台,并有商业与开源云计算平台的实践经验,对云计算关键技术有深刻了解和实践经验,如分布式系统、虚拟化、分布式文件系统、云存储等,参与并领导多个大型云计算项目。对大数据关键技术有深刻了解和实践经验,如NoSQL数据库、大数据处理、Hadoop、Hive、HBase、Spark等。


赵老师,资深讲师。清华大学计算机双学士,甲骨文(中国)软件系统有限公司高级技术顾问,大数据、数据库、中间件技术和Java专家。15年IT行业从业经历,10年培训授课经验。具有丰富的大数据方法论、数据科学、大数据生态圈技术知识和大数据规划建设、应用实施和客户培训经验。


张老师,资深讲师。天津大学软件工程硕士,10多年的IT领域相关技术研究和项目开发工作,在长期软件领域工作过程中,对软件企业运作模式有深入研究,熟悉软件质量保障标准ISO9003和软件过程改进模型CMM/CMMI,在具体项目实施过程中总结经验,有深刻认识。通晓多种软件设计和开发工具。对软件开发整个流程非常熟悉,能根据项目特点定制具体软件过程,并进行项目管理和监控,有很强的软件项目组织管理能力。对C/C++ 、HTML 5、python、Hadoop、java、java EE、android、IOS、大数据、云计算有比较深入的理解和应用,具有较强的移动互联网应用需求分析和系统设计能力,熟悉Android框架、IOS框架等技术,了解各种设计模式,能在具体项目中灵活运用。


本课程名称: 大数据平台搭建与高性能计算最佳实战

查看更多:职业技能公开课

设计 相关的最新课程
讲师动态评分 与同行相比

授课内容与课纲相符00%

讲师授课水平00%

服务态度00%