1000字范文 > Hadoop大数据零基础高端实战培训系列课程分享

Hadoop大数据零基础高端实战培训系列课程分享

时间：2023-11-23 02:53:45

第一阶段：Hadoop基础篇（50课时） - 千里之行，始于足下（赠送课程）

课程一、基于Linux操作系统平台下的Java语言开发（20课时）

本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识。学习Linux操作系统下Java语言开发的好处

好处一：不再束缚在Windows操作系统下，开阔眼界。

好处二：熟练Linux操作系统的指令，走出“指指点点”的开发，成为真正的代码程序员。

好处三：增加自己的竞争实力，为自己应聘时加上浓浓的一笔。

第一讲

安装虚拟机以及Linux操作系统

第二讲 Linux桌面系统

第三讲 Linux文件和目录管理

第四讲 VIM的使用（上）

第五讲 VIM的使用（下）

第六讲 Linux终端常用命令

第七讲 Java开发环境的搭建

第八讲 Java语言基础（上）

第九讲 Java语言基础（下）

第十讲 Java中IO详解（上）

第十一讲 Java中IO详解（下）

第十二讲 Java中容器详解（上）

第十三讲 Java中容器详解（下）

第十四讲 Java中Swing详解（上）

第十五讲 Java中Swing详解（下）

第十六讲 JSP开发环境的搭建

第十七讲 JSP语法详解（上）

第十八讲 JSP语法详解（下）

第十九讲

开发用户登陆，用户注册系统

课程二、零基础实战Mysql数据库应用开发（30课时）

通过本课程的学习，用户可在最短的时间内掌握MySQL的安装配置与使用、MySQL DML特性的高级用法、MySQL常见内置函数的高级用法、MySQL中存储过程写法、视图、用户自定义函数、触发器等高级用法、MySQL中的事务功能。并了解图形化管理工具的使用、字符集及乱码处理、MySQL的数据备份与还原技术、MySQL的安全技术、MySQL的系统管理、MySQL集群的配置。

第一部分:安装配置MySQL数据库（1课时)

第二部分:图形化管理工具(2课时)

第三部分:存储引擎及数据库基本操作(2课时)

第四部分:字符集及乱码处理(2课时)

第五部分：MySQL DML特性的高级用法（5课时)

第六部分:MySQL内置函数（1课时)

第七部分: MySQL 中的存储过程、触发器高级应用（2课时)

第八部分：MySQL中视图与事务高级应用(3课时)

第九部分：MySQL中索引的使用(1课时)

第十部分:MySQL数据库的安全技术(1课时)

第十一部分:系统管理(1课时)

第十二部分:MySQL备份和还原操作(1课时)

第十三部分:性能优化(1课时)

第十四部分:集群的配置及应用(1课时)

第二阶段：Hadoop全面深入篇（96课时） - 十年寒窗苦，成名天下知

课程一、

Greenplum 分布式数据库开发入门到精通（41课时）

Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中，每个 SMP 节点也可以运行自己的操作系统、数据库等，它的特点主要就是查询速度快，数据装载速度快，批量DML处理快。而且性能可以随着硬件的添加，呈线性增加，拥有非常良好的可扩展性。因此，它主要适用于面向分析的应用。比如构建企业级ODS/EDW，或者数据集市等等。本课程全面深入地介绍了Greenplum数据库，包括架构特性、部署、管理、开发和调优等，由浅入深，理论结合实战，让同学全面彻底掌握这把大数据利剑。

一、 Greenplum架构

什么是Greenplum

Greenplum体系结构

Greenplum高可用性架构

二、安装Greenplum

配置环境

安装并初始化GPDB系统

启停数据库

配置GP系统

三、分布式数据库存储

数据是如何存储的

分布策略

四、 GBDB查询处理

查询命令的执行

SQL查询处理机制

并行查询计划

五、角色权限及客户端认证管理

客户端认证

管理用户和组

六、客户端接口和程序

pgAdmin III

PSQL

七、定义数据库对象

创建并管理数据库

创建并管理表空间

创建并管理模式

创建并管理表

分区表

数据分布与分区

压缩存储与行列存储

序列、索引与视图

八、管理数据

插入、更新、删除记录

事务管理

空间回收和统计

九、查询数据

定义查询

使用函数和运算符

查询分析

十、工作负载及资源管理

GP工作负载管理概述

配置工作负载管理

创建资源队列

分配资源队列

检查资源队列状态

十一、装载和卸载数据

GP装载命令概述

装载数据到GP

从GP卸载数据

格式化数据文件

十二、备份恢复

串行备份和恢复

并行恢复和恢复

十三、性能调优

如何进行调优

常见的性能问题

十四、GP系统配置参数

关于GP的Master参数与本地化参数

设置配置参数

配置参数种类

十五、开启高可用性

GP高可用概述

开启GP的Mirror

获知Segment何时失败

恢复失败的Segment

恢复失败的Master

十六、GP MapReduce

MapReduce基础

GP MapReduce编程

MapReduce作业执行和故障诊断

课程二、全面深入Greenplum Hadoop大数据分析平台（55课时）

大量的半结构化和非结构化信息无法管理和存储，大数据增长速度惊人，每年以几何级数速度增长，需要有专业化的解决方案应对大数据挑战。 EMC 收购了 Greenplum 之后，推出的针对 Hadoop 的 Greenplum 的数据库软件。

采用 Greenplum HD 技术管理半结构化和非结构化信息，整体 TCO 更低，除了进行有效存储和管理，可以通过 MapReduce 技术进行并行的分析和挖掘，把大量的数据存储变成有价值的数据资产。本课程深入阐述了 Hadoop 的架构原理， Hadoop 整体技术架构，包括 HBase 、 Hive 、 Pig 、 ZooKeeper 、 Chukwa 等实战运用。另外还介绍了云计算的基础知识和 Hadoop 在云计算领域的运用，以及剖析了 Hadoop 在各个互联网巨头商业环境的运用。

一、

Hadoop 的起源和体系

Hadoop 思想起源： Google

Hadoop 子项目家族

Hadoop 的架构

二、

Hadoop 的安装与配置

准备和配置环境

三种运行模式

完全分布式模式安装

三、

HDFS- 大数据存储

HDFS 概念与体系结构

HDFS 的可靠性

HDFS 文件操作

HDFS API

四、

关于 MapReduce

MapReduce 编程模型

MapReduce 的集群行为

MapReduce 任务的优化

MapReduce 工作机制

错误处理及作业调度机制

五、

MapReduce 应用开发

Hadoop Eclipse 插件开发

数据筛选程序开发

倒排索引程序开发

六、

Hadoop 监控与管理

页面监控

hadoop 备份

七、

HBase 数据库

Hbase 体系结构

HBase shell

HBase API 应用实例

HBase 场景应用

HBase 模式设计

八、

Hive 数据仓库

Hive 组件与体系架构

Hive 安装配置

Hive 的服务接口

HiveQL 常用操作

Hive 的优化

Hive UDF 编程

Hive 综合实战

九、

Pig 数据分析平台

Pig 框架

Pig 安装配置

Pig 的使用

Pig 的数据模型

常用 Pig Latin 操作

Pig UDF 编程

Pig 数据分析实战

十、 ZooKeeper 分布式服务框架

ZooKeeper 工作原理

ooKeeper 设计目标

ZooKeeper 的数据结构和组成

ZooKeeper 的安装配置

ZooKeeper 命令行工具

ZooKeeper API

ZooKeeper 实战： Hadoop 任务调度

十一、

Chukwa 集群监控系统

Chukwa 的组成

Chukwa 架构和设计

Chukwa 安装与配置

常用 Chukwa 命令

实现自定义数据处理

十二、

Hadoop 商业应用案例

云计算概念和特征

云计算服务模式和形态

Hadoop 在云计算的运用

京东商城

百度

阿里巴巴

腾讯

十三、

Greenplum Hadoop 集群

集成架构的特征

集成架构的优势

配置 gphdfs 协议使用环境

使用 HDFS 外部表

第三阶段：Hadoop高阶应用篇（81课时）

-会当临绝顶，一览众山小

课程一：Hadoop2.0/YARN深入浅出（21课时）

详细讲解了 Hadoop 2.0 架构、部署以及 YARN ，并讲解了运行在 YARN 上主要的计算框架，包括 Spark 、 Storm 和 Tez

一、 Hadoop 2.0 （ 6 课时）

Hadoop 2.0 产生背景

Hadoop 2.0 基本构成

二、 HDFS 2.0

MapReduce 2.0

Hadoop 2.0 安装配置

集群测试

三、 YARN 资源管理系统（ 4 课时）

YARN 产生背景

YARN 基本设计思想

YARN 基本架构

YARN 工作流程

YARN 通信协议

YARN 容错

YARN 资源调度机制

四、 YARN 支持的计算框架（ Storm ， Tez ， Spark ）（ 11 课时）

以 YARN 为核心的生态系统

Storm 基本概念

Storm 流式计算框架

基于 YARN 的 Storm 架构

YARN-Storm 部署

Storm On YARN 服务

Apache Tez 介绍

Tez 特点

Tez 数据处理引擎

DAGAppMaster 实现

Tez 优化机制

Tez 应用场景

Tez 部署

什么是 Spark

Spark 生态系统

Spark 的核心 --RDD 和 Lineage

RDD 的存储、容错机制、内部设计及数据模型

Spark 调度框架

Spark 的分布式部署方式

基于 Mesos 的 Spark 模式

基于 YARN 的 Spark 模式

Spark 的独立模式部署

Spark 的 YARN 模式部署

课程二：MapReduce/Hbase进阶提升（29课时）

本部分内容主要针对 MapReduce 和 HBase 的高阶应用做深入的讲解和实战演练

一、 MapReduce 多语言编程（ 5 课时）

MapReduce 编程接口

Java 编程接口实例解析

Hadoop Streaming 实现方式

Hadoop Streaming 编程实战（ C++ ， PHP ， PYTHON ）

Hadoop Streaming 原理剖析

Hadoop Pipes 的编程实例

Hadoop Pipes 的原理剖析

二、 MapReduce 高阶实现（ 14 课时）

复杂的 MapReduce 应用

K-means 聚类、贝叶斯分类等

工作流编程实例及原理剖析

JobControl 、 ChainMapper/ChainReducer

Hadoop 工作流引擎

常用 MapReduce 优化技巧

配置多个 reducer

设置 Stream 的处理格式

控制分片的大小

避免分片

输入格式：文本输入、多种类型输入

输出控制：多个输出、延迟输出

实战：数据分区

MapReduce 高级特性

计数器、内置计数器

实例：用户自定义计数器

MapReduce 部分排序的实现

实例： MapReduce 全排序

Terasort 算法分析

实例： MapReduce 实现二次排序

连接、 Map 端连接的实现

实例： Reduce 端连接

连接类型、连接策略介绍

重分区连接框架的实现

复制连接框架的实现

实例：半连接

全局作业参数 / 数据文件传递

三、 HBase 编程实践及案例分析（ 10 课时）

HBase 基础精讲

HBase Java 编程实例

HBase 多语言编程

Thrift 安装、服务配置

HBase C++ 编程实例

HBase Python 编程实例

HBase MapReduce 编程基础

实战： HBase MapReduce 编程

Hbase 案例： OpenTSDB 的实现

基于 HBase 的爬虫调度库

基于 HBase 的爬虫索引库

银行人民币查询系统

课程三：Hadoop Sqoop/Flume/Avro实战（14课时）

Hadoop Sqoop 、 Flume 、 Avro 重要子项目的技术实战

一、 Sqoop （ 6 课时）

Sqoop 产生背景、基本

Sqoop1 和 Sqoop2 架构及特点

Sqoop1 安装配置（版本 1.4.4 ）

Sqoop 导入介绍

实战：从 mysql 导入数据到 HDFS

实战：从 mysql 导入数据到 Hive

Sqoop 导出介绍

实战：将 Hive 数据导出到 Mysql

Sqoop 与 Hbase 结合

Sqoop 作业操作

Sqoop 作业安全配置

Sqoop2 安装配置（版本 1.99.3 ）

Sqoop2 使用综合实战

二、 Flume 日志收集系统（ 7 课时）

Flume 概念和特点

Flume OG 架构、组成、特点、容错机制设计

日志收集系统综合比较

Flume NG 架构、核心概念

Flume OG 的安装

Flume OG 的配置（ Web 端、 Flume shell ）

Flume NG 的安装配置、测试

Flume NG 模块配置（ Source 、 Channel 、 Sink ）

三、 Avro 数据序列化系统（ 1 课时）

Avro 介绍

Avro 特性、主要作用

RPC 使用 Avro

Avro 与其他序列化系统的区别

课程四：深入浅出Hadoop Mahout数据挖掘实战（17课时）

1 、 Mahout 数据挖掘工具

2 、 Hadoop 实现推荐系统的综合实战，涉及到 MapReduce 、 Pig 和 Mahout 的综合实战

一、 Mahout 数据挖掘工具（ 10 课时）

数据挖掘概念、系统组成

数据挖掘常用方法及算法（回归分析、分类、聚类等）

数据挖掘分析工具

Mahout 支持的算法

Mahout 起源和特点

Mahout 安装、配置及测试

实战： Mahout K-means 聚类分析

Mahout 实现 Canopy 算法

Mahout 实现分类算法

实战： Mahout 逻辑回归分类预测

实战： Mahout 朴素贝叶斯分类

推荐系统的概念及分类

协同过滤推荐算法概念、分类及应用

实战：实现基于 Mahout 的电影推荐系统

二、 Hadoop 综合实战 - 文本挖掘项目（ 7 课时）

文本挖掘的概念及应用场景

项目背景

项目流程

中文分词技术

庖丁分词器的使用

MapReduce 并行分词程序的设计与实现

Pig 划分数据集

Mahout 构建朴素贝叶斯文本分类器

模型应用 - 计算用户偏好类别

课程涉及到以下技术，目前基本都是最新版本：

1 、 Linux

RedHat 5.2

2 、 Maven

3.1.1

3 、 Java

1.6

4 、 Mysql

5.6.16

5 、 Storm

0.9.0

6 、 Hadoop2.0

2.2.0

7 、 Hadoop1.0

1.2.1

8 、 Tez

0.4.0

9 、 Spark

0.9.1

10 、 Scala

2.10.4

11 、 Hbase

0.94.16

12 、 Hive

0.11

13 、 Pig

0.12

14 、 Sqoop

1.4.4 和 1.99.3

15 、 Flume

0.9.4 和 1.5.0

16 、 Mahout

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。