大数据工程师2022版

课程门数 27
学习人数 854
好评度 100%
查看评价

不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程

阶段一:走进大数据

本阶段开始学习大数据的必备技能:Linux的操作使用,以及初始Hadoop,为后面学习大数据技术打下坚实基础。

第1周

学好大数据先攻克Linux

在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。预习资料传送门:http://suo.im/613aVS 提取码:bbbb

第2周

大数据起源之初识Hadoop

Hadoop是大数据开创者,引领者,学习大数据必经之路,本周带领大家了解Hadoop,以及Hadoop集群的安装部署。预习资料:http://suo.im/5SMmAO 提取码:bbbb

第3周

Hadoop之HDFS的使用

通过生活场景"小明租房"案例引入HDFS核心架构,掌握HDFS的常见Shell操作以及Java代码操作,对以后实现海量数据的存储打下基础。

第4周

Hadoop之HDFS核心进程剖析

通过对HDFS中核心进程NameNode、SecondaryNameNode、DataNode进行详细分析,帮助大家更好的理解HDFS的底层原理

第5周

Hadoop之初识MR

通过"计算扑克牌中的黑桃个数"案例引入MapReduce的思想,详细分析了MapReduce的执行流程,并且通过开发WordCount案例加深理解。

阶段二:PB级离线数据计算分析存储方案

本阶段主要学习大数据中海量数据计算引擎MapReduce、日志采集工具Flume、OLAP分析引擎Hive和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储(支持增删改查)。

第6周

拿来就用的企业级解决方案

详细分析了小文件的解决方案、数据倾斜的解决方案、YARN调度器的使用、以及Hadoop在CDH和HDP中的使用。

第7周

Flume从0到高手一站式养成记

Flume是一个分布式、高可靠、高可用的系统,能够有效的收集、聚合、移动大量的日志数据,在数据采集领域,属于中流砥柱,在这里通过原理、实战、监控、优化等层面对Flume进行学习。

第8周

数据仓库Hive从入门到小牛

频繁的开发MapReduce是非常繁琐的,并且很多业务人员是不懂代码的,如何让他们也可以很方便的操作HDFS中的海量数据呢?Hive的横空出世,解决了这一难题。

第9周

Hive扩展内容

针对Hive中的数据压缩格式和数据存储格式进行扩展分析,进一步提高Hive的存储能力和计算性能。

第10周

快速上手NoSQL数据库HBase

HBase是一个高可靠 、高性能 、面向列 、可伸缩的NoSQL数据库,解决了HDFS无法实现修改删除的问题,适合应用在高并发实时读写的应用场景中。

阶段三:Spark+综合项目:电商数据仓库设计与实战

本阶段主要学习Spark内存计算引擎和电商数据库仓库项目,通过本阶段的内容大家可以掌握海量数据快速计算以及离线数据仓库从0~1的设计与开发。

第11周

7天极速掌握Scala语言

Scala的函数式编程受到很多框架的青睐,例如Kafka、Spark、Flink等框架都是使用Scala作为底层源码开发语言,下面就带着大家7天极速掌握Scala语言。

第12周

Spark快速上手

Spark是目前企业中应用最广泛的计算引擎,盘它!实际案例详细分析Spark中的Transformation算子和Action算子使用,RDD持久化,共享变量使用,最后通过一个综合案例加深理解。

第13周

Spark性能优化的道与术

通过对Spark中的宽依赖、窄依赖、Stage、Shuffle机制进行详细分析,加深对Spark的理解,以及对Spark中的checkpoint机制通过源码层面进行深度剖析。

第14周

Spark3.x扩展内容

基于Spark3.x版本进行更新迭代,重点分析Spark3.x中的新特性,并且扩展SparkSQL相关内容。

第15周

综合项目:电商数据仓库之用户行为数仓

整合各个业务线数据,为各个业务系统提供统一&规范的数据出口。通过对项目的由来,需求、技术进行分析和选型,实现用户行为数据数仓开发。

第16周

综合项目:电商数据仓库之商品订单数仓

基于商品订单数据开发数仓,详细分析了拉链表的由来和具体实现。使用数据可视化工具Zepplin实现数据展现,使用Azkaban调度器实现任务依赖调度。

阶段四:高频实时数据处理+海量数据全文检索方案

本阶段主要学习实时计算技术Kafka、Redis和Flink,以及全文检索引擎Elasticsearch的使用,通过本阶段的学习大家可以掌握海量数据的实时采集分析处理的全链路流程和海量数据的快速复杂查询解决方案。

第17周

消息队列之Kafka从入门到小牛

Kafka是一个支持高吞吐、持久性、分布式的消息队列,非常适合海量数据的实时生产和消费,详细分析了Kafka的核心原理、代码实战、性能优化,以及Kafka的企业级应用。

第18周

极速上手内存数据库Redis

Redis是一种面向键值对的NoSQL内存数据库,可以满足我们对海量数据的读写需求,在这里我们学习Redis中的五种常用数据类型以及Redis中的一些高级特性,达到快速上手使用。

第19周

Flink快速上手篇

快速了解Flink的基本原理和核心特点,掌握Flink中流数据和批数据的编程思路和代码实战,Flink中Standalone集群、ON YARN集群的安装部署,以及Flink中核心API的使用。

第20周

Flink高级进阶之路

详细剖析Window和Time的使用,Watermark的实战应用,并行度的设置,Kafka Connector的具体应用,以及SparkStreaming的特性和使用。

第21周

Flink1.15新特性及状态的使用

基于Flink1.15版本进行更新迭代,快速掌握基于新版本的代码开发,并且对Flink中的State(状态)的使用与管理进行深度扩展。

第22周

Flink1.15之状态的容错与一致性

基于Flink1.15版本深入剖析流式计算任务中状态的容错与一致性,包括State的快照生成和恢复,最后以Kafka+Flink+Kafka场景为例整体分析了Flink任务如何实现端到端的一致性!

第23周

全文检索引擎Elasticsearch

Elasticsearch是一个基于Lucene的分布式全文检索引擎,解决了海量数据下数据多条件快速复杂查询的痛点。

第24周

Es+HBase仿百度搜索引擎项目

基于Elasticsearch+HBase实现仿百度搜索引擎的海量数据存储和检索功能,可以提供海量数据下的多条件快速复杂检索能力。

阶段五:综合项目:三度关系推荐系统+数据中台

本阶段依据快速迭代开发思想,实现直播平台三度关系推荐系统V1.0~V2.0迭代,实现从0~1,从1~N。接着讲解一线互联网企业数据中台构建流程,了解中台项目架构思想。

第25周

直播平台三度关系推荐V1.0

构建直播平台用户三度关系推荐系统,详细分析数据采集/数据分发/数据存储/数据计算/数据展现等功能,完整复现互联网企业大数据项目从0~1,从1~N的开发过程。

第26周

直播平台三度关系推荐V2.0

分析V1.0架构存在的问题及弊端,重新设计整体架构方案,进行迭代优化,基于最新的架构方案重新实现核心功能代码,开发数据接口,优化数据传输逻辑,提高数据安全性。

第27周

数据中台大屏

掌握一线互联网企业数据中台构建流程,了解巨头企业的项目架构,理解巨型项目的思想,掌握数据中台之数据加工总线子系统的底层实现。

学习进度 -

完成赢大礼

学习进度达到80%,赢慕课助学礼包

购买课程后可更新学习进度

教学服务剩余 - 天

到期可续费

购买课程后可享受教学服务

什么是教学服务?

课表计划

制定学习专属课表 查看课表

自定义学习课表,提升你的学习效率

购买课程后可制定专属课表

优惠价 ¥3488.00

支持花呗 7天可退款 ¥3888

立即购买
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师