大数据工程师 2024 版

课程门数 38
学习人数 1151
好评度 100%
查看评价

不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程

阶段一:走进大数据

本阶段开始学习大数据的必备技能:Linux的操作使用,以及初始Hadoop,为后面学习大数据技术打下坚实基础。

第1周

学好大数据先攻克Linux

在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。预习资料传送门:http://u3v.cn/5Moy2x

第2周

大数据起源之初识Hadoop

Hadoop是大数据开创者,引领者,学习大数据必经之路,本周带领大家了解Hadoop,以及Hadoop集群的安装部署。预习资料:http://u3v.cn/626VYg

第3周

Hadoop之HDFS的使用

通过生活场景"小明租房"案例引入HDFS核心架构,掌握HDFS的常见Shell操作以及Java代码操作,对以后实现海量数据的存储打下基础。

第4周

Hadoop之HDFS核心进程剖析

通过对HDFS中核心进程NameNode、SecondaryNameNode、DataNode进行详细分析,帮助大家更好的理解HDFS的底层原理

第5周

Hadoop之初识MR

通过"计算扑克牌中的黑桃个数"案例引入MapReduce的思想,详细分析了MapReduce的执行流程,并且通过开发WordCount案例加深理解。

阶段二:PB级离线数据计算分析存储方案

本阶段主要学习海量数据计算引擎MapReduce、日志采集工具Flume、离线OLAP分析引擎Hive+Impala和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储。

第6周

拿来就用的企业级解决方案

详细分析了小文件的解决方案、数据倾斜的解决方案、YARN调度器的使用、以及Hadoop在CDH和HDP中的使用。

第7周

Flume从0到高手一站式养成记

Flume是一个分布式、高可靠、高可用的系统,能够有效的收集、聚合、移动大量的日志数据,在数据采集领域,属于中流砥柱,在这里通过原理、实战、监控、优化等层面对Flume进行学习。

第8周

数据仓库Hive从入门到小牛

频繁的开发MapReduce是非常繁琐的,并且很多业务人员是不懂代码的,如何让他们也可以很方便的操作HDFS中的海量数据呢?Hive的横空出世,解决了这一难题。

第9周

Hive扩展内容

针对Hive中的数据压缩格式、数据存储格式、SQL执行计划进行扩展分析,进一步提高Hive的存储能力和计算性能。

第10周

快速上手NoSQL数据库HBase

HBase是一个高可靠 、高性能 、面向列 、可伸缩的NoSQL数据库,解决了HDFS无法实现修改删除的问题,适合应用在高并发实时读写的应用场景中。

第11周

数据分析引擎之Impala

Hive的计算延迟比较高,不适合应用在即席查询需求中,因此Impala出现了,它是使用C++实现的基于内存的分布式计算引擎,可以提供低延迟,高性能的计算能力。

阶段三:Spark+电商离线数据仓库设计与实战

本阶段主要学习Spark内存计算引擎和电商离线数据库仓库项目,通过本阶段内容的学习大家可以掌握海量数据快速计算以及离线数据仓库从0~1的设计与开发。

第12周

7天极速掌握Scala语言

Scala的函数式编程受到很多框架的青睐,例如Kafka、Spark、Flink等框架都是使用Scala作为底层源码开发语言,下面就带着大家7天极速掌握Scala语言。

第13周

Spark快速上手

Spark是目前企业中应用最广泛的计算引擎,盘它!实际案例详细分析Spark中的Transformation算子和Action算子使用,RDD持久化,共享变量使用,最后通过一个综合案例加深理解。

第14周

Spark性能优化的道与术

通过对Spark中的宽依赖、窄依赖、Stage、Shuffle机制进行详细分析,加深对Spark的理解,以及对Spark中的checkpoint机制通过源码层面进行深度剖析。

第15周

Spark3.x扩展内容

基于Spark3.x版本进行更新迭代,重点分析Spark3.x中的新特性,扩展SparkSQL相关内容,并且增加Spark Shuffle新方案-Celeborn。

第16周

综合项目:电商数据仓库之用户行为数仓

整合各个业务线数据,为各个业务系统提供统一&规范的数据出口。通过对项目的由来,需求、技术进行分析和选型,实现用户行为数据数仓开发。

第17周

综合项目:电商数据仓库之商品订单数仓

基于商品订单数据开发数仓,详细分析了拉链表的由来和具体实现。使用数据可视化工具Zepplin实现数据展现,使用Azkaban调度器实现任务依赖调度。

阶段四:高频实时数据处理+海量数据全文检索方案

本阶段主要学习海量数据计算引擎MapReduce、日志采集工具Flume、离线OLAP分析引擎Hive+Impala和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储。

第18周

消息队列之Kafka从入门到小牛

Kafka是一个支持高吞吐、持久性、分布式的消息队列,非常适合海量数据的实时生产和消费,详细分析了Kafka的核心原理、代码实战、性能优化,以及Kafka的企业级应用。

第19周

极速上手内存数据库Redis

Redis是一种面向键值对的NoSQL内存数据库,可以满足我们对海量数据的读写需求,在这里我们学习Redis中的五种常用数据类型以及Redis中的一些高级特性,达到快速上手使用。

第20周

Flink快速上手篇

快速了解Flink的基本原理和核心特点,掌握Flink中流数据和批数据的编程思路和代码实战,Flink中Standalone集群、ON YARN集群的安装部署,以及Flink中核心API的使用。

第21周

Flink高级进阶之路

详细剖析Window和Time的使用,Watermark的实战应用,并行度的设置,Kafka Connector的具体应用,Application模式,以及SparkStreaming的特性和使用。

第22周

Flink1.15新特性及状态的使用

基于Flink1.15版本进行更新迭代,快速掌握基于新版本的代码开发,并且对Flink中的State(状态)的使用与管理进行深度扩展。

第23周

Flink1.15之状态的容错与一致性

基于Flink1.15版本深入剖析流式计算任务中状态的容错与一致性,包括State的快照生成和恢复,最后以Kafka+Flink+Kafka场景为例整体分析了Flink任务如何实现端到端的一致性!

第24周

FlinkSQL(1.15)快速上手

基于Flink1.15版本,主要涉及Flink SQL中的表、列、数据类型、DML语句、滚动+滑动窗口、Watermark、Catalog、HiveModule、SQL Client等功能

第25周

FlinkSQL双流JOIN详解

基于Flink1.15版本详细介绍双流JOIN的用法,主要涉及到普通Join、时间区间Join、快照Join、维表Join、数组炸裂、表函数Join、窗口Join等Join类型的原理及实战。

第26周

全文检索引擎Elasticsearch

Elasticsearch是一个基于Lucene的分布式全文检索引擎,解决了海量数据下数据多条件快速复杂查询的痛点。

第27周

Es+HBase仿百度搜索引擎项目

基于Elasticsearch+HBase实现仿百度搜索引擎的海量数据存储和检索功能,可以提供海量数据下的多条件快速复杂检索能力。

阶段五:综合项目:三度关系推荐系统+数据中台

本阶段依据快速迭代开发思想,实现直播平台三度关系推荐系统V1.0~V2.0迭代,实现从0~1,从1~N。接着讲解一线互联网企业数据中台构建流程,了解中台项目架构思想。

第28周

直播平台三度关系推荐V1.0

构建直播平台用户三度关系推荐系统,详细分析数据采集/数据分发/数据存储/数据计算/数据展现等功能,完整复现互联网企业大数据项目从0~1,从1~N的开发过程。

第29周

直播平台三度关系推荐V2.0

分析V1.0架构存在的问题及弊端,重新设计整体架构方案,进行迭代优化,基于最新的架构方案重新实现核心功能代码,开发数据接口,优化数据传输逻辑,提高数据安全性。

第30周

数据中台大屏

掌握一线互联网企业数据中台构建流程,了解巨头企业的项目架构,理解巨型项目的思想,掌握数据中台之数据加工总线子系统的底层实现。

阶段六:电商实时数据仓库(湖仓一体)设计与实战

本阶段主要包括实时数据仓库(湖仓一体)项目相关的内容:包括实时OLAP分析、实时数据库采集、数据湖内容等。通过本阶段的学习大家可以掌握湖仓一体架构的设计和开发。

第31周

实时OLAP引擎之ClickHouse

详细分析了目前业内常见的OLAP数据分析引擎,重点学习ClickHouse的核心原理及使用,包括常见的数据类型、数据库、MergeTree系列表引擎、分布式集群、副本、分片、分区等核心功能的使用。

第32周

实时数仓-Kafka Eagle+DS

针对实时数据仓库项目中需要用到的数据监控(Kafka Eagle)和任务调度(DolphinScheduler)技术组件进行扩展,为构建实时数据仓库提供底层技术支撑。

第33周

实时数仓-Flink CDC数据采集

针对实时数据仓库项目中需要用到的数据库实时数据采集(Flink CDC)技术组件进行扩展,为构建实时数据仓库提供底层技术支撑。

第34周

实时数仓-Paimon(数据湖)快速上手

针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的基础内容,便于快速上手使用。

第35周

实时数仓-Paimon(数据湖)高级进阶

针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的高级内容,便于深度使用。

第36周

实时数仓-湖仓一体项目

基于Flink SQL+Paimon+Hive构建湖仓一体项目,提高数据分析时效性,为业务部门提供分钟级别的实时数据支撑。

第37周

一站式流式开发平台StreamPark

Apache StreamPark是一个一站式的流处理计算平台,基于它开发流处理(Flink)任务, 可以极大降低学习成本和开发门槛。

第38周

大数据分布式SQL网关Kyuubi

Kyuubi 是一个分布式、多租户、高性能的SQL网关,可以为众多计算引擎(Spark、Flink、Hive)提供SQL查询服务。

学习进度 -

完成赢大礼

学习进度达到80%,赢慕课助学礼包

购买课程后可更新学习进度

教学服务剩余 - 天

到期可续费

购买课程后可享受教学服务

什么是教学服务?

课表计划

制定学习专属课表 查看课表

自定义学习课表,提升你的学习效率

购买课程后可制定专属课表

优惠价 ¥3488.00

支持花呗 7天可退款 ¥3888

立即购买
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师