不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程
本阶段开始学习大数据的必备技能:Linux的操作使用,以及初始Hadoop,为后面学习大数据技术打下坚实基础。
第1周
学好大数据先攻克Linux
在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。预习资料传送门:http://u3v.cn/5Moy2x
第2周
大数据起源之初识Hadoop
Hadoop是大数据开创者,引领者,学习大数据必经之路,本周带领大家了解Hadoop,以及Hadoop集群的安装部署。预习资料:http://u3v.cn/626VYg
本阶段主要学习海量数据计算引擎MapReduce、日志采集工具Flume、离线OLAP分析引擎Hive+Impala和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储。
第7周
Flume从0到高手一站式养成记
Flume是一个分布式、高可靠、高可用的系统,能够有效的收集、聚合、移动大量的日志数据,在数据采集领域,属于中流砥柱,在这里通过原理、实战、监控、优化等层面对Flume进行学习。
第8周
数据仓库Hive从入门到小牛
频繁的开发MapReduce是非常繁琐的,并且很多业务人员是不懂代码的,如何让他们也可以很方便的操作HDFS中的海量数据呢?Hive的横空出世,解决了这一难题。
第10周
快速上手NoSQL数据库HBase
HBase是一个高可靠 、高性能 、面向列 、可伸缩的NoSQL数据库,解决了HDFS无法实现修改删除的问题,适合应用在高并发实时读写的应用场景中。
第11周
数据分析引擎之Impala
Hive的计算延迟比较高,不适合应用在即席查询需求中,因此Impala出现了,它是使用C++实现的基于内存的分布式计算引擎,可以提供低延迟,高性能的计算能力。
本阶段主要学习Spark内存计算引擎和电商离线数据库仓库项目,通过本阶段内容的学习大家可以掌握海量数据快速计算以及离线数据仓库从0~1的设计与开发。
第12周
7天极速掌握Scala语言
Scala的函数式编程受到很多框架的青睐,例如Kafka、Spark、Flink等框架都是使用Scala作为底层源码开发语言,下面就带着大家7天极速掌握Scala语言。
第13周
Spark快速上手
Spark是目前企业中应用最广泛的计算引擎,盘它!实际案例详细分析Spark中的Transformation算子和Action算子使用,RDD持久化,共享变量使用,最后通过一个综合案例加深理解。
第14周
Spark性能优化的道与术
通过对Spark中的宽依赖、窄依赖、Stage、Shuffle机制进行详细分析,加深对Spark的理解,以及对Spark中的checkpoint机制通过源码层面进行深度剖析。
第15周
Spark3.x扩展内容
基于Spark3.x版本进行更新迭代,重点分析Spark3.x中的新特性,扩展SparkSQL相关内容,并且增加Spark Shuffle新方案-Celeborn。
第17周
综合项目:电商数据仓库之商品订单数仓
基于商品订单数据开发数仓,详细分析了拉链表的由来和具体实现。使用数据可视化工具Zepplin实现数据展现,使用Azkaban调度器实现任务依赖调度。
本阶段主要学习海量数据计算引擎MapReduce、日志采集工具Flume、离线OLAP分析引擎Hive+Impala和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储。
第18周
消息队列之Kafka从入门到小牛
Kafka是一个支持高吞吐、持久性、分布式的消息队列,非常适合海量数据的实时生产和消费,详细分析了Kafka的核心原理、代码实战、性能优化,以及Kafka的企业级应用。
第19周
极速上手内存数据库Redis
Redis是一种面向键值对的NoSQL内存数据库,可以满足我们对海量数据的读写需求,在这里我们学习Redis中的五种常用数据类型以及Redis中的一些高级特性,达到快速上手使用。
第20周
Flink快速上手篇
快速了解Flink的基本原理和核心特点,掌握Flink中流数据和批数据的编程思路和代码实战,Flink中Standalone集群、ON YARN集群的安装部署,以及Flink中核心API的使用。
第21周
Flink高级进阶之路
详细剖析Window和Time的使用,Watermark的实战应用,并行度的设置,Kafka Connector的具体应用,Application模式,以及SparkStreaming的特性和使用。
第23周
Flink1.15之状态的容错与一致性
基于Flink1.15版本深入剖析流式计算任务中状态的容错与一致性,包括State的快照生成和恢复,最后以Kafka+Flink+Kafka场景为例整体分析了Flink任务如何实现端到端的一致性!
第24周
FlinkSQL(1.15)快速上手
基于Flink1.15版本,主要涉及Flink SQL中的表、列、数据类型、DML语句、滚动+滑动窗口、Watermark、Catalog、HiveModule、SQL Client等功能
第25周
FlinkSQL双流JOIN详解
基于Flink1.15版本详细介绍双流JOIN的用法,主要涉及到普通Join、时间区间Join、快照Join、维表Join、数组炸裂、表函数Join、窗口Join等Join类型的原理及实战。
本阶段依据快速迭代开发思想,实现直播平台三度关系推荐系统V1.0~V2.0迭代,实现从0~1,从1~N。接着讲解一线互联网企业数据中台构建流程,了解中台项目架构思想。
本阶段主要包括实时数据仓库(湖仓一体)项目相关的内容:包括实时OLAP分析、实时数据库采集、数据湖内容等。通过本阶段的学习大家可以掌握湖仓一体架构的设计和开发。
第31周
实时OLAP引擎之ClickHouse
详细分析了目前业内常见的OLAP数据分析引擎,重点学习ClickHouse的核心原理及使用,包括常见的数据类型、数据库、MergeTree系列表引擎、分布式集群、副本、分片、分区等核心功能的使用。
第32周
实时数仓-Kafka Eagle+DS
针对实时数据仓库项目中需要用到的数据监控(Kafka Eagle)和任务调度(DolphinScheduler)技术组件进行扩展,为构建实时数据仓库提供底层技术支撑。
第34周
实时数仓-Paimon(数据湖)快速上手
针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的基础内容,便于快速上手使用。
第35周
实时数仓-Paimon(数据湖)高级进阶
针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的高级内容,便于深度使用。