不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程
本阶段开始学习大数据的必备技能:Linux的操作使用,以及初始Hadoop,为后面学习大数据技术打下坚实基础。
第1周
学好大数据先攻克Linux
在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。预习资料传送门:http://suo.im/613aVS 提取码:bbbb
第2周
大数据起源之初识Hadoop
Hadoop是大数据开创者,引领者,学习大数据必经之路,本周带领大家了解Hadoop,以及Hadoop集群的安装部署。预习资料:http://suo.im/5SMmAO 提取码:bbbb
本阶段主要学习大数据中海量数据计算引擎MapReduce、日志采集工具Flume、OLAP分析引擎Hive和NoSQL数据库HBase的使用,通过本阶段大家可以掌握海量数据的采集、计算、分析和存储(支持增删改查)。
第7周
Flume从0到高手一站式养成记
Flume是一个分布式、高可靠、高可用的系统,能够有效的收集、聚合、移动大量的日志数据,在数据采集领域,属于中流砥柱,在这里通过原理、实战、监控、优化等层面对Flume进行学习。
第8周
数据仓库Hive从入门到小牛
频繁的开发MapReduce是非常繁琐的,并且很多业务人员是不懂代码的,如何让他们也可以很方便的操作HDFS中的海量数据呢?Hive的横空出世,解决了这一难题。
第10周
快速上手NoSQL数据库HBase
HBase是一个高可靠 、高性能 、面向列 、可伸缩的NoSQL数据库,解决了HDFS无法实现修改删除的问题,适合应用在高并发实时读写的应用场景中。
本阶段主要学习Spark内存计算引擎和电商数据库仓库项目,通过本阶段的内容大家可以掌握海量数据快速计算以及离线数据仓库从0~1的设计与开发。
第11周
7天极速掌握Scala语言
Scala的函数式编程受到很多框架的青睐,例如Kafka、Spark、Flink等框架都是使用Scala作为底层源码开发语言,下面就带着大家7天极速掌握Scala语言。
第12周
Spark快速上手
Spark是目前企业中应用最广泛的计算引擎,盘它!实际案例详细分析Spark中的Transformation算子和Action算子使用,RDD持久化,共享变量使用,最后通过一个综合案例加深理解。
第13周
Spark性能优化的道与术
通过对Spark中的宽依赖、窄依赖、Stage、Shuffle机制进行详细分析,加深对Spark的理解,以及对Spark中的checkpoint机制通过源码层面进行深度剖析。
第16周
综合项目:电商数据仓库之商品订单数仓
基于商品订单数据开发数仓,详细分析了拉链表的由来和具体实现。使用数据可视化工具Zepplin实现数据展现,使用Azkaban调度器实现任务依赖调度。
本阶段主要学习实时计算技术Kafka、Redis和Flink,以及全文检索引擎Elasticsearch的使用,通过本阶段的学习大家可以掌握海量数据的实时采集分析处理的全链路流程和海量数据的快速复杂查询解决方案。
第17周
消息队列之Kafka从入门到小牛
Kafka是一个支持高吞吐、持久性、分布式的消息队列,非常适合海量数据的实时生产和消费,详细分析了Kafka的核心原理、代码实战、性能优化,以及Kafka的企业级应用。
第18周
极速上手内存数据库Redis
Redis是一种面向键值对的NoSQL内存数据库,可以满足我们对海量数据的读写需求,在这里我们学习Redis中的五种常用数据类型以及Redis中的一些高级特性,达到快速上手使用。
第19周
Flink快速上手篇
快速了解Flink的基本原理和核心特点,掌握Flink中流数据和批数据的编程思路和代码实战,Flink中Standalone集群、ON YARN集群的安装部署,以及Flink中核心API的使用。
第20周
Flink高级进阶之路
详细剖析Window和Time的使用,Watermark的实战应用,并行度的设置,Kafka Connector的具体应用,以及SparkStreaming的特性和使用。
第22周
Flink1.15之状态的容错与一致性
基于Flink1.15版本深入剖析流式计算任务中状态的容错与一致性,包括State的快照生成和恢复,最后以Kafka+Flink+Kafka场景为例整体分析了Flink任务如何实现端到端的一致性!
本阶段依据快速迭代开发思想,实现直播平台三度关系推荐系统V1.0~V2.0迭代,实现从0~1,从1~N。接着讲解一线互联网企业数据中台构建流程,了解中台项目架构思想。