项目简介:
供统一&规范的数据出口。是整个大数据
系统中的关键,是所有数据分析、数据挖
掘等工作的基础。
速度满足秒级查询。
项目收获:
库从0~1的构建过程。
项目简介:
项目收获:
在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。预习资料传送门:http://u3v.cn/5Moy2x
Hadoop是大数据开创者,引领者,学习大数据必经之路,本周带领大家了解Hadoop,以及Hadoop集群的安装部署。预习资料:http://u3v.cn/626VYg
通过生活场景"小明租房"案例引入HDFS核心架构,掌握HDFS的常见Shell操作以及Java代码操作,对以后实现海量数据的存储打下基础。
通过对HDFS中核心进程NameNode、SecondaryNameNode、DataNode进行详细分析,帮助大家更好的理解HDFS的底层原理
通过"计算扑克牌中的黑桃个数"案例引入MapReduce的思想,详细分析了MapReduce的执行流程,并且通过开发WordCount案例加深理解。
详细分析了小文件的解决方案、数据倾斜的解决方案、YARN调度器的使用、以及Hadoop在CDH和HDP中的使用。
Flume是一个分布式、高可靠、高可用的系统,能够有效的收集、聚合、移动大量的日志数据,在数据采集领域,属于中流砥柱,在这里通过原理、实战、监控、优化等层面对Flume进行学习。
频繁的开发MapReduce是非常繁琐的,并且很多业务人员是不懂代码的,如何让他们也可以很方便的操作HDFS中的海量数据呢?Hive的横空出世,解决了这一难题。
针对Hive中的数据压缩格式、数据存储格式、SQL执行计划进行扩展分析,进一步提高Hive的存储能力和计算性能。
HBase是一个高可靠 、高性能 、面向列 、可伸缩的NoSQL数据库,解决了HDFS无法实现修改删除的问题,适合应用在高并发实时读写的应用场景中。
Hive的计算延迟比较高,不适合应用在即席查询需求中,因此Impala出现了,它是使用C++实现的基于内存的分布式计算引擎,可以提供低延迟,高性能的计算能力。
Scala的函数式编程受到很多框架的青睐,例如Kafka、Spark、Flink等框架都是使用Scala作为底层源码开发语言,下面就带着大家7天极速掌握Scala语言。
Spark是目前企业中应用最广泛的计算引擎,盘它!实际案例详细分析Spark中的Transformation算子和Action算子使用,RDD持久化,共享变量使用,最后通过一个综合案例加深理解。
通过对Spark中的宽依赖、窄依赖、Stage、Shuffle机制进行详细分析,加深对Spark的理解,以及对Spark中的checkpoint机制通过源码层面进行深度剖析。
基于Spark3.x版本进行更新迭代,重点分析Spark3.x中的新特性,扩展SparkSQL相关内容,并且增加Spark Shuffle新方案-Celeborn。
整合各个业务线数据,为各个业务系统提供统一&规范的数据出口。通过对项目的由来,需求、技术进行分析和选型,实现用户行为数据数仓开发。
基于商品订单数据开发数仓,详细分析了拉链表的由来和具体实现。使用数据可视化工具Zepplin实现数据展现,使用Azkaban调度器实现任务依赖调度。
Kafka是一个支持高吞吐、持久性、分布式的消息队列,非常适合海量数据的实时生产和消费,详细分析了Kafka的核心原理、代码实战、性能优化,以及Kafka的企业级应用。
Redis是一种面向键值对的NoSQL内存数据库,可以满足我们对海量数据的读写需求,在这里我们学习Redis中的五种常用数据类型以及Redis中的一些高级特性,达到快速上手使用。
快速了解Flink的基本原理和核心特点,掌握Flink中流数据和批数据的编程思路和代码实战,Flink中Standalone集群、ON YARN集群的安装部署,以及Flink中核心API的使用。
详细剖析Window和Time的使用,Watermark的实战应用,并行度的设置,Kafka Connector的具体应用,Application模式,以及SparkStreaming的特性和使用。
基于Flink1.15版本进行更新迭代,快速掌握基于新版本的代码开发,并且对Flink中的State(状态)的使用与管理进行深度扩展。
基于Flink1.15版本深入剖析流式计算任务中状态的容错与一致性,包括State的快照生成和恢复,最后以Kafka+Flink+Kafka场景为例整体分析了Flink任务如何实现端到端的一致性!
基于Flink1.15版本,主要涉及Flink SQL中的表、列、数据类型、DML语句、滚动+滑动窗口、Watermark、Catalog、HiveModule、SQL Client等功能
基于Flink1.15版本详细介绍双流JOIN的用法,主要涉及到普通Join、时间区间Join、快照Join、维表Join、数组炸裂、表函数Join、窗口Join等Join类型的原理及实战。
Elasticsearch是一个基于Lucene的分布式全文检索引擎,解决了海量数据下数据多条件快速复杂查询的痛点。
基于Elasticsearch+HBase实现仿百度搜索引擎的海量数据存储和检索功能,可以提供海量数据下的多条件快速复杂检索能力。
构建直播平台用户三度关系推荐系统,详细分析数据采集/数据分发/数据存储/数据计算/数据展现等功能,完整复现互联网企业大数据项目从0~1,从1~N的开发过程。
分析V1.0架构存在的问题及弊端,重新设计整体架构方案,进行迭代优化,基于最新的架构方案重新实现核心功能代码,开发数据接口,优化数据传输逻辑,提高数据安全性。
掌握一线互联网企业数据中台构建流程,了解巨头企业的项目架构,理解巨型项目的思想,掌握数据中台之数据加工总线子系统的底层实现。
详细分析了目前业内常见的OLAP数据分析引擎,重点学习ClickHouse的核心原理及使用,包括常见的数据类型、数据库、MergeTree系列表引擎、分布式集群、副本、分片、分区等核心功能的使用。
针对实时数据仓库项目中需要用到的数据监控(Kafka Eagle)和任务调度(DolphinScheduler)技术组件进行扩展,为构建实时数据仓库提供底层技术支撑。
针对实时数据仓库项目中需要用到的数据库实时数据采集(Flink CDC)技术组件进行扩展,为构建实时数据仓库提供底层技术支撑。
针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的基础内容,便于快速上手使用。
针对实时数据仓库项目中需要用到的数据湖存储系统Paimon(Flink Table Store)进行扩展,为构建湖仓一体架构提供底层技术支撑,本周主要涉及Paimon的高级内容,便于深度使用。
基于Flink SQL+Paimon+Hive构建湖仓一体项目,提高数据分析时效性,为业务部门提供分钟级别的实时数据支撑。
Apache StreamPark是一个一站式的流处理计算平台,基于它开发流处理(Flink)任务, 可以极大降低学习成本和开发门槛。
Kyuubi 是一个分布式、多租户、高性能的SQL网关,可以为众多计算引擎(Spark、Flink、Hive)提供SQL查询服务。
选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
扫码加顾问老师 立即咨询