关于shuffle疑问

map reduce产生shuffle是在map阶段结束执行reduce时候发生，spark产生shuffle操作是在有宽依赖的时刻产生的么？产生shuffle这个过程是否对整个程序执行产生开销？主要是哪些性能的消耗？

源自：Spark性能优化的道与术 7-3 本周总结+寄语

收起

1回答

徐老师回答被采纳获得+3积分 2020-09-15 16:51:10

spark产生shuffle操作是在有宽依赖的时刻产生的么？

是的，只要算子产生了宽依赖，那么就会产生shuffle操作

产生shuffle这个过程是否对整个程序执行产生开销？

会产生开销，因为shuffle过程会涉及到数据跨节点传输

主要是哪些性能的消耗？

主要是节点之间数据传输的性能消耗，如果内存中数据存不下，还会涉及磁盘读写的性能开销。

GRdreamflying 提问者 #1

回归最初的分布式计算概念，之前讲过是移动数据转变为移动计算这个理念，那最终集群上每个节点不管是spark还是mapreduce都是只计算存储在各自hdfs节点上的数据么？

2020-09-15 16:55:00
徐老师回复提问者 GRdreamflying #2

程序在执行的时候会尽可能的读取本地节点中的数据，但是实际任务在执行的时候很多时候无法满足这种情况的，在4-7中我们分析了几种数据本地化的策略，spark默认会使用最优的策略，就是计算程序和数据在一起，如果在本地实在找不到数据，就只能通过网络读取其它节点上的数据了。

2020-09-15 17:01:30
GRdreamflying 提问者回复徐老师 #3

这节课程配置上是具体哪个配置文件配置对应参数的？

2020-09-15 17:11:53