关于shuffle疑问

关于shuffle疑问

map reduce产生shuffle是在map阶段结束执行reduce时候发生,spark产生shuffle操作是在有宽依赖的时刻产生的么?产生shuffle这个过程是否对整个程序执行产生开销?主要是哪些性能的消耗?

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

spark产生shuffle操作是在有宽依赖的时刻产生的么?

是的,只要算子产生了宽依赖,那么就会产生shuffle操作

产生shuffle这个过程是否对整个程序执行产生开销?

会产生开销,因为shuffle过程会涉及到数据跨节点传输

主要是哪些性能的消耗?

主要是节点之间数据传输的性能消耗,如果内存中数据存不下,还会涉及磁盘读写的性能开销。

  • GRdreamflying 提问者 #1
    回归最初的分布式计算概念,之前讲过是移动数据转变为移动计算这个理念,那最终集群上每个节点不管是spark还是mapreduce都是只计算存储在各自hdfs节点上的数据么?
    2020-09-15 16:55:00
  • 徐老师 回复 提问者 GRdreamflying #2
    程序在执行的时候会尽可能的读取本地节点中的数据,但是实际任务在执行的时候很多时候无法满足这种情况的,在4-7中我们分析了几种数据本地化的策略,spark默认会使用最优的策略,就是计算程序和数据在一起,如果在本地实在找不到数据,就只能通过网络读取其它节点上的数据了。
    2020-09-15 17:01:30
  • GRdreamflying 提问者 回复 徐老师 #3
    这节课程配置上是具体哪个配置文件配置对应参数的?
    2020-09-15 17:11:53
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星

相似问题

登录后可查看更多问答,登录/注册

请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师