map算子并行度和print算子并行度问题

map算子并行度和print算子并行度问题

老师您好,在4.8节您演示的shuffle随机分区方法中, 这里的设置map算子并行度为2是将上游设置两个分区来执行map操作,print算子并行度为4,是将下游设置四个分区执行print操作的意思吗?


但是这里shuffle是在设置下游print之前执行的呀,那上游怎么知道数据该发往哪一个分区呢?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
徐老师 2022-07-12 17:54:18

1.是的

2.shuffle就是随机对数据分区了,数据会随机分发到下游

  • 提问者 江景又妍和 #1

    那老师这种链式的语法在执行的时候没有顺序吗?shuffle在分发的时候已经知道下游的并行度了吗?

    2022-07-12 17:57:11
  • 徐老师 回复 提问者 江景又妍和 #2
    1.有顺序 2.shuffle就是指定了上游算子数据到下游算子数据的分发规则,flink任务是调用execute的时候才会触发执行,所以可以提前知道下游并行度
    2022-07-12 18:01:42
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师