对多个executor并行处理,对数据进行去重,这样会不会有重复数据

对多个executor并行处理,对数据进行去重,这样会不会有重复数据

比如我根据mac地址去重,三个executor并行计算的时候,mac=”aaa“这个结果会不会在三个executor各有一条数据,最后聚合的时候,mac=”aaa“还是有三条

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

当你执行去重操作的时候,算子底层其实会对数据基于key进行分组,这样相同的数据会被同一个线程处理,所以最终不会出现重复的

问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师