对多个executor并行处理,对数据进行去重,这样会不会有重复数据
比如我根据mac地址去重,三个executor并行计算的时候,mac=”aaa“这个结果会不会在三个executor各有一条数据,最后聚合的时候,mac=”aaa“还是有三条
31
收起
正在回答
1回答
当你执行去重操作的时候,算子底层其实会对数据基于key进行分组,这样相同的数据会被同一个线程处理,所以最终不会出现重复的
大数据工程师 2024 版
- 参与学习 1151 人
- 提交作业 5960 份
- 解答问题 1144 个
不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程
了解课程
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星