对多个executor并行处理,对数据进行去重,这样会不会有重复数据
比如我根据mac地址去重,三个executor并行计算的时候,mac=”aaa“这个结果会不会在三个executor各有一条数据,最后聚合的时候,mac=”aaa“还是有三条
32
收起
正在回答
1回答
当你执行去重操作的时候,算子底层其实会对数据基于key进行分组,这样相同的数据会被同一个线程处理,所以最终不会出现重复的
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星