数据倾斜疑问
按照老师的方案先把5打散,耗时2分钟左右,因为数据不对,还需要执行一次mapreduce,这样这个任务的时间就是两次加起来,这样方式提升的效率会很明显嘛?
29
收起
正在回答
1回答
数据量越大,效率提升会越明显,特别是达到TB,PB级别之后。
虽然需要两个MapReduce任务,但是海量数据的计算是在第一个MapReduce任务中并行执行的。
否则倾斜的数据只会在MapReduce中的某一个task中执行,就无法利用到并行计算的优势了。
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星