数据倾斜疑问
按照老师的方案先把5打散,耗时2分钟左右,因为数据不对,还需要执行一次mapreduce,这样这个任务的时间就是两次加起来,这样方式提升的效率会很明显嘛?
29
收起
正在回答
1回答
数据量越大,效率提升会越明显,特别是达到TB,PB级别之后。
虽然需要两个MapReduce任务,但是海量数据的计算是在第一个MapReduce任务中并行执行的。
否则倾斜的数据只会在MapReduce中的某一个task中执行,就无法利用到并行计算的优势了。
大数据工程师 2024 版
- 参与学习 1151 人
- 提交作业 5960 份
- 解答问题 1144 个
不用Java初级内容充数!不用与大数据岗位无关内容占课时!我们做的就是“精华版”大数据课程
了解课程
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星