数据倾斜疑问

数据倾斜疑问

按照老师的方案先把5打散,耗时2分钟左右,因为数据不对,还需要执行一次mapreduce,这样这个任务的时间就是两次加起来,这样方式提升的效率会很明显嘛?

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

数据量越大,效率提升会越明显,特别是达到TB,PB级别之后。

虽然需要两个MapReduce任务,但是海量数据的计算是在第一个MapReduce任务中并行执行的。

否则倾斜的数据只会在MapReduce中的某一个task中执行,就无法利用到并行计算的优势了。

问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师