关于getSplits方法的一些疑问

关于getSplits方法的一些疑问

https://img1.sycdn.imooc.com/climg/678fb70009f93abf10730409.jpg

splits.add

老师 这个方法 关于host节点相关的两个参数 有两个问题需要请教一下

1 这两个参数为啥都是数组?     是需要找到所有存储blk的节点嘛   现在不是移动计算了嘛 MR会到对应的datanode节点上去执行   难道是怕某个节点的数据不准  然后再去找其他节点的备份?

2 为啥需要两个这样的参数了?

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

按我的理解是,数据有多个副本,存储在多个节点上,有可能某一个副本的数据在读取的时候读取不到,那就需要读取另一个副本的数据了,所以需要使用数组存储多个副本所在的节点信息。

  • 慕楠枫桥 提问者 #1

    那老师    为啥这个需要两个这样的参数了

    2025-01-22 12:54:34
  • 徐老师 回复 提问者 慕楠枫桥 #2
    一个带缓存,一个不带缓存,基于效率考虑的,缓存中的没问题的话就可以直接获取了。
    2025-01-22 14:15:06
  • 慕楠枫桥 提问者 回复 徐老师 #3
    好的 谢谢老师
    2025-01-22 17:30:25
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师