关于getSplits方法的一些疑问

splits.add
老师 这个方法 关于host节点相关的两个参数 有两个问题需要请教一下
1 这两个参数为啥都是数组? 是需要找到所有存储blk的节点嘛 现在不是移动计算了嘛 MR会到对应的datanode节点上去执行 难道是怕某个节点的数据不准 然后再去找其他节点的备份?
2 为啥需要两个这样的参数了?
2
收起
正在回答
1回答
按我的理解是,数据有多个副本,存储在多个节点上,有可能某一个副本的数据在读取的时候读取不到,那就需要读取另一个副本的数据了,所以需要使用数组存储多个副本所在的节点信息。
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星