checkpoint之前先持久化
老师请问这里是为啥呢,为何写入hdfs里要重新再计算一次RDD?
我记得RDD是默认放在内存中的,持久化到磁盘不推荐到内存持久化是因为占空间吗?
17
收起
正在回答
1回答
1:为何写入hdfs里要重新再计算一次RDD
咱们前面讲过,如果一个RDD被多次使用的话建议做持久化,否则第二次用到这个RDD的数据的时候就需要重复计算。
checkpoint就是会第二次用到这个RDD的数据,如果这个RDD没做持久化,那么在向HDFS中做快照存储的时候就会重新计算这个RDD的值
2:持久化到磁盘不推荐到内存持久化是因为占空间吗?
是的,如果内存足够的话,持久化到内存也是可以的
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星