checkpoint之前先持久化

checkpoint之前先持久化

http://img1.sycdn.imooc.com//climg/60389d0109e338d907600175.jpg

老师请问这里是为啥呢​,为何写入hdfs里要重新再计算一次RDD?

我记得RDD是默认放在内存中的,持久化到磁盘不推荐到内存持久化是因为占空间吗?

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

1:为何写入hdfs里要重新再计算一次RDD

咱们前面讲过,如果一个RDD被多次使用的话建议做持久化,否则第二次用到这个RDD的数据的时候就需要重复计算。

checkpoint就是会第二次用到这个RDD的数据,如果这个RDD没做持久化,那么在向HDFS中做快照存储的时候就会重新计算这个RDD的值



2:持久化到磁盘不推荐到内存持久化是因为占空间吗?

是的,如果内存足够的话,持久化到内存也是可以的

问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师