checkpoint的疑问

checkpoint的疑问

老师我有个疑问这个checkpoint切断血缘关系可以理解为 以每个action操作分的step为节点存储每个step节点的临时数据吗?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
徐老师 2023-10-26 16:13:30

切断血缘关系不是这样理解的。


假设基于数据源产生了RDD1,基于RDD2计算得到了RDD3。

那么此时RDD2的父RDD就是RDD1,RDD3的父RDD就是RDD2,他们之间的关系是:RDD1->RDD2->RDD3


假设我们针对RDD2做了checkpoint,那么就切断了RDD2和RDD1之间的关系,RDD2就不需要维护他和RDD1之间的关系了。

  • 提问者 crazycrush #1
    老师我还有点疑问,从结果上来说,step1-step2-step3如果我存储了step2,也是存的该节点数据啊。就算恢复也不需要再去计算step1了啊
    2023-10-28 12:04:44
  • 徐老师 回复 提问者 crazycrush #2
    持久化不会切断血缘关系,因为step2持久化后可能会丢失,丢失时就需要基于血缘关系恢复数据了。checkpoint会切断血缘关系,因为checkpoint保存的数据在hdfs中,认为绝对安全,不会丢。
    2023-10-28 13:26:31
  • step2的数据是基于step1来的,恢复的时候需要计算step1才能最终得到step2。
    2023-10-28 13:28:10
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星

相似问题

登录后可查看更多问答,登录/注册

请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师