checkpoint执行流程的一些疑问
老师 请问一下
双流join
1 在checkpoint触发执行之后 状态数据被持久化到外部存储中
然后我们消费到了其中一条流中的数据 这个时候是去另外一条流中的状态(外部存储)中找到对应的数据就行关联 然后sink输出吧
2 在checkpoint还没有被触发 状态数据还没有持久化到外部存储中
这个时候刚好两个流中各来了一条数据且能够关联上
他们是拿自己内存中的状态数据进行关联 然后sink输出嘛
3
收起
正在回答
1回答
不是这样的。
不管任何时候,双流join都是到对方的状态中(默认是放在内存)去查询数据进行关联。
Checkpoint的工作是负责把状态中的数据持久化到外部存储(HDFS)中。后期如果任务失败了,重启的时候想要恢复状态数据,则需要用到之前持久化到HDFS中的状态数据。
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星