老师我有印象您似乎在之前的课里提过,清洗数据的时候数据可能会出错,因此需要增加这个主键判空条件

老师我有印象您似乎在之前的课里提过,清洗数据的时候数据可能会出错,因此需要增加这个主键判空条件

https://img1.sycdn.imooc.com//climg/64f5cc6e08d11ee112280382.jpg

我只是模糊有点印象这里应该加个判空条件,但是具体是为什么老师可以说一下吗?数据可能出错这个原因太模糊了,记不真切,老师可以大致解释下出错的数据大概是怎样的吗?为什么加上这一句就可以避免这个错误呢?

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

主键字段一定是非空的,所以建议加这个过滤,如果为空,则必定是异常数据,需要过滤掉。

不是说清洗的时候会出错,而是说这种异常数据后期在使用的时候会得到不正确的结果,特别是和其他数据在关联join的时候。

  • 蒋昌魁 提问者 #1

    那这样的话,批量向hive表中插入数据时,都有概率存在异常数据和数据丢失的风险吗?

    2023-09-04 20:49:49
  • 徐老师 回复 提问者 蒋昌魁 #2
    理论上是的,不过一般是没问题的。
    2023-09-04 20:50:35
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师