分区查询的问题

分区查询的问题

学到这里突然有一个疑问,之前是有说过分区表,比如根据日期进行分区,某一天的数据就放在了一个文件夹下(hdfs的文件夹),这个数据存储是怎么一个过程呢?

原始的表数据存放在一个位置,然后分区后的数据再放在自己定的那个位置?一共有两份数据吗


正在回答

登陆购买课程后可参与讨论,去登陆

1回答

如果是外部分区表,在关联分区的时候只需要建立一个映射关系,不需要额外再存储一份数据

  • 幕布斯5216845 提问者 #1

    如果是内分区,是从hdfs中拷贝一份数据来吗,这样怎么保证源数据跟hive中的表数据一致性呢?


    2021-09-23 20:23:24
  • 徐老师 回复 提问者 幕布斯5216845 #2
    内部表会复制过去一份, hdfs数据不可删除,这个特性可以保证数据的一致性
    2021-09-23 20:27:37
  • 幕布斯5216845 提问者 回复 徐老师 #3

    比如内分区表执行了一个添加操作,添加了某行数据。hive中的数据就多了一行,对应的源数据也会添加这行数据吗?

    还有个疑问,复制过去一份也是在hdfs中吧,只是目录不同了?

    2021-09-23 20:31:06
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师