桶表作用

桶表作用：

一、数据抽样疑问：

测试语句：

select * from bucket_tb tablesample(bucket 1 out of 4 on id); ---桶表

select * from b_source tablesample(bucket 1 out of 4 on id); ---普通表

经过测试，select * from 表 tablesample(bucket 1 out of 4 on id);语句中“表”并非只是针对桶表，普通表也可以进行此抽样且 tablesample(bucket 1 out of 4 on id)会重新针对id进行分桶。所以，没有太明白此处桶表在数据抽样中作用体现在哪？且如果分桶因子不一致，那之前分桶其实会带来额外开销。

二、提升join效率疑问：

在使用a.id=b.id join时，此时应该不是笛卡儿积，应该是先匹配id是否相等，此时无论是否桶表都需要先拿出id匹配，而桶表分为几个文件存储感觉会更影响效率。【笛卡儿积应该是没有任何条件两表关联才会出现，若有条件不会出现笛卡儿积】；

迪拜trash 2021-12-05

源自：数据仓库Hive从入门到小牛 4-8 Hive表类型之桶表+视图

收起

1回答

徐老师回答被采纳获得+3积分 2021-12-05 18:57:37

1：tablesample抽样可以针对所有表，但是针对桶表抽样效率会更高。

针对这两个SQL，通过查询查询计划，可以看到如下效果：

select * from bucket_tb tablesample(bucket 1 out of 4 on id);的查询计划如下：

hive> explain select * from bucket_tb tablesample(bucket 1 out of 4 on id);
OK
STAGE DEPENDENCIES:
  Stage-0 is a root stage
STAGE PLANS:
  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        TableScan
          alias: bucket_tb
          Statistics: Num rows: 12 Data size: 15 Basic stats: COMPLETE Column stats: NONE
          Filter Operator
            predicate: (((hash(id) & 2147483647) % 4) = 0) (type: boolean)
            Statistics: Num rows: 6 Data size: 7 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: id (type: int)
              outputColumnNames: _col0
              Statistics: Num rows: 6 Data size: 7 Basic stats: COMPLETE Column stats: NONE
              ListSink
Time taken: 0.196 seconds, Fetched: 20 row(s)

这里面处理的数据量在15字节。Statistics: Num rows: 12 Data size: 15 Basic stats: COMPLETE Column stats: NONE

select * from b_source tablesample(bucket 1 out of 4 on id);的查询计划如下：

hive> explain select * from b_source tablesample(bucket 1 out of 4 on id);
OK
STAGE DEPENDENCIES:
  Stage-0 is a root stage
STAGE PLANS:
  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        TableScan
          alias: b_source
          Statistics: Num rows: 1 Data size: 270 Basic stats: COMPLETE Column stats: NONE
          Filter Operator
            predicate: (((hash(id) & 2147483647) % 4) = 0) (type: boolean)
            Statistics: Num rows: 1 Data size: 270 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: id (type: int)
              outputColumnNames: _col0
              Statistics: Num rows: 1 Data size: 270 Basic stats: COMPLETE Column stats: NONE
              ListSink
Time taken: 0.149 seconds, Fetched: 20 row(s)

这里面处理的数据量在270字节：Statistics: Num rows: 1 Data size: 270 Basic stats: COMPLETE Column stats: NONE。

在使用a.id=b.id join时，不会产生笛卡儿积。

桶表在使用分桶字段在join的时候，可以进一步提升效率，这个也可以通过explain看出来。

桶表join时计算的数据量比普通表小。

根据b_source表再创建一个b_source_2表。

根据bucket_tb表再创建一个bucket_tb_2表。

分别对这些表进行join，分析explain执行计划，可以看出来桶表在join时需要计算的数据量比普通表小，所以桶表在计算时性能会更高。

explain select a.id
from bucket_tb as a join bucket_tb_2 b
on a.id = b.id

explain select a.id
from b_source as a join b_source_2 b
on a.id = b.id

收起回答

相似问题

桶排序中对计算第几只桶的疑问

关于hive一章5-10的作业，请老师点评一下并解答一个问题。

对桶排序的梳理

老师要使用表的时候才需要使用数据库是吧比如db.js

翻倍扩容的时候，翻倍的是普通桶的数量，那溢出桶的数量是否也翻倍？

登录后可查看更多问答，登录/注册

大数据工程师

参与学习 1186 人
提交作业 6198 份
解答问题 1201 个

不用Java初级内容充数！不用与大数据岗位无关内容占课时！我们做的就是“精华版”大数据课程

了解课程

本课精华内容

问答作业

老师，每个比较大的文件都会分割成块保存在DataNode中，那就说一个datanode坏了导致整个文件不可用，这样不就减低了可靠性吗？

56 2

对多个executor并行处理，对数据进行去重，这样会不会有重复数据

32 1

数据倾斜问题

78 5

并行度调优疑问

29 9

yum install -y ntpdate执行报错

21 22

查看更多本课问答

请稍等 ...

桶表作用

桶表作用

正在回答

请选择置顶位置

相似问题

本课精华内容

老师，每个比较大的文件都会分割成块保存在DataNode中，那就说一个datanode坏了导致整个文件不可用，这样不就减低了可靠性吗？

对多个executor并行处理，对数据进行去重，这样会不会有重复数据

数据倾斜问题

并行度调优疑问

yum install -y ntpdate执行报错

【学习任务】项目任务-对WordCount的结果排序输出

【讨论题】什么是数据湖？

【讨论题】如何查找Linux中的大文件？

【学习任务】项目任务-在MapReduce程序中同时处理多个输入目录

【学习任务】项目任务-在MapReduce程序中使用gzip数据压缩提高计

热搜

最近搜索清空

桶表作用

桶表作用

正在回答

请选择置顶位置

相似问题

本课精华内容

老师，每个比较大的文件都会分割成块保存在DataNode中，那就说一个datanode坏了导致整个文件不可用，这样不就减低了可靠性吗？

对多个executor并行处理，对数据进行去重，这样会不会有重复数据

数据倾斜问题

并行度调优疑问

yum install -y ntpdate执行报错

【学习任务】项目任务-对WordCount的结果排序输出

【讨论题】什么是数据湖？

【讨论题】如何查找Linux中的大文件？

【学习任务】项目任务-在MapReduce程序中同时处理多个输入目录

【学习任务】项目任务-在MapReduce程序中使用gzip数据压缩提高计