5.2.4 分桶 (Bucketing)


文档摘要

5.2.4 分桶 (Bucketing) Hive 5.2 数据存储优化:深入理解分桶 (Bucketing) 5.2.4 分桶 (Bucketing) 详解 1. 分桶的概念与作用 分桶 (Bucketing) 是一种将表数据按照指定的列的哈希值分散存储到预先定义的桶 (Bucket) 中的技术。与分区 (Partitioning) 类似,分桶也是一种数据组织方式,但其侧重点和实现机制有所不同。 分区 (Partitioning): 将表数据按照分区列的值划分为不同的目录(分区),物理上将数据分散存储在不同的文件目录下。分区主要用于数据隔离和查询范围限定,可以大幅减少查询时需要扫描的数据量,提高查询效率。分区通常适用于数据具有明显逻辑分类的场景,例如按日期、地域等分区。


发布者: 作者: 转发
评论区 (0)
U