3.1.2 行组与列段


文档摘要

3.1.2 行组与列段 在列式存储的世界里,行组(Row Group)与列段(Column Chunk)不是抽象的术语,而是数据物理布局的骨架与血肉——它们共同定义了“数据如何被切分、如何被压缩、如何被定位、如何被并行读取”的底层契约。如果你曾为一个 Parquet 查询耗时 800ms 而困惑,却在调整 后骤降至 120ms;如果你曾目睹 Spark 任务因某列段解压失败而整个 stage 重试三次;如果你在调试 Presto 的谓词下推时发现 竟然没有跳过任何行组——那么你正在直面的,正是这一层级的真实战场。


发布者: 作者: 转发
评论区 (0)
U