3.4.1 Parquet 文件读写

文档摘要

3.4.1 Parquet 文件读写在数据工程的广袤疆域里，Parquet 文件早已不是“一种可选的列式存储格式”——它早已成为现代数据湖架构的骨骼与神经。当你在 Spark 作业中看到这行代码时，你调用的远不止是磁盘 I/O；那背后是 Apache Arrow 的内存布局、Dremel 论文所奠基的嵌套列式编码、Snappy/Zstd 压缩器的字节舞蹈、页级统计驱动的谓词下推逻辑，以及元数据与数据块之间精密咬合的二进制契约。本节不谈“Parquet 很快”，我们要拆开它的外壳，直抵其物理页结构、编码策略、写入流水线与读取跳过算法的核心——真正回答：当一个 Parquet 文件被读写时，CPU 在做什么？内存里发生了什么？磁盘上又落下了哪些不可篡改的字节？