3.4.1 Parquet 文件读写 在数据工程的广袤疆域里,Parquet 文件早已不是“一种可选的列式存储格式”——它早已成为现代数据湖架构的骨骼与神经。当你在 Spark 作业中看到 这行代码时,你调用的远不止是磁盘 I/O;那背后是 Apache Arrow 的内存布局、Dremel 论文所奠基的嵌套列式编码、Snappy/Zstd 压缩器的字节舞蹈、页级统计驱动的谓词下推逻辑,以及元数据与数据块之间精密咬合的二进制契约。本节不谈“Parquet 很快”,我们要拆开它的 外壳,直抵其物理页结构、编码策略、写入流水线与读取跳过算法的核心——真正回答:当一个 Parquet 文件被读写时,CPU 在做什么?内存里发生了什么?磁盘上又落下了哪些不可篡改的字节?