comments: true title: Arrow介绍 !!! quote "翻译自HuggingFace Arrow" 是什么? 是一种数据格式,可以快速处理和移动大量数据。它使用列式内存布局存储数据,它的标准格式具有以下优点: 特征 | 描述 读取方式 | 支持零拷贝读取,从而消除了几乎所有序列化开销。 跨语言支持 | 支持多种编程语言。 存储方式 | 面向列的存储,在查询和处理数据切片或列时速度更快。 兼容性 | 数据可以无缝传递给主流机器学习工具,如 、 、 和 。 列类型 | 支持多种列类型,甚至支持嵌套列类型。 内存映射 使用 作为其本地缓存系统。它允许数据集由磁盘缓存作为后盾,该缓存被内存映射以实现快速查找。 这种架构允许在设备内存较小的机器上使用大型数据集。