6.5 Dask (大规模数据处理) 6.5 Dask (大规模数据处理) Dask 是一个用于并行计算的灵活的 Python 库。它允许你使用熟悉的 Python 数据结构(例如 NumPy 数组、Pandas DataFrame 和列表)来处理超出内存的数据集。 Dask 通过将大型计算分解为小的、独立的任务,然后并行执行这些任务来实现这一点。 6.5.1 Dask 简介 Dask 并非旨在取代 NumPy 或 Pandas。相反,它旨在与它们协同工作,并扩展它们的功能以处理更大的数据集和更复杂的计算。Dask 提供两种主要类型的并行: 任务并行: 将计算分解为小的、独立的任务,然后并行执行这些任务。这对于执行不同类型的操作或处理非结构化数据非常有用。