9.1 Pandas 与 NumPy

文档摘要

9.1 Pandas 与 NumPy 第九章：Pandas 与其他库的集成 9.1 Pandas 与 NumPy Pandas库构建于NumPy库之上，这意味着Pandas的数据结构，如Series和DataFrame，底层使用了NumPy的ndarray数组。这种架构选择使得Pandas能够利用NumPy在数值计算方面的强大功能，同时提供更高级的数据操作和分析工具。理解Pandas与NumPy之间的关系对于高效使用Pandas至关重要。 9.1.1 Pandas 依赖于 NumPy Pandas Series 和 DataFrame 的数据存储和计算都依赖于 NumPy 的 ndarray。

9.1 Pandas 与 NumPy

第九章：Pandas 与其他库的集成

9.1 Pandas 与 NumPy

Pandas库构建于NumPy库之上，这意味着Pandas的数据结构，如Series和DataFrame，底层使用了NumPy的ndarray数组。这种架构选择使得Pandas能够利用NumPy在数值计算方面的强大功能，同时提供更高级的数据操作和分析工具。理解Pandas与NumPy之间的关系对于高效使用Pandas至关重要。

9.1.1 Pandas 依赖于 NumPy

Pandas Series 和 DataFrame 的数据存储和计算都依赖于 NumPy 的 ndarray。这意味着：

数据类型一致性： Series 和 DataFrame 中的数据列通常具有相同的 NumPy 数据类型（例如，int64、float64、datetime64）。
向量化操作： Pandas 能够利用 NumPy 的向量化操作，对整个 Series 或 DataFrame 列执行快速的数值计算，而无需显式循环。
内存效率： Pandas 继承了 NumPy 的内存效率，尤其是在处理大型数据集时。

9.1.2 Pandas 对象与 NumPy 数组之间的转换

Pandas 提供了方便的方法来在 Series/DataFrame 和 NumPy 数组之间进行转换：

Series.to_numpy() / Series.values： 将 Series 转换为 NumPy 数组。
DataFrame.to_numpy() / DataFrame.values： 将 DataFrame 转换为 NumPy 数组。
pd.Series(ndarray)： 从 NumPy 数组创建 Series。
pd.DataFrame(ndarray)： 从 NumPy 数组创建 DataFrame。

代码示例：


import pandas as pd
import numpy as np
# 从 NumPy 数组创建 Series
arr = np.array([10, 20, 30, 40, 50])
s = pd.Series(arr)
print("Series from NumPy array:\n", s)
# 从 Series 获取 NumPy 数组
arr_from_s = s.to_numpy()
print("\nNumPy array from Series:\n", arr_from_s)
# 从 NumPy 数组创建 DataFrame
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print("\nDataFrame from NumPy array:\n", df)
# 从 DataFrame 获取 NumPy 数组
arr_from_df = df.to_numpy()
print("\nNumPy array from DataFrame:\n", arr_from_df)

9.1.3 利用 NumPy 进行 Pandas 数据操作

由于 Pandas 基于 NumPy，我们可以直接利用 NumPy 的函数和操作来处理 Pandas 对象。

代码示例：


import pandas as pd
import numpy as np
# 创建一个 DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
# 使用 NumPy 函数对 DataFrame 列进行操作
df['C'] = np.sin(df['A'])  # 计算 A 列的正弦值
df['D'] = np.log(df['B'])  # 计算 B 列的对数值
print(df)
# 使用 NumPy 的 where 函数进行条件赋值
df['E'] = np.where(df['A'] > 3, 1, 0)  # 如果 A 列的值大于 3，则 E 列赋值为 1，否则为 0
print(df)

9.1.4 Pandas 如何扩展 NumPy

虽然Pandas依赖于NumPy，但它也扩展了NumPy的功能，提供了更高级的数据处理能力：

标签索引： Pandas 允许使用标签（行名和列名）来访问数据，而 NumPy 主要使用整数索引。
缺失数据处理： Pandas 提供了方便的工具来处理缺失数据（NaN），而 NumPy 在这方面功能较弱。
数据对齐： Pandas 能够自动对齐不同 Series 和 DataFrame 之间的数据，这在 NumPy 中需要手动处理。
时间序列功能： Pandas 提供了强大的时间序列分析功能，例如日期范围生成、频率转换、重采样等，这些在 NumPy 中没有直接支持。

9.1.5 NumPy 的广播机制在 Pandas 中的应用

NumPy 的广播机制允许对不同形状的数组进行操作，而无需显式地扩展数组。Pandas 也利用了这一机制，使得可以对 Series 或 DataFrame 的列与标量值或形状兼容的数组进行操作。

代码示例：


import pandas as pd
import numpy as np
# 创建一个 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)
# 将 DataFrame 的所有元素加上一个标量值
df = df + 10
print(df)
# 将 DataFrame 的每一列乘以一个不同的值
multiplier = np.array([2, 3])
df = df * multiplier
print(df)

9.1.6 性能考虑

虽然Pandas提供了很多方便的功能，但在处理大规模数据时，直接使用NumPy进行计算可能会更有效率。这是因为Pandas的一些操作可能会引入额外的开销。因此，在性能至关重要的场景下，可以考虑将Pandas对象转换为NumPy数组，进行计算，然后再转换回Pandas对象。

9.1.7 Pandas 与 NumPy 的关系图

图示说明：

Pandas 依赖于 NumPy。
NumPy 的核心是 ndarray 数组。
Pandas 在 NumPy 的基础上提供了更高级的数据处理和分析功能，例如标签索引、缺失数据处理、数据对齐、统计分析和时间序列分析。

9.1.8 总结

Pandas 和 NumPy 是 Python 数据科学工具箱中的两个重要库。Pandas 构建在 NumPy 之上，利用 NumPy 的高性能数组操作，并提供了更高级的数据处理和分析功能。理解 Pandas 和 NumPy 之间的关系对于高效使用这两个库至关重要。在实际应用中，可以根据具体的需求选择使用 Pandas 或 NumPy，或者将两者结合起来使用，以达到最佳的性能和效果。

通过学习 Pandas 和 NumPy 的集成，可以更好地利用 Python 进行数据科学工作，包括数据清洗、数据转换、数据分析和数据可视化。掌握这些技能对于成为一名优秀的数据科学家至关重要。