2.5 高级数据处理技巧 TensorFlow 数据集 (tf.data) 高级数据处理技巧 使用 创建自定义数据集 允许你从 Python 生成器函数创建数据集。这对于处理无法一次性加载到内存的数据,或者需要动态生成数据的场景非常有用。 详解: 函数定义了数据的生成逻辑。它使用 关键字来逐个产生数据。 接受生成器函数作为输入。 参数非常重要,它定义了生成器产生的数据的类型和形状。这有助于 TensorFlow 静态地推断数据集的结构,从而进行优化。 循环遍历数据集,可以获取生成器产生的每个元素。 适用场景: 读取大型 CSV 文件,逐行生成数据。 从数据库读取数据,每次读取一批。 动态生成合成数据。 使用 并行加载数据 允许你并行地从多个数据源加载数据。