5.1 数据集划分策略 5.1 数据集划分策略 在基于深度学习的时间序列预测任务中,数据集的划分策略是模型训练、评估与优化的基石。与传统的机器学习任务不同,时间序列数据具有固有的时间依赖性,样本之间并非独立同分布。因此,简单地随机划分数据会导致数据泄露,从而高估模型的泛化能力。本章节将详细探讨时间序列数据集划分的各种策略,并分析其优缺点。 5.1.1 时间序列数据的特性与划分挑战 时间序列数据的一个核心特性是其时间顺序性。未来的事件依赖于过去的事件,但过去的事件不依赖于未来的事件。这种单向的时间依赖性意味着我们不能使用未来的数据来训练模型,然后用过去的数据来评估。如果这样做,模型在训练过程中会“看到”未来的信息,导致在实际预测中表现不佳。 另一个挑战是非独立同分布性(Non-I.I.D.)。