时间序列预测(Time-series Forecasting)对众多行业都至关重要,包括健康、能源、商业、气候等。在不同预测长度上的准确性,对这些领域中服务短期和长期的规划和决策需求来说极其重要。例如,在疫情爆发这种公共卫生的紧急情况下,预测一到四周内的感染病例和死亡人数对于有效分配医疗和社会资源非常重要。在能源领域,准确预测每小时、每天、每周甚至每月的电力需求也对电网管理和可再生能源调度十分关键。同样,在物流行业,准确预测短期和长期的货物量能有效帮助企业合理安排运输路线以及高效管理供应链。

除了涵盖各种预测长度,面向规划和决策的精准预测不仅要考虑到点估计(Point Estimation),更要支持分布估计(Distribution Estimation),以衡量估计的不确定性。因为期望下的预测值及其相关的不确定性可以为随后的规划和优化提供一个全面的视角来引导更好的决策。

鉴于不同预测长度对点预测和分布预测的迫切需求,来自微软亚洲研究院的研究员们对现有不同研究领域开发的最先进的模型进行了回顾,这些模型包括:

  • 经典时间序列模型:这些模型通常需要在每个数据集上从头开始训练,包括专门用于长程点预测(例如,PatchTST、iTransformer)以及专注于短程分布预测的方法(例如,CSDI、TimeGrad)。
  • 近期的时间序列基础模型:这些模型涉及在广泛的时间序列数据集上进行通用预训练,包括由工业实验室(例如,TimesFM、MOIRAI、Chronos)和学术机构(例如,Timer、UniTS)开发的方法。

研究员们发现,尽管目前的预测模型有着可观的进展,但现有的方法通常缺乏对基础预测需求的全面考虑。这种局限性将导致现有模型方法在设计上存在“偏见”,而且这些模型能力尚未在更广泛的预测场景中得到验证。

基于此,研究员们开发了 ProbTS 框架。ProbTS 是一个统一的基准评测框架,旨在评估当前方法在满足基本预测需求方面的表现。研究员们通过 ProbTS 工具,不仅对预测研究的关键方法论差异进行了探讨,还对各类时间序列预测的经典模型和基础模型进行了评测,揭示了现有时间序列预测研究中存在的问题,以及各模型的优劣势所在,进而对该领域未来的研究方向进行了梳理。

经典时间序列模型的评测结果与分析

研究员们使用 ProbTS 框架对广泛的预测场景中的各种经典时间序列模型进行了基准评测,涵盖短程和长程预测。具体评测指标包括点预测指标 NMAE (Normalized Mean Absolute Error) 和分布预测指标 CRPS (Continuous Ranked Probability Score)。此外,研究员们还通过计算一种非高斯性的评分,量化了每个预测场景中数据分布的复杂性。

根据 ProbTS 的评测结果,研究员们发现:

  • 长程点预测模型的局限性:针对长程点预测所设计的时间序列神经架构,在长程场景中表现出色,然而,它们在短程预测任务中的架构优势显著降低(见图2(a)和2(c))。而且,这些模型无法衡量预测的不确定性,导致其与概率模型相比在分布预测上存在更大的性能差距。这一差距在数据分布复杂时会更加显著(见图2(c)和2(d))。
  • 短程概率预测模型的弱点:当前的概率预测模型虽然在短程分布预测方面表现出色,但在长程场景中面临挑战,表现为显著的性能下降(见图2(a)和2(b))。此外,随着预测长度的增加,一些模型会遭受严重的计算效率问题(详情请参见论文)。

16161908-2024-07-16T08:19:02.png
图2:使用 ProbTS 对经典时间序列模型进行基准评测

这些观察结果表明,当前已有的预测模型中仍然缺乏适合短程预测的有效架构设计;另外刻画复杂数据分布的能力对于这些预测模型的能力而言及其重要。同时,目前的长程分布预测在性能和效率方面都面临着重大挑战。

时间序列基础模型的评测结果与分析

研究员们还使用 ProbTS 框架将分析扩展到最新涌现的时间序列基础模型上(参见图4),不仅评估了这些模型在各种预测长度内的表现,还检验了它们的分布预测能力。
16161924-2024-07-16T08:19:24.png
评测结果表明:

  • AR 解码在扩展预测长度时存在局限性(图4(a)),这可能是由于时间序列具有数值连续的特性,与语言建模中 AR 方法操作在离散空间中的情况不同,AR 解码方法在时序预测上会遇到更加严重的误差累积问题。
  • AR 和 NAR 模型在短程场景中可以提供相当的性能,有时基于AR的模型甚至会优于它们的 NAR 对手。

当前的基础模型在分布预测方面支持有限,通常使用预定义的分布预测函数(例如:MOIRAI)或在值量化空间中用离散分布来近似建模(例如:Chronos)。这一点可以通过其与经典概率模型 CSDI 在比较捕捉复杂数据效果时发现(图4(b))

总而言之,虽然当前基于 AR 的基础模型在短程场景中表现优异,但它们的性能在面临更长的预测长度时显著降低,这表明时间序列数据预测,尤其在长程预测场景中,需要独特的处理来优化 AR 解码。同时,上述研究再次证明了准确刻画复杂数据分布的能力仍然是时间序列基础模型中亟需提升的关键领域。

论文:https://arxiv.org/abs/2310.07446v4
GitHub:https://github.com/microsoft/ProbTS