今天给大家介绍一篇华东师范大学联合丹麦奥尔堡大学和松鼠AI发布的时间序列模型统一评测基准FoundTS,这是一个针对时间序列预测基础模型的基准测评框架,旨在利用不同领域和特征的数据集对不同的时间序列预测基础模型进行全面、公平的测评。该论文在统一评测结果的基础上,分析了现有时序预测基础模型的优缺点,并为基础模型的提升提出一些可行的方向。
论文标题 :FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
论文地址 :
背景
时间序列预测 (Time Series Forecasting, TSF) 是指根据历史观察来预测未来状态,从而指导相应的决策和行为,是金融分析、气象预测和能源管理等众多领域的关键任务。
近年来,针对特定领域数据集进行训练和推理的 特定模型(Specific models) 取得了快速发展,其预测准确度和推理速度显著提升。然而,这些模型的泛化能力较弱,面对新领域或新数据时表现欠佳。在多领域时间序列数据或大规模语言数据上进行预训练的 基础模型(Foundation models) 为提升时间序列预测模型的泛化能力提供了新的可能性,但目前对此类模型的认知还远远不足。主要原因有以下三个方面:
(1)现有基础模型工作的 实验设置不具备一致性 ,如表1所示,难以仅根据现有结果对不同的基础模型的性能进行公平一致的比较;
(2)当前主流的时间序列测评基准 主要集中在特定模型 ,涉及基础模型的测评基准很少;
(3)现有涉及基础模型的测评基准对此类模型的分析还停留在定性分析或 单一场景测评 。
为了解决上述问题,这篇论文提出了一个新的测评基准 FoundTS,以实现对时间序列预测基础模型进行全面、公平的评估和比较。FoundTS 涵盖了各种时间序列预测基础模型,包括基于多领域时间序列数据的预训练模型(Pre-trained models)和基于大规模语言的预训练模型(LLM-based models)。同时,FoundTS 支持不同的预测场景,如零样本(zero-shot)、少样本(few-shot)和全样本(full-shot)。
FoundTS评测框架
FoundTS 提供了一个标准化评估流程,包含了三个核心模块:数据(data)、模型(models)、评估(evaluation)。
数据模块 包含10个来自不同领域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多种特征(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的时间序列数据集,为下游时间序列预测提供了全面的数据支持。
模型模块 涵盖了各类时间序列预测模型,并对其进行了细致的分类与介绍。
基于多领域时间序列数据的预训练模型 :论文中根据训练方法从重建、自回归、直接预测以及混合预测四个角度分别介绍此类模型;
基于大规模语言的预训练模型 :通过参数高效微调或设计prompt的方式,利用 LLMs 强大的表征能力和序列建模能力来捕捉时间序列的复杂模式;
特定模型 :使用特定数据集进行训练并在相应的数据集进行推理,常见框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。
评估模块 提供全面的测评场景、可扩展的流程和统一的评估环境:
涵盖 zero-shot、few-shot 和 full-shot 场景,全面评估时间序列预测基础模型在不同测试场景下的表现。
支持对评测流程的多个方面进行灵活定制,如回看窗口、预测窗口、数据划分与加载、采样策略等,能够对不同模型采用一致的评测流程,确保测试结果的公平与可靠。
提供各种评估指标(如平均绝对误差(MAE)和均方误差(MSE)),从不同角度提供深入的模型性能分析。
实验分析
论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现,同时从不同角度对时间序列预测基础模型的优缺点进行了分析。
论文比较了时间序列预测基础模型在不同采样策略下的性能,表明数据采样策略在few-shot学习中起着至关重要的作用,只有在统一的实验设置下才能对模型进行公平评估。
论文探索了多变量时间序列的通道依赖性对时间序列预测基础模型性能影响,呼吁在构建基础模型时应充分考虑多变量数据的通道依赖性。
论文分析了不同框架的时间序列预测基础模型之间的性能差异,指出未来需要更深入地研究模型架构设计,找到性能和参数量之间的平衡。
论文在具有不同显著特征的数据集上对比了时间序列预测基础模型处理不同特征数据的能力。
论文评估了来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益。
论文通过衡量时间序列预测基础模型在 5% 数据的 few-shot 场景下微调时间与特定模型在 full-shot 场景下从头训练时间,讨论了时间序列预测基础模型的精度与应用效率。
发现与观点
基础模型是否优于特定模型? 时间序列预测基础模型,相比于特定模型,表现出优越的 zero-shot 和 few-shot 的学习能力。但当有足够的训练数据时,基础模型并不总是优于特定模型。
哪些基础模型更优? 时间序列预测基础模型的优势取决于评估的不同方面,没有任何一个基础模型能够在所有方面占据主导地位。
从哪些方面提升基础模型? (1)时间序列预测基础模型应具有更加通用的、处理多种预测场景的能力;(2)从训练数据、模型架构、预训练策略等角度优化设计以更充分利用大规模预训练知识;(3)如何在下游任务甚至预训练阶段充分建模各个通道之间的依赖性,是基础模型应对多变量时间序列的关键问题之一;(4)合理平衡预测精度与训练、微调、推理成本,是将时间序列预测基础模型进行实际应用不可忽视的问题。
本文转载自,作者: