窝牛号

使用AutoML进行时间序列预测

时间序列预测是机器学习(ML)的重要研究领域,尤其是在准确预测至关重要的地方,包括零售,供应链,能源,金融等多个行业。例如,在消费品领域,提高准确性需求预测的10-20%可以减少5%的库存,并增加2-3%的收入。当前基于ML的预测解决方案通常由专家构建,并且需要大量的人工工作,包括模型构建,特征工程和。但是,此类专业知识可能无法广泛获得,这可能会限制将ML应用于时间序列预测挑战的好处。

为了解决这个问题,(AutoML)是一种通过自动化创建ML模型的过程使ML更广泛地访问ML的方法,并且最近已经加速了ML研究以及将ML应用到现实世界中的问题。例如,有关神经体系结构搜索的最初工作实现了计算机视觉(例如NasNet,AmoebaNet和EfficientNet)以及自然语言处理(例如Evolved Transformer)方面的突破。最近,AutoML也已应用于表格数据。

今天,Google为时间序列预测引入了可扩展的端到端AutoML解决方案,该解决方案满足三个关键标准:

· 全自动:该解决方案将数据作为输入,并生成可服务的模型作为输出,而无需人工干预。

· 通用:该解决方案适用于大多数时间序列预测任务,并自动搜索每个任务的最佳模型配置。

· 高质量:与为特定任务手工制作的模型相比,所生产的模型具有竞争优势。

通过参加M5预测竞赛来证明这种方法的成功,在此,此AutoML解决方案以较低的计算成本获得了与手工模型相比的竞争优势。

挑战时间序列预测时间序列预测带来了一些挑战,以机器学习模型。首先,不确定性通常很高,因为目标是根据历史数据预测未来。与其他机器学习问题不同,测试集(例如,将来的产品销售)可能与训练和验证集的分布有所不同,后者是从历史数据中提取的。其次,来自现实世界的时间序列数据经常遭受数据丢失和高间歇性的困扰(即,当时间序列的很大一部分具有零值时)。某些时间序列任务可能没有历史数据可用,并且会遇到冷启动问题,例如,在预测新产品的销售时。第三,由于我们的目标是构建一个完全自动化的通用解决方案,因此同一解决方案需要应用于各种数据集,这些数据集在域(产品销售,网络流量等),粒度(每天,每小时等)方面可能存在很大差异),历史记录长度,要素类型(分类,数字,日期时间等)等等。

AutoML解决方案为了应对这些挑战,我们设计了端到端TensorFlow管道,该管道具有用于时间序列预测的专用搜索空间。它基于编码器-解码器体系结构,其中编码器将时间序列中的历史信息转换为一组向量,然后解码器根据这些向量生成将来的预测。受Transformer和WaveNet等最新序列模型以及时间序列预测的最佳做法的启发,我们的搜索空间包括以及不同的功能转换。最终的AutoML解决方案将搜索这些组件以及核心超参数的最佳组合。

为了克服预测时间序列的不确定性,使用搜索中发现的顶级模型的集合进行最终预测。顶级模型的多样性使预测对不确定性更加稳健,并且不太容易过拟合历史数据。为了处理缺少数据的时间序列,我们用可训练的矢量填补空白,让模型学习适应丢失的时间步长。为了解决间歇性问题,我们不仅为每个未来时间步预测了值,而且还预测了此时间步的值不为零的概率,并将这两个预测结合在一起。最后,我们发现自动搜索能够调整不同数据集的体系结构和超参数选择,这使AutoML解决方案具有通用性并使建模工作自动化。

预测竞赛中的基准测试为了对我们的AutoML解决方案进行基准测试,我们参加了M5竞赛,这是的最新,它是预测社区中最重要的竞赛之一,已有近40年的悠久历史。这次最新的竞赛是在Kaggle上举办的并使用了沃尔玛产品销售中的数据集,其真实世界的性质使问题变得非常棘手。

我们以全自动解决方案参加了比赛,在银牌区的最终排行榜中,在5558名参与者中排名第138(最高2.5%)。比赛的参与者将近四个月的时间来制作他们的模型。尽管许多竞争性的预测模型都需要数月的人工来创建,但我们的AutoML解决方案却能在很短的时间内找到该模型,而计算成本却适中(500个CPU,可使用2小时),而无需人工干预。

我们还以其他几个Kaggle数据集为基准对我们的AutoML预测解决方案进行了基准测试,发现尽管资源使用有限,但平均而言它的性能优于92%的手工模型。

这项工作展示了用于时间序列预测的端到端AutoML解决方案的优势,我们为它对现实应用程序的潜在影响而感到兴奋。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1