窝牛号

基于机器学习的 COVID-19 流行病学研究

在过去的 20 个月中,COVID-19 大流行对日常生活产生了深远的影响,给供需规划的企业带来了后勤挑战,并给致力于支持社区及时采取公共卫生应对措施的政府和组织带来了困难。虽然已经有经过充分研究的流行病学模型可以帮助预测 COVID-19 病例和死亡人数以帮助应对这些挑战,但这种流行病已经产生了前所未有的实时公开数据量,这使得使用更先进的机器成为可能学习技巧以提高结果。

在“人工智能增强流行病学预测美国和日本 COVID-19 的前瞻性评估”中,被npj 数字医学接受,Google继续了Google之前的工作 [ 1 , 2 , 3 , 4 ] 并提出了一个旨在模拟某些政策变化对 COVID-19 死亡和病例的影响,例如学校关闭或美国州、美国县和日本县级的紧急状态,仅使用公开数据。Google对Google的公共预测进行了为期 2个月的前瞻性评估,在此期间,Google的美国模型在COVID19 预测中心上与所有其他 33 个模型并列或优于所有其他模型. Google还发布了对美国和日本受保护群体表现的公平分析。与其他帮助应对 COVID-19 的 Google 计划一样 ,Google将根据这项工作在网络 [ us , ja ] 和BigQuery上免费向公众发布每日预测。

美国和日本模型的前瞻性预测。实际累计死亡人数(绿线)与每天的预测一起显示。每个预测都包含 4 周预测窗口内每天死亡人数的预测增加(显示为彩色点,其中阴影变为黄色表示在预测范围内距离预测日期还有几天,最多 4 周)。显示了美国(上)和日本(下)的死亡预测。

几十年来,流行病学家一直在研究传染病的模型模型。房室模型是最常见的,因为它们简单、可解释,并且可以有效地适应不同的疾病阶段。在区室模型中,根据个人的疾病状态(例如易感、暴露或康复),将个体分为互斥的组或区室,并对这些区室之间的变化率进行建模以拟合过去的数据。人口被分配到代表疾病状态的隔间,随着疾病状态的变化,人们在状态之间流动。

在这项工作中,Google提出了对易感暴露感染去除 (SEIR) 型隔室模型的一些扩展。例如,易感人群暴露会导致易感隔室减少而暴露隔室增加,其速度取决于疾病传播特征。观察到的 COVID-19 相关结果数据(例如确诊病例、住院和死亡)用于训练隔室模型。

流行病学中“隔间”模型的视觉解释。人在隔间之间“流动”。现实世界的事件,如政策变化和更多的ICU病床,改变了隔间之间的流动速度。

Google的框架提出了许多新颖的技术创新:

学习转换率:Google使用机器学习率来映射它们,而不是使用静态速率来跨所有位置和时间在隔间之间进行转换。这使Google能够利用大量可用数据和信息信号,例如 Google 的 COVID-19社区流动报告、医疗保健供应、人口统计和计量经济学功能。

可解释性:Google的框架为决策者提供可解释性,通过其隔室结构提供有关疾病传播趋势的见解,并建议哪些因素可能对驱动隔室转变最重要。

扩展隔间:Google添加了住院、ICU、呼吸机和疫苗隔间,并在数据稀疏的情况下展示了有效的培训。

跨位置信息共享:与拟合单个位置相反,Google对一个国家(例如,美国 3000 多个县)的所有位置具有不同的动态和特征,Google有一个单一的模型,Google展示了跨位置传输信息的好处。

Seq2seq 建模:Google使用序列到序列模型和新颖的部分教师强制方法,最大限度地减少未来错误的放大增长。

预测准确性

每天,Google都会训练模型来预测未来 28天的COVID-19 相关结果(主要是死亡和病例)。Google报告了全国范围分数和位置级别分数的平均绝对百分比误差(MAPE),以及 COVID-19 相关结果的累积值和每周增量值。

Google将Google的框架与来自COVID19 预测中心的美国替代方案进行了比较。在 MAPE 中,Google的模型优于所有其他 33 个模型,除了一个模型——集合预测也包括Google模型的预测,其中差异在统计上不显着。

Google还使用预测不确定性来估计预测是否可能准确。如果Google拒绝模型认为不确定的预测,Google可以提高Google发布的预测的准确性。这是可能的,因为Google的模型具有经过良好校准的不确定性。

随着Google消除不确定的预测,提高准确性,平均百分比误差(MAPE,越低越好)会降低。

模拟大流行管理政策和策略的假设工具

除了了解给定过去数据的最可能情景之外,决策者还对不同的决策如何影响未来结果感兴趣,例如,了解学校关闭、流动性限制和不同疫苗接种策略。Google的框架允许通过将选定变量的预测值替换为其反事实对应物来进行反事实分析。Google的模拟结果增加了过早放松非药物干预 (NPI) 的风险,直到疾病的快速传播减少。同样,日本的模拟表明,在保持高疫苗接种率的同时保持紧急状态会大大降低感染率。

假设在 2021 年 3 月 1 日在德克萨斯州、华盛顿州和南卡罗来纳州的预测日期采用不同的非药物干预 (NPI),对预测暴露个体的百分比变化进行假设模拟。NPI 限制的增加与暴露人数的更大百分比减少有关。

假设预测日期为 2021 年 3 月 1 日在德克萨斯州、华盛顿州和南卡罗来纳州的疫苗接种率不同,则对预测暴露个体的百分比变化进行假设模拟。在这些情况下,提高疫苗接种率对于减少暴露数量也起着关键作用。

公平分析

为了确保Google的模型不会产生或强化不公平的偏见决策,根据Google的AI 原则,Google通过量化模型在受保护子组上的准确性是否更差,分别对美国和日本的预测进行了公平分析. 这些类别包括美国的年龄、性别、收入和种族,以及日本的年龄、性别、收入和原籍国。在所有情况下,一旦Google控制了每个亚组中发生的 COVID-19 死亡人数和病例数,Google就没有证明这些组之间存在一致的错误模式。

按收入中位数归一化的误差。两者之间的比较表明,一旦错误被案例规范化,错误模式就不会持续存在。左:按美国收入中位数归一化的误差。右:日本按收入中位数归一化的误差。

举几个例子,在美国,哈佛全球健康研究所和布朗公共卫生学院使用这些预测来帮助创建媒体用来帮助通知公众的COVID-19 测试目标。美国国防部使用这些预测来帮助确定分配资源的位置,并帮助考虑特定事件。在日本,该模型被用于制定商业决策。一家在 20 多个县设有商店的大型跨县公司使用这些预测来更好地规划销售预测并调整商店营业时间。

限制和后续步骤

Google的方法有一些局限性。首先,它受可用数据的限制,只要有可靠、高质量的公开数据,Google就可以发布每日预测。例如,公共交通的使用可能非常有用,但该信息不公开。其次,由于隔室模型的模型容量存在局限性,因为它们无法对 Covid-19 疾病传播的非常复杂的动态进行建模。第三,美国和日本的病例数和死亡人数分布有很大差异。例如,日本的大部分 COVID-19 病例和死亡病例集中在其 47 个县中的几个县,其他县的数值较低。这意味着Google的每个县模型都经过训练,可以在所有日本县中表现良好,

Google更新了Google的模型,以考虑疾病动态的巨大变化,例如疫苗接种数量的增加。Google还扩展到与市政府、医院和私人组织的新合作。Google希望Google的公开发布继续帮助公众和政策制定者应对持续大流行带来的挑战,Google希望Google的方法在这次和未来的健康危机中对流行病学家和公共卫生官员有用。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1