什么样的机器学习项目会被美国疾控中心CDC、纽约时报、经济学人杂志等多家机构和媒体所引用提及,还被Facebook的Chief AI Executor称为最准确的新冠死亡预测模型?这就是今天要给大家分享的covid-projection——一个来自一名普通美国华裔数据科学家的的业余开源机器学习项目。
covid-projection的作者Gu Yougang在中国出生,儿时随父母移民美国,2015年才从MIT毕业。他本科取得了电气工程与计算机科学专业和数学专业的双学位,硕士则在MIT人工智能实验室的自然语言处理组完成了他的毕业论文。他在疫情期间萌生了对于新冠疫情预测的兴趣,于是在业余时间结合自己的专业所长发起了这个开源项目。在2020年四月到2021年3月的短短一年时间里,该项目实现了对全美五十个州以及全球70个国家的新冠疫情预测,其模型精确度甚至超过华盛顿大学健康指标与评估研究所(Institute for Health Metrics and Evaluation)这样专业科研机构的相关工作,因此受到了美国及全球近百家媒体和机构的关注及报道。
covid-projection构建模型的方法非常朴素,首先它实现了一个基于SEIR传染病模型的模拟器,然后引入机器学习算法及约翰霍普金斯大学等医疗机构发布的新冠历史数据来对其进行优化。优化的过程与机器学习中的hyperparameter tuning非常相似,是利用机器学习或搜索算法来自主的选择模拟器的参数组合,然后将这些参数代入模拟器产生一定时间内的模拟数据。再通过将模拟数据与真实的历史数据进行比较,就可以确定下一次迭代的参数组合调优方向。经过多轮的训练,最后得到的SEIR模拟器就可以被用来产生未来一段时间内的新冠趋势模拟数据