【PaperReading】Global Disease Monitoring and Forecasting with Wikipedia

传染病威胁公共卫生,传统监测技术成本高、速度慢,基于互联网数据源的新技术涌现但面临挑战。本文提出基于Wikipedia文章访问日志的新方法,通过线性模型测试多种位置 - 疾病组合,证明该方法可克服开放、宽度、可转让性和预测等挑战,有望建立更有效的疾病监测和预测系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Global Disease Monitoring and Forecasting with Wikipedia》

使用Wikipedia进行全球疾病监测和预测

摘要

传染病是对公共卫生、经济稳定和其他关键社会结构的主要威胁。减轻这些影响的努力依赖于准确和及时的监测,以衡量疾病的风险和进展。传统的、以生物为重点的监测技术是准确的,但成本高、速度慢;作为回应,基于社交网络数据的新技术,如社交媒体和搜索查询,正在涌现。这些努力是有希望的,但在科学同行评审、疾病和国家的广度以及预测等领域的重要挑战阻碍了它们的实用价值。我们研究了一个免费的、开放的用于此目的的数据源:从在线百科全书Wikipedia访问日志。我们使用线性模型、语言作为位置的代理以及系统而简单的文章选择程序,测试了14种位置-疾病组合,并证明这些数据支持克服这些困难的方法。具体来说,我们的概念验证产生的模型在2到0.92之间,预测值在28天的测试中,和几对足够相似的模型表明,将模型从一个位置转移到另一个位置而不进行再培训是可行的。基于这些初步结果,我们制定了一项研究议程,旨在克服这些困难,建立一个比当前技术水平更有效、更强大、更全面的疾病监测和预测系统。

介绍

动机和概述

传染病在人类和经济方面的代价仍然非常高昂。例如,全球儿童死亡率的大多数是由急性呼吸道感染、麻疹、腹泻、疟疾和艾滋病毒/艾滋病[1]等疾病造成的。即使在发达国家,传染病也有很大的影响;例如,每一个流感季节,美国的经济产出平均减少870亿美元,3000至4.9万人因此丧生。

有效和及时的疾病监测——即发现、描述和量化疾病发病率——是能够拯救生命、减少痛苦和尽量减少影响的预防和减轻战略的重要组成部分。传统上,这种监测采取病人面谈和/或实验室测试的形式,然后是官僚主义的报告链;虽然一般认为这一过程是准确的,但其成本很高,而且在观察和报告之间存在显著的滞后。

这些问题激发了新的基于互联网数据源的监控技术,比如搜索查询和社交媒体帖子。本质上,这些方法使用大规模数据挖掘技术来识别数据流中与健康相关的活动跟踪,提取它们,并将它们转换为一些有用的度量。其基本方法是训练一个基于地面真实数据的统计估计模型,如卫生部的发病率记录,然后应用该模型在真实数据不可用的情况下生成估计。当预测或真实数据尚未公布时。这被证明是有效的,并催生了谷歌FluTrends (http://www.google.org/flutrends/)等操作系统。然而,在基于互联网的疾病监测模型能够可靠地集成到决策工具包之前,仍然存在四个关键挑战:

C1:开放。模型应该提供第三方的审查、复制、改进和部署。这保证了高质量的科学基础、操作的连续性和广泛的适用性。这些要求意味着模型算法(以源代码的形式,而不是研究论文的形式)必须普遍可用,而且它们还意味着必须提供完整的输入数据。后者是主要障碍,因为条款是由资料拥有人而非资料使用者所订定;这激发了我们对维基百科访问日志的探索。据我们所知,目前还没有同时使用开放数据和开放算法的模型。

C2:宽度。数百个国家的数十种疾病具有足够的影响,值得进行监测;然而,将一个模型从一种疾病位置环境调整到另一种可能是昂贵的,而且资源通常(如果不是通常的话)无法做到这一点。因此,模型应该具有低成本的适应性,理想情况下只需输入新的发病率数据用于培训。虽然大多数已发布的模型在原则上提供了这种灵活性,但很少有模型为此目的进行过明确的测试。

C3:可转让性。许多上下文没有足够的可信赖的发病率数据来训练模型(例如,相关的卫生部可能没有跟踪感兴趣的疾病),事实上,这些上下文是新方法最紧迫的地方。因此,经过训练的模型应该是可翻译的新上下文,使用交替的、非关联的数据,如双语词典或人口普查统计数据。据我们所知,没有这样的模型存在。

C4:预测。有效的疾病反应不仅取决于疫情的当前状态,而且还取决于其未来的进程。也就是说,模型不仅应该提供对当前世界状态的估计(即nowcast),还应该提供对未来状态的预测。

尽管最近在疾病预测方面的工作在准确性方面取得了重大进展,但预测疫情的未来仍然是一项复杂的工作,在数据不足或对支持疫情的生物学过程和参数理解不足的情况下,这一工作受到了极大的限制。在这些情况下,基于internet数据流领先指标的简单统计方法可以提高预测的可用性、质量和时间范围。以前对这类方法的评估产生了相互矛盾的结果,据我们所知,其时间粒度还没有超过一周。

为了解决这些挑战,我们提出了一种基于免费的Wikipedia文章访问日志的新方法。在目前的概念证明中,我们使用语言作为位置的代理,但是我们希望将来能够访问由地理显式聚合的数据。(我们作为开源软件的实现:http://github.com/reidpr/quac)来演示的可行性技术建立在这个数据流,我们建立了线性模型映射每日访问百科全书文章的数量在9个国家7疾病的案例数量,总共14上下文。即使是一种简单的文章选择方法,在14个上下文中也有8个取得了成功,在临近预测中r2达到0.89,在预测中r2达到0.92,大多数成功的上下文的预测值都达到了28天的测试极限。具体来说,我们认为基于该数据源的方法可以克服以下四个挑战:

  1. 任何拥有相对有限计算资源的人都可以下载完整的Wikipedia数据集并使其保持最新。这些数据也可以自由地与他人共享。
  2. 在评估是实用的情况下,我们的方法可以通过简单地提供可靠的关联时间序列和选择输入文章来适应新的上下文。我们通过计算不同上下文的有效模型来证明这一点,即使使用一个简单的文章选择过程。未来,更强大的文章选择程序将提高该方法的适应性。
  3. 在某些情况下,我们对同一种疾病不同部位的模型非常相似;即。在美国,同一篇文章的不同语言版本与当地相应疾病发病率之间的相关性是相似的。这表明基于中介语言技巧或其他现成数据的简单技术可以在不经过再培训的情况下将模型从一个上下文转换到另一个上下文。
  4. 即使是我们的简单模型,在预测未来几天或几周的情况下,也显示出很高的预测效率。这表明,一般方法可以用来建立具有合理的紧置信区间的短期预测。

总之,本文提出了两个关键论点。首先,我们评估了一种新兴数据源Wikipedia access logs的潜力,该数据源可以比以前更详细地用于全球疾病监测和预测,我们认为这些数据的开放性和其他特性具有重要的科学和操作效益。其次,使用简单的概念验证实验,我们证明使用以前的互联网数据估计疾病发病率的统计技术也可能使用Wikipedia访问日志有效。

接下来,我们将更深入地讨论之前的作品,为当前的作品打下基础,并更详细地概述艺术与上述挑战之间的关系。在此之后,我们将介绍我们的方法和数据源、结果,以及对影响和未来工作的讨论。

相关工作

我们的论文借鉴了之前在三个领域的学术和实践工作:传统的基于病人和实验室的疾病监测,基于维基百科的现实世界的测量,以及基于互联网的疾病监测。
传统的疾病监测
传统的疾病监测形式是建立在直接接触病人或在诊所、医院和实验室进行生物检测的基础上的。目前的大多数系统依赖于症状监测数据(即包括临床诊断、主诉、学校和工作缺勤、与疾病相关的911报警电话和急诊室收治电话[4]。

例如,流感监测项目中一个行之有效的指标是流感样疾病患者的比例,简称ILI。一个由门诊提供者组成的网络报告了所见患者总数以及出现与流感症状一致但没有其他可确定病因的人数。同样,其他部分谜底电子资源已经被揭开,如电子监测系统基于社区流行的早期通知(本质),基于实时数据从国防部军事卫生系统[6]和BioSense,基于数据从退伍军人事务部的统计,美国国防部,美国零售药店,和实验室公司[7]。这些系统旨在促进疾病暴发的早期发现以及对有害健康影响、接触疾病或相关危险条件的反应。

临床实验室在传染病监测中发挥着重要作用。例如,由120多个生物实验室组成的实验室反应网络(LRN)对人类的一些疾病因子进行了积极监测,这些因子的范围从轻微的(例如,非致病性大肠杆菌和金黄色葡萄球菌。基于临床或环境样本[4]。其他系统监控非传统的公共健康指标,如旷课率、非处方药物销售、911电话、兽医数据和门诊-兰斯跑步数据。例如,早期异常报告系统(ear)为国家、州和地方卫生部门提供了用于症状监测[8]的替代检测方法。

这些系统的主要价值在于其准确性。然而,它们也有一些缺点,尤其是成本和及时性:例如,每个ILI数据都需要一个从业者的访问,而ILIdata仅在延迟1-2周[5]之后才发布。
Wikipedia
维基百科是一个在线百科全书,自2001年成立以来,已成长为包含约3000万篇文章287种语言的[9]。近年来,一直稳居十大网站之列;在撰写本文时,它是世界上访问量第6大的网站,而访问量最大的网站不是搜索引擎或社交网络[10],每天约有8.5亿篇文章被[11]访问。对于许多搜索引擎来说,维基百科上的一篇文章是最热门的搜索结果。

维基百科与传统百科全书在两个关键方面形成了对比:它是免费阅读的,任何人都可以对立即发布的内容进行修改——评论是在发布后由社区执行的。(大多数文章都是这样。特别有争议的文章,如《乔治·W·布什》(George W。“布什”或“堕胎”都有不同程度的编辑保护。尽管这种对传统评论-发布周期的惊人颠覆似乎会招致各种各样的滥用和错误信息,但维基百科已经制定了有效的措施来处理这些问题,其准确度与传统百科全书(如《大英百科全书》[12])相当。

维基百科的文章访问日志被用于各种各样的研究。最常见的应用是对热门新闻话题或事件的检测和测量[13-17]。这些数据也被用来研究维基百科本身的动态[18-20]。社会应用包括评估地名的重要性,以便为地图[21]做出类型大小的决定,测量概念在世界各地的流动,以及估计政治家和政党的受欢迎程度。最后,经济应用包括尝试预测电影票房[24]和股票价格[25]。后两种应用程序特别有趣,因为它们包括预测组件,正如目前的工作所做的那样。

在健康信息的背景下,最突出的研究方向是评估维基百科作为公众健康信息来源的质量。,关于癌症[26,27],腕管综合征[28],药物信息[29],肾脏状况[30]。据我们所知,目前只有四项利用维基百科访问日志的健康研究。Tausczik等人研究了2009年H1N1流感大流行期间公众的“焦虑和信息寻求”,部分方法是通过测量维基百科上与H1N1相关的文章[31]的流量。劳伦特和维克斯对维基百科上与疾病相关的季节性和与健康问题相关的新闻报道的文章流量进行了评估,发现在两种情况下[32]都有显著影响。艾特肯等人从大约5000篇与健康相关的文章中选择了[33],发现了药品销售和维基百科流量之间的关系。这些都没有提出将文章流量映射到疾病计量学的时间序列模型。

第四项研究是McIver & Brownstein最近的一篇文章,它使用统计技术从维基百科访问日志[34]估计美国的流感发病率。在下一节中,我们将在对此类技术进行更广泛讨论的背景下,将本文与当前的工作进行比较和对比。

总之,使用Wikipedia访问日志来度量真实世界的数量已经开始出现,出于健康目的对Wikipedia的兴趣也是如此。然而,据我们所知,对疾病定量监测百科全书的使用仍处于早期阶段。


写在最后:
本篇论文主要是用维基百科的访问日志做全球疾病监控与预测,与维基百科的正文并没有关联,是利用全球用户访问维基百科的日志记录,来预测某一个地区的疾病发生率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值