《Nature》重磅 | 研究员利用机器学习发现近 6000 种未知病毒

研究人员使用人工智能技术发现了近6000种未知病毒,这项工作展示了探索地球病毒多样性的新工具。通过训练机器学习算法识别特定病毒家族的基因序列,科学家们能够发现大量的新病毒基因组。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:李雨晨


《Nature》杂志近日发布消息称,研究人员利用人工智能发现了近6000种未知的病毒。这项工作是在3月15日由美国能源部(DOE)组织的一次会议上提出的,它展示了一种探索地球上巨大而未知的病毒多样性的新工具。


从人类健康到垃圾降解,虽然病毒的影响力十分巨大,但它们却很难被摸透。 科学家们无法在实验室环境中培养大多数病毒,识别其基因序列的尝试也往往无法进行,因为病毒的基因组很小并且进化得很快。


近年来,研究人员通过对来自不同环境的样本进行DNA测序,来寻找未知的病毒。为了识别出现的微生物,研究人员搜索已知病毒和细菌的遗传特征,正如文字处理器的“查找”功能会突出显示文档中包含特定字母的单词。但是这种方法经常失败,因为病毒学家无法搜索他们不知道的东西。


不过,机器学习解决了这个问题,因为它可以发现海量信息中的新兴模式。机器学习算法解析数据,从中学习,然后自主分类信息。


南加州大学洛杉矶分校的计算生物学家Jie Ren表示,“以前,人们没有办法很好地研究病毒,但现在我们有新工具可以找到它们。”


在最近的一项研究中,美国能源部联合基因组研究所(JGI)的计算生物学家 Simon Roux 训练计算机识别不常见的 Inoviridae 病毒家族的基因序列。这些病毒生存在细菌中并改变宿主的行为,例如,它们会使得引起霍乱的霍乱弧菌细菌毒性更强。在加州旧金山召开的会议上,他提出了自己的研究成果。他表示,在他的研究开始之前已经有不到100种基因组被发现。


Roux提出了一种机器学习算法,其中包含两组数据:其中一组含有来自已知的Inoviridae的805个基因组序列,另一个含有来自细菌和其他类型病毒的约2000个基因序列。该算法可以找到区分它们的方法。


接下来,Roux 向模型馈送大量宏基因组学数据集。该计算机回收了超过10000种的Inoviridae基因组,并将其分成不同种类的集群。他说,其中一些集群之间的遗传变异很大,以至于Inoviridae可能有很多家族。


据了解,在另一项研究中,巴西圣保罗大学的生物信息学家Deyvid Amgarten利用机器学习在城市动物园寻找肥料堆中的病毒。他编写了算法来搜索病毒基因组的一些显著特征,例如给定长度的DNA链中的基因密度。训练结束后,计算机复原了几个似乎是新型的基因组,Amgarten表示。他在JGI会议上介绍了他的结果。最后一步是了解这些病毒产生的蛋白质,看看它们中的哪些会加速有机物质分解的速度。“我们想提高肥料的质量。”他说。


Amgarten 是从去年报告的一项机器学习工具即 Ren 的团队开发的 VirFinder 中得到灵感的。VirFinder被设计为寻找 DNA 碱基组合,例如 DNA 双链中的 AT 或 GC。据了解,Ren将该算法应用于健康人和肝硬化患者(一种由肝炎、慢性酒精中毒引起的疾病)的基因组样本。机器将取样的病毒完成了分组之后,该团队注意到样本中某些特定类型的基因组在健康人群中相对更少或更多,这意味着这些基因组相关的病毒可能导致了疾病。


Ren的发现是一个引人注目的发现:生物医学研究人员一直在想,病毒是否会导致一些难以捉摸的症状,如慢性疲劳综合征(也称为肌痛性脑脊髓炎)和炎症性肠病。康涅狄格州法明顿的Jackson基因组医学实验室的免疫学家Derya Unutmaz推测,病毒可能会引发一种破坏性炎症反应,或者他们可能会改变人体微生物群中细菌的行为,反过来会破坏新陈代谢和免疫系统。


Unutmaz说,通过应用机器学习,研究人员可以确定隐藏在患者身上的病毒。此外,由于AI有能力在海量数据集中寻找模式,这种方法也许可以将病毒数据与细菌相关联,然后将症状数据与蛋白质变化联系起来。Unutmaz说,“机器学习甚至可以揭示我们从来没有想过的问题。”


原文地址:https://www.nature.com/articles/d41586-018-03358-3


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

### 自然杂志风格的机器学习配色方案 自然杂志以其简洁而专业的视觉呈现著称,在其出版物中经常采用特定的颜色组合来增强图形和图表的表现力。对于机器学习相关的可视化,建议使用以下颜色主题: - **背景色**:白色或浅灰色(#F7F7F7),这能提供清晰对比并突出主要内容。 - **主要色调**: - 海洋蓝 (#0A9CDE),代表科技感与信任[^1]。 - 草绿 (#6CC24A),传达成长和发展之意。 - **辅助色彩**: - 橙红 (#FFAE00),吸引注意力的同时保持活力。 - 靛紫 (#8D6DC3),增加深度和神秘氛围。 这些颜色不仅符合《自然》期刊一贯的设计美学标准,而且也适用于展示复杂的算法结构和技术概念图解。当应用于机器学习项目时,可以有效提升文档的专业性和可读性。 为了更好地理解如何应用上述提到的颜色到实际案例中,下面给出一段Python代码片段作为例子,该代码利用Matplotlib库绘制带有指定调色板的学习曲线。 ```python import matplotlib.pyplot as plt from sklearn.model_selection import learning_curve def plot_learning_curves(estimator, X, y): train_sizes, train_scores, test_scores = learning_curve( estimator, X, y) fig, ax = plt.subplots(figsize=(10, 6)) # 设置自定义颜色映射 colors = ['#0A9CDE', '#6CC24A', '#FFAE00', '#8D6DC3'] ax.plot(train_sizes, train_scores.mean(axis=1), 'o-', color=colors[0], label='Training score') ax.plot(train_sizes, test_scores.mean(axis=1), 'o-', color=colors[1], label='Cross-validation score') ax.set_title('Learning Curves', fontsize=14) ax.set_xlabel('Training examples') ax.set_ylabel('Score') ax.legend(loc="best") plt.style.use('seaborn-whitegrid') # 使用 seaborn 白色网格样式 plot_learning_curves(model, features, labels) ``` 通过这种方式,可以在生成的数据分析报告或其他形式的技术交流材料里融入自然杂志特有的优雅外观。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值