AI预测细胞形态技术突破

部署运行你感兴趣的模型镜像

教AI在实验前预测细胞形态

如果你曾尝试猜测细胞在药物或基因编辑后会如何改变形状,你会知道这既是科学也是艺术,但主要是昂贵试错的过程。对数千种条件进行成像很慢;探索数百万种条件则不可能。

《自然通讯》期刊的新论文提出了一条不同路径:直接从分子读数模拟这些细胞的"处理后"图像,让你在拿起移液器之前就能预览形态。研究团队将他们的模型称为MorphDiff,这是一个由转录组(扰动后基因上调或下调的模式)引导的扩散模型。

从高层次看,这个想法颠覆了熟悉的工作流程。高通量成像是一种经过验证的发现化合物机制或识别生物活性的方法,但对每个候选药物或CRISPR靶点进行分析并不可行。MorphDiff从已知基因表达和细胞形态的案例中学习,然后仅使用L1000基因表达谱作为条件,生成真实的扰动后图像——可以是从零开始生成,也可以将对照图像转换为其扰动对应物。研究声称,在大型药物和遗传数据集上对未见过的扰动具有竞争力的保真度,加上在作用机制检索方面的改进,可以与真实图像相媲美。

这项由某机构研究人员领导的研究始于一个生物学观察:基因表达最终驱动蛋白质和通路,这些蛋白质和通路塑造了显微镜下细胞的外观。这种映射不是一对一的,但有足够的共享信号可供学习。基于转录组的条件设置还有一个实际好处:公开可用的L1000数据远比配对的形态学数据多,使得覆盖更广泛的扰动空间更容易。换句话说,当新化合物到来时,你很可能会找到其基因特征,然后MorphDiff可以利用这些特征。

在技术层面,MorphDiff融合了两个部分。首先,形态变分自编码器将五通道显微镜图像压缩到紧凑的潜在空间,并学习以高感知保真度重建它们。其次,潜在扩散模型学习在该潜在空间中去噪样本,通过注意力机制用L1000向量引导每个去噪步骤。

扩散模型在这里很合适:它本质上对噪声具有鲁棒性,且潜在空间变体在训练时足够高效,同时保留图像细节。团队实现了基因到图像生成(从噪声开始,以转录组为条件)和图像到图像转换(使用相同的转录组条件将对照图像推向其扰动状态)。后者由于采用了SDEdit风格的程序,无需重新训练,当你想解释相对于对照的变化时,这很方便。

生成美观的图片是一回事;生成生物学上忠实的图片是另一回事。论文在这两方面都进行了深入探讨:在生成方面,使用FID、Inception Score、覆盖度、密度和基于CLIP的CMMD等标准指标,将MorphDiff与GAN和扩散基线进行基准测试。在JUMP(遗传)和CDRP/LINCS(药物)测试分割中,MorphDiff的两种模式通常排名第一和第二,并在多个随机种子或独立对照板上进行了显著性检验。结果一致:更好的保真度和多样性,尤其是在具有实际价值的分布外扰动上。

更宏观的图景是,生成式AI终于达到了保真度水平,使得计算机模拟显微镜可以替代初步实验。

对生物学家来说更有趣的是,作者超越了图像美学,深入到形态特征。他们提取了数百个CellProfiler特征(纹理、强度、颗粒度、跨通道相关性),并询问生成的特征分布是否与真实情况匹配。在并排比较中,MorphDiff的特征云比IMPA等基线更接近真实数据。统计检验显示,超过70%的生成特征分布与真实分布无法区分,特征散点图显示模型正确捕捉了与对照在最受扰动特征上的差异。关键的是,模型还保留了基因表达和形态特征之间的相关性结构,与先前方法相比,与真实情况的一致性更高,证明它建模的不仅仅是表面风格。

药物结果将这个故事扩展到数千种处理。使用DeepProfiler嵌入作为紧凑的形态指纹,团队证明MorphDiff生成的图谱具有区分性:在真实嵌入上训练的分类器也能通过扰动分离生成的嵌入,并且药物效应之间的成对距离得以保留。

这对每个人都关心的下游任务很重要:作用机制检索。给定一个查询图谱,你能找到具有相同机制的参考药物吗?MorphDiff生成的形态不仅击败了先前的图像生成基线,而且优于仅使用基因表达的检索,并且接近使用真实图像获得的准确性。在top-k检索实验中,相对于最强基线的平均改进为16.9%,相对于仅使用转录组的改进为8.0,在多个k值和指标(如平均精度和富集倍数)上显示出鲁棒性。这是一个强烈的信号,表明模拟形态包含与化学结构和转录组学互补的信息,足以帮助找到相似的机制,即使分子本身看起来完全不同。

论文还列出了一些当前局限性,暗示了未来可能的改进。扩散推理仍然相对较慢;作者建议插入更新的采样器以加速生成。由于数据限制,时间和浓度(生物学家关心的两个因素)没有明确编码;当匹配数据集可用时,架构可以将它们作为附加条件。而且因为MorphDiff依赖扰动的基因表达作为输入,它无法为缺乏转录组测量的扰动生成形态;一个自然的扩展是与预测未见药物的基因表达的模型链接(论文引用GEARS作为例子)。最后,当你远离训练分布时,泛化能力不可避免地减弱;更大、更好匹配的多模态数据集将有所帮助,在更多模态(如结构、文本描述或染色质可及性)上条件化也会有所帮助。

这在实践中意味着什么?想象一个拥有大型L1000库但成像预算较小的筛选团队。MorphDiff成为一个表型副驾驶:为新化合物生成预测形态,按与已知机制的相似性进行聚类,并优先考虑哪些需要进行成像确认。因为模型还揭示了可解释的特征变化,研究人员可以窥探内部机制。ER纹理和线粒体强度是否如我们对EGFR抑制剂的预期那样移动?两个结构无关的分子是否落在相同的表型邻域?这些是加速机制搜寻和重用的假设类型。

更宏观的图景是,生成式AI终于达到了保真度水平,使得计算机模拟显微镜可以替代初步实验。我们已经看到文本到图像模型在消费领域爆炸式增长;在这里,一个转录组到形态的模型表明,相同的扩散机制可以进行科学有用的工作,例如捕捉细微的多通道表型,并保留使这些图像不仅仅是好看的关系。它不会取代显微镜。但如果它减少了必须运行的板数以找到重要内容,那么你可以花时间和金钱来验证重要的命中。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值