蛋白质作为生命活动的主要承担者,在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来,生命科学对蛋白质复杂特性解析的需求日益迫切,大数据、深度学习、多模态计算等技术的突破性发展,为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建,使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果,为药物发现与生命系统模拟提供了全新技术路径。
在 2025 北京智源大会上,中国海洋大学计算机学院的张树刚副教授在「AI+理工&医学」专题论坛中,以「蛋白智能计算体系构建及其应用」为题,从蛋白智能计算体系的核心价值出发,系统阐述了蛋白质结构预测、功能注释、交互识别及全新设计四大核心任务的技术突破,并重点介绍了团队相关研究成果。
张树刚副教授演讲现场
HyperAI 超神经在不违原意的前提下,对张树刚副教授的深度分享进行了整理汇总,以下为演讲实录。
蛋白智能计算体系概述:AI 驱动的生命科学革命
在生命科学研究中,蛋白质的重要性不言而喻。它不仅是催化生物化学反应的酶,还是传递信号的信使、构成机体的结构基础,更是免疫系统抵御外敌的「武器」。然而,传统研究方法在面对蛋白质的复杂特性时,显得力不从心。结构解析成本高昂、功能注释严重滞后、蛋白质设计成功率低等问题成为了重要挑战。
AI 技术的引入彻底逆转了这一局面。 2024 年,诺贝尔化学奖授予了 AI 蛋白质结构预测与设计领域的突破,这一举动无疑再次充分彰显 AI 在蛋白质研究中的重要地位。蛋白智能计算通过构建数据驱动的算法模型,实现了对蛋白质复杂特性的高效模拟与预测,并且为应对以上挑战提供了全新思路和研究范式,也为生命科学研究开启了新纪元。
蛋白智能计算的核心任务突破
蛋白智能计算的核心问题为以下 4 类:
蛋白质结构能否从头预测:
从莱文塔尔悖论到 AlphaFold 的颠覆
以蛋白质折叠为例,一个 100 个残基的蛋白质可能的构象可达 10200 种,若随机搜索,所需时间远超宇宙年龄(138 亿年),这就是著名的莱文塔尔悖论。但实际蛋白质折叠却能在毫秒至分钟内完成,这暗示着存在特定的折叠路径。
2018 年 AlphaFold 初代模型尝试用深度学习方法求解,利用残差卷积模块预测氨基酸对距离和扭转角,在 CASP13 中以显著优势领先其他参赛者,准确预测了 25 种蛋白质结构,而第二名仅预测正确 3 种。
2021 年二代模型实现质的飞跃,AlphaFold2 借助 HMMER 和 HH-suite 进行多序列比对与模板搜索,通过 48 个 Evoformer 模块和 8 个 Structure 模块,实现了原子精度的蛋白质结构预测,并发布了包含约 2.14 亿蛋白质单体预测的数据库。其预测结构与电镜解析结果的平均误差不超过一个原子宽度,达到「Highly Accurate」标准。
2024 年三代模型进一步实现体内蛋白质交互结构的全预测。 AlphaFold3 实现了质的飞跃,它不仅能预测蛋白质结构,还能对蛋白质与核酸、小分子、离子等所有生命分子组成的复合物进行结构预测,涵盖了 PDB 数据库中几乎所有分子类型,为理解细胞功能和疾病治疗提供了强大工具。
蛋白质功能能否自动注释:多源数据融合的突破
由于 AlphaFold3 在蛋白质预测领域的前瞻性进展,我们团队决定将研究重心转向蛋白质功能注释与交互分析领域。当前全球 2.5 亿条蛋白序列中,仅有 0.5% 完成精准功能注释,传统依赖生物专家手工解析的模式已难以应对海量数据挑战,因此借助深度学习实现大规模批量化注释成为关键突破口。
我们在该领域的探索始于 2022 年。针对深度学习依赖的电镜结构数据稀缺且成本高昂的行业痛点,我们创新性地提出将 AlphaFold2 预测的虚拟结构数据用于模型训练中。这一类似「数据增强」的策略显著扩充了训练数据规模——从传统电镜所能提供的 500 万级样本,扩展至理论上可达数亿级的预测数据池。实验验证表明,基于预测数据训练的模型不仅性能超越原生版本,更能挖掘出传统方法未识别的蛋白质新功能。
论文题目:Enhancing Protein Function Prediction Performance by Utilizing AlphaFold-Predicted Protein Structures
论文地址:
https://pubs.acs.org/doi/10.1021/acs.jcim.2c00885
在技术方法创新方面,针对蛋白质结构信息挖掘不充分的问题,我们团队提出了一种基于自监督图注意力的蛋白功能预测方法,通过编码蛋白质分子内残基关联信息,充分利用残基间距离信息作为辅助任务,实现蛋白功能预测性能提升。 论文题目:SuperEdgeGO: Edge-Supervised Graph Representation Learning for Enhanced Protein Function Prediction(即将见刊)
模型架构示意图
针对多种蛋白特征异构难融合、空间不一致等问题,提出蛋白双视图构造策略及特征对齐方法。基于生物蛋白存在 6 种跨尺度模态(涵盖序列、三维结构、功能域等维度)的复杂特性,团队进一步提出多模态融合策略——整合计算领域的对比学习与多视图分析方法,构建层次化特征融合模型。该方案在 7 个数据集上与 20 种主流基线方法对比,全部达到 SOTA 结果,成功解决了直接拼合模态导致性能劣化的技术难题。
论文题目:Annotating protein functions via fusing multiple biological modalities
论文地址:Annotating protein functions via fusing multiple biological modalities | Communications Biology
模型架构示意图
详细测试结果
详细测试结果
此外,在功能预测的可解释性研究中,模型也展现出从数千条 GoTerms 注释中精准识别 10 余种蛋白质功能的卓越能力。此外,团队通过文献调研发现,模型预测错误但却赋予高置信度的案例,实际在一些研究中已有记载,表明这些案例存在因数据集版本滞后导致误判的可能性。这一发现凸显了 AI 模型在挖掘新型蛋白质功能方面的潜力。
蛋白质交互能否准确识别:自研模型实现高效预测
在药物研发领域,蛋白质作为人体靶点的精准对接是发挥药效的关键,而 AI 技术在此过程中展现出重要价值。尽管 AlphaFold3 在蛋白质结构预测领域表现卓越,但实际应用中存在明显限制:其免费版本每天仅支持 20 次访问,且覆盖分子类型约 15-20 种,商业使用权限申请难度极高等,这促使团队开展自研模型研发。
基于这个问题,团队重点做了以下几个工作:
首先,我们针对已有蛋白互作预测方法存在的协同交互性差等问题,在编码器中引入孪生学习模式以增强蛋白表征的协同一致性,并提出具有蛋白交互协同机制和任务协同机制的协同学习框架。团队采用交互注意力与多任务学习方法,实现蛋白-核酸、蛋白-蛋白、蛋白-小分子的交互预测。
团队还融合 NLP 领域的 Transformer 与图神经网络,开发 Convformer 、 Graphormer 等模块以实现远程交互建模,并通过交叉注意力机制强化多模态信息融合。模型在实际场景中展现出强大泛化能力,以胰腺癌信号通路预测为例,其准确率超 95%,仅有 9 对互作用预测错误。 论文题目:SSPPI: Cross-modality enhanced protein-protein interaction prediction from sequence and structure perspectives(即将见刊)
预测示意图,绿色:低连通性;红色:高连通性;黑色线:预测正确;红色线:预测错误
在近期的研究中,除了从网络层面进行蛋白质跨尺度降维表征外,我们还致力于挖掘蛋白质特征。鉴于传统图模型将三维结构信息降为二维时会导致信息丢失,我们引入最新的几何深度学习,提出一种基于混合消息传递策略的几何深度学习方法,构建了一套完整的三维信息整合范式。该范式旨在解决空间位点建模中丢弃三维信息的不合理性问题,为蛋白质三维建模领域提供新的研究思路。 论文题目:Geometric Deep Learning for Protein-Ligand Affinity Prediction with Hybrid Message Passing Strategies(即将见刊)
模型架构示意图
此外,我们还针对 ACSS2 蛋白开展实测,从数万个化合物中筛选出若干候选化合物。模型预测结果指示筛选出的化合物亲和力可达 nM 级别,展现出良好的成药潜力;本团队与青岛大学医学院团队开展合作验证,对接结果也在近期开展的湿实验中得到初步证实。
药物-靶蛋白亲和力预测湿实验验证
全新蛋白质能否按需设计:从逆问题到创新应用
蛋白质设计是蛋白质研究的终极目标之一,对于疫苗研发、癌症治疗和生物材料开发具有重要意义。然而,作为蛋白质折叠的逆问题,蛋白质序列设计同样面临搜索空间爆炸和传统力场模拟误差等挑战。
面对蛋白质智能设计优化这一核心问题,这里以去年诺奖获得者 Baker 的团队最新工作为例。蛇毒没有特定的解药,是否可以基于计算机设计出一种新型的蛋白质呢?基于这一问题, Baker 团队结合其前期的 ProteinMPNN 、 RFDiffusion 设计出全新蛋白。此外,其团队还开展了蛇毒毒素的特异性结合蛋白质设计,为中和致死性蛇毒毒素提供了新的解决方案。相关论文已于 2025 年年初发表在 Nature 正刊。这些研究成果展示了 AI 在蛋白质设计领域的巨大潜力,为「设计全新蛋白质」这一「造物主」般的目标迈出了坚实的步伐。
复杂生命系统跨尺度计算:从纳观到宏观的全链条模拟
生命系统是一个复杂的多尺度系统,从纳观的基因层次到宏观的细胞层次,各个尺度之间相互作用、相互影响。本人在英国曼彻斯特大学张恒贵教授课题组访问期间开展了数字心脏相关研究工作,在回国后进一步开展数字细胞研究。不同于数字心脏这类「数值驱动」范式,团队以「数据驱动」的建构思路提出了微观生命活动多尺度建模方法,构建了「表征-状态-尺度」三维微观计算全方法体系,涵盖了 36 个研究点,目前已在近 1/3 的方法下有文章或专利积累。
此外,在魏志强教授指导下,我们对微观生命系统进行了四级尺度新定义,包括纳观的基因层次、「微观」的蛋白质层次、「介观」的信号通路层次和「宏观」的细胞层次,实现了全链条的生命系统模拟,希望以此实现从原子到心脏的全尺度耦合。
表征-状态-尺度三维图
关于张树刚副教授
张树刚是中国海洋大学计算机学院的副教授、硕士生导师,CCF 高级会员,CCF 生物信息专委会通讯委员,同时也是 CAAI 智慧医疗专委会委员、山东省生物信息学会理事,同时主持国家自然科学基金、中央高校基本科研业务费项目等,入选 2020 年度山东省博士后创新人才支持计划。
他主要研究方向为计算生物与生物信息学,包括超高精度数字心脏构建、蛋白质功能预测及设计等。近年来,在 IEEE JBHI,JCIM,npj Systems Biology and Applications 等国际权威期刊、会议发表论文 30 余篇,Google Scholar 引用超 1,600 次。