- 博客(14)
- 收藏
- 关注
原创 基于昇腾适配肽性质预测模型PeptideBERT
PeptideBERT(Peptide Bidirectional Encoder Representations from Transforme- rs)是一种基于transformer架构,专门用于预测肽的关键性质的蛋白质语言模型,如溶血性(hemolysis)、溶解性(solubility)和抗非特异性吸附性(non-fouling)。
2025-06-14 17:33:30
919
原创 昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。SE3Transformer在RFdiffusion蛋白质设计模型中()作为核心组件,负责处理蛋白质结构的几何信息。其架构基于图神经网络,通过SE(3)等变性实现对三维旋转和平移的不变性特征提取。
2025-06-13 16:41:13
741
原创 基于昇腾适配蛋白质序列模型ProteinMPNN
ProteinMPNN(Protein Message Passing Neural Network)是一种基于深度学习的蛋白质序列设计模型,核心目标是解决“逆向折叠问题”(inverse folding problem),即根据给定的蛋白质三维结构,设计出能够折叠成该结构的氨基酸序列。ProteinMPNN在计算和实验测试中都有出色的性能表现,不同位置的氨基酸序列可以在单链或多链之间偶联,从而广泛的应用于当前蛋白质设计上。
2025-06-13 15:59:06
1028
原创 OpenFold2.0 基于NPU的推理适配与测试
OpenFold是由DeepMind团队开发的一种高效蛋白质结构预测模型。该模型在AlphaFold2的基础上进行了多项改进,进一步提升了蛋白质结构预测的准确性和计算效率。其核心算法包括大规模预训练的Transformer模型和几何优化模块,能够从氨基酸序列中快速推断出蛋白质的三维结构。通过多阶段优化和大规模数据集的训练,该模型在蛋白质从头预测、功能位点解析、突变效应模拟等领域展现了卓越的性能。
2025-06-11 21:04:24
320
原创 昇腾AI4S图机器学习:DGL图构建接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。SE3Transformer在RFdiffusion蛋白质设计模型中()作为核心组件,负责处理蛋白质结构的几何信息。其架构基于图神经网络,通过SE(3)等变性实现对三维旋转和平移的不变性特征提取。
2025-06-11 20:49:18
687
原创 基于昇腾适配电力潮流计算模型PowerFlowNet
准确高效的潮流 (PF) 分析对于现代电网的运行和规划至关重要。因此,我们需要一种可扩展的算法,能够为小型和大型电网提供准确、快速的解决方案。由于电网可以理解为一张图,图神经网络 (GNN) 已成为一种颇具前景的方法,它通过利用底层图结构中的信息共享来提高 PF 近似的准确性和速度。
2025-06-11 17:14:11
970
原创 基于昇腾适配DeepMind团队发布的蛋白质结构预测模型OpenFold
OpenFold是由DeepMind团队开发的一种高效蛋白质结构预测模型。该模型在AlphaFold2的基础上进行了多项改进,进一步提升了蛋白质结构预测的准确性和计算效率。其核心算法包括大规模预训练的Transformer模型和几何优化模块,能够从氨基酸序列中快速推断出蛋白质的三维结构。通过多阶段优化和大规模数据集的训练,该模型在蛋白质从头预测、功能位点解析、突变效应模拟等领域展现了卓越的性能。
2025-06-09 16:28:31
943
原创 基于昇腾适配基因表达预测模型Geneformer
GeneFormer是一种基于 Transformer 架构的深度学习模型,专为基因表达数据分析而设计。它将基因视为“词汇”,将整个基因组的表达谱视为“句子”,通过自监督学习捕捉基因间的复杂调控关系和生物学背景,在医学研究中展现出强大的应用潜力。借助GeneFormer,研究人员能够更有效地处理和理解大量的基因组数据,从而加速新药开发、疾病治疗等领域的研究进展。在基因序列分析、蛋白质结构预测疾病机制解析和药物发现等领域也具有突出的应用价值。图1:自监督大规模预训练迁移学习策略示意图。
2025-06-09 15:56:20
760
原创 基于昇腾适配数据驱动的全球天气预报模型Fuxi
Fuxi模型是由复旦大学的研究人员开发的一个基于数据驱动的全球天气预报模型,它摒弃了传统复杂的微分方程,转而通过多阶段机器学习架构,可提供15天的全球预报。时间分辨率为6小时,空间分辨率为0.25°,相当于赤道附近约25公里 x 25公里的范围,使用ECMWF39年的ERA5再分析数据集训练,在15天预报尺度上实现了效率与精度的双重突破。
2025-06-09 14:36:25
670
原创 基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是一种基于深度学习的蛋白质结构预测框架,其核心创新在于将超大规模蛋白质语言模型(如ESM-2)与几何优化模块结合,直接从氨基酸序列预测三维结构,于2023年正式发表于《Science》期刊。开源代码与预训练模型的发布,进一步降低了结构生物学的技术门槛,与AlphaFold2形成互补,共同拓展了计算驱动的蛋白质工程边界。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。
2025-06-09 13:43:02
830
原创 AI4Science之分子材料成像调研洞察
6. 除了针对单一领域的模型与应用,通用模型是近年来的研究热潮。相比传统的深度学习任务,分子材料成像任务庞大繁杂,且数据结构、种类跨度极大,与AI的结合仍处于初期阶段,尚无业界认可的"包罗万象"的数据集,新提出的模型方法也没有公认的可以刷点对标的"benchmark",更没有 "大一统" 的AI模型,但考虑到分子材料成像领域的重要程度,或许在不久的将来,会有大量研究机构布局,科研人员扎堆,将“AI+分子材料成像”领域从做成类似于当下【AI+分子生成】、【AI+分子属性预测】的"红海"。
2025-02-11 11:26:30
1178
原创 DGL(0.8.x) 技术点分析
G.ndata['y'] = th.randn(g.num_nodes(), 5) 不同名称的特征数据可以有不同形状。G.nodes[[0, 2]].data['x'] = th.ones((2, 5)) 对节点0,2设置特征数据。G.ndata['x'] = th.zeros((3, 5)) 对所有节点都设置特征数据,名称为x。G = dgl.graph((us, vs)) 一系列点和边,us->vs。G.add_edges(u[s], v[s])添加边u[s]->v[s]
2025-02-09 21:24:22
270
原创 图机器学习调研洞察:PyG与DGL
PyG将每个图储存在一个Data中,但是消息传递是基于MessagePassing基类进行的,与Data或者Batch并无直接联系,通过在网络中重写message passing的forward,message,aggregate和update等方法实现自定义的消息传递过程,Propagete方法会自动调用这些方法完成数据的更新。根据Zhou Y等人做的实验来看,当节点和边的数量较小时,PyG的性能相对更好,而当节点和边的数量较大时,DGL相对PyG有一定的性能优势。
2025-02-07 17:54:58
1548
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人