图神经网络:欺诈检测与蛋白质功能预测

原文:towardsdatascience.com/graph-neural-networks-fraud-detection-and-protein-function-prediction-08f9531c98de?source=collection_archive---------0-----------------------#2024-11-21

理解机器学习工程师在生物领域的 AI 应用

https://medium.com/@meghanheintz?source=post_page---byline--08f9531c98de--------------------------------https://towardsdatascience.com/?source=post_page---byline--08f9531c98de-------------------------------- Meghan Heintz

·发表于Towards Data Science ·阅读时长 7 分钟·2024 年 11 月 21 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e56db49516d0f5fd8f3f3c247711da18.png

图片由Conny Schneider提供,来源:Unsplash

金融交易网络和蛋白质结构有什么共同点?它们在欧几里得(x, y)空间中都表现得不佳,需要对复杂、大规模、异质图形进行编码,才能真正理解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dd117c6208688bc1d86b447bba16305d.png

左:欧几里得空间中的图像。右:非欧几里得空间中的图形。来自《图神经网络:方法与应用综述》

图是表示金融网络和蛋白质结构中关系数据的自然方式。它们捕捉实体之间的关系与互动,例如金融系统中账户之间的交易,或蛋白质中氨基酸之间的键合与空间接近度。然而,更广为人知的深度学习架构,如 RNN/CNN 和 Transformer,无法有效地建模图形。

你可能会问,为什么我们不能把这些图形直接映射到 3D 空间?如果我们强行将它们放入 3D 网格:

  • 我们将失去边缘信息,例如分子图中的键类型或交易类型。

  • 映射可能需要填充或调整大小,从而导致扭曲。

  • 稀疏的 3D 数据结果会导致许多未使用的网格单元,从而浪费内存和处理能力。

鉴于这些局限性,**图神经网络(GNNs)**作为一种强大的替代方案。在我们关于生物学应用中的机器学习系列的继续中,我们将探讨 GNNs 如何应对这些挑战。

一如既往,我们将从更熟悉的欺诈检测话题开始,然后学习这些类似的概念在生物学中的应用。

欺诈检测

为了清晰明确,让我们首先定义什么是图。我们记得在小学时在 x、y 轴上绘制图形,但我们当时真正做的是绘制函数图,在图上绘制 f(x)=y 的点。当我们在 GNN(图神经网络)的背景下谈论“图”时,我们指的是建模对象之间的配对关系,其中每个对象是一个节点,而关系是边。

在金融网络中,节点是账户,边是交易。该图将由关联方交易(RPT)构建,并可以通过属性(例如时间、金额、货币)进行丰富。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/287793aa4a3a07394fb807b1a432e099.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5f4b41d38a1b7842a1cd0d66ed6792da.png

左侧:函数图(我们不讨论的内容)(2024 年 3 月 15 日)。摘自维基百科en.wikipedia.org/wiki/Graph_of_a_function 右侧:具有节点和边的图(我们讨论的内容)(2024 年 10 月 25 日)。摘自维基百科en.wikipedia.org/wiki/Graph_theory

传统的基于规则和机器学习的方法通常只处理单一的交易或实体。这一局限性未能考虑到交易如何与更广泛的网络连接。因为诈骗者通常跨多个交易或实体进行操作,所以诈骗可能未被发现。

通过分析图形,我们可以捕捉直接邻居和更远连接之间的依赖关系和模式。这对于检测洗钱至关重要,因为资金通过多个交易流动以掩盖其来源。GNNs 揭示了洗钱方法所创造的密集子图。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6f0353065d78d76bb14b60891d56bfb8.png

使用 GNN 检测基于关联方交易网络的金融欺诈中的关联方转移网络示例

消息传递框架

与其他深度学习方法类似,目标是从数据集中创建表示或嵌入。在 GNN 中,这些节点嵌入是通过消息传递框架创建的。消息在节点之间迭代传递,使得模型能够学习图的局部和全局结构。每个节点的嵌入是基于其邻居特征的聚合来更新的。

该框架的概括如下:

  • 初始化:嵌入向量*hv(0)*通过基于节点特征的嵌入、随机嵌入或预训练嵌入(例如账户名称的词嵌入)进行初始化。

  • 消息传递: 在每一层 t,节点与它们的邻居交换消息。消息定义为发送节点的特征、接收节点的特征以及连接它们的边的特征,并通过一个函数进行组合。组合函数可以是简单的拼接,并使用固定权重方案(由图卷积网络,GCNs 使用),也可以是加权注意力机制,其中权重基于发送节点和接收节点的特征(以及可选的边特征)进行学习(由图注意力网络,GATs 使用)。

  • 聚合: 在消息传递步骤之后,每个节点聚合接收到的消息(可以是均值、最大值、总和等简单操作)。

  • 更新: 聚合后的消息通过更新函数(可能是像 ReLU 的多层感知器(MLP),门控循环单元(GRU)或注意力机制)更新节点的嵌入。

  • 最终化: 像其他深度学习方法一样,当表示稳定或达到最大迭代次数时,嵌入会被最终化。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5eaee950880ff032dce1a690a4e6ecb4.png

在消息传递神经网络(MPNN)层中,节点表示更新。节点接收所有直接邻居发送的消息。消息通过消息函数计算,该函数考虑了发送方和接收方的特征。图神经网络。(2024 年 11 月 14 日)。摘自维基百科en.wikipedia.org/wiki/Graph_neural_network

在节点嵌入学习完成后,可以通过几种不同的方式计算欺诈分数:

  • 分类: 最终的嵌入被传入分类器,如多层感知器(MLP),这需要一个全面的标注历史训练集。

  • 异常检测: 嵌入被分类为异常,基于其与其他嵌入的差异。这里可以使用基于距离的分数或重构误差来进行无监督的方法。

  • 图级评分: 嵌入被聚合到子图中,然后传入分类器,以检测欺诈环(同样需要一个标注的历史数据集)。

  • 标签传播: 一种半监督方法,其中标签信息基于边的权重或图的连接性进行传播,从而对未标注的节点进行预测。

现在我们已经对图神经网络(GNN)有了基础理解,可以转向 GNN 的另一个应用:预测蛋白质的功能。

蛋白质功能预测

我们已经看到了通过 AlphaFold 23在蛋白质折叠预测中的巨大进展,以及通过RFDiffusion在蛋白质设计中的突破。然而,蛋白质功能预测仍然具有挑战性。功能预测对于许多原因至关重要,但特别在生物安全领域尤为重要,因为它有助于预测 DNA 在测序之前是否会发生孤雌生殖。传统方法如BLAST依赖于序列相似性搜索,并未结合任何结构数据。

今天,GNNs(图神经网络)开始通过利用蛋白质的图表示来建模残基之间的关系及其相互作用,在这一领域取得了有意义的进展。它们被认为非常适合蛋白质功能预测、识别小分子或其他蛋白质的结合位点,并基于活性位点几何形状对酶家族进行分类。

在许多例子中:

  • 节点被建模为氨基酸残基

  • 边缘作为它们之间的相互作用

这种方法背后的合理性在于,图结构具有捕捉序列中远距离但在折叠结构中接近的残基之间长程相互作用的固有能力。这类似于为什么 transformer 架构对 AlphaFold 2 如此有帮助,因为它允许在序列中的所有对之间进行并行计算。

为了使图形信息更加密集,每个节点可以通过残基类型、化学性质或进化保守性得分等特征进行丰富。边缘可以选择性地通过化学键类型、三维空间中的接近度以及静电或疏水相互作用等属性进行丰富。

DeepFRI是一种基于图神经网络(GCN)的方法,用于根据结构预测蛋白质功能。GCN 是一种特定类型的 GNN,它将卷积的概念(用于 CNN)扩展到图数据。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ff53ff24633563fda818cf9677712867.png

DeepFRI 图示:LSTM 语言模型,经过约 200 万 Pfam 蛋白质序列的预训练,用于提取 PDB 序列的残基级特征。(B)具有 3 个图卷积层的 GCN,用于学习复杂的结构-功能关系。来自基于结构的功能预测使用图卷积网络

在 DeepFRI 中,每个氨基酸残基都是一个节点,具有如下一些属性:

  • 氨基酸类型

  • 物理化学性质

  • 来自MSA的进化信息

  • 来自预训练 LSTM 的序列嵌入

  • 结构背景,如溶剂可接近性。

每个边被定义为捕获蛋白质结构中氨基酸残基之间的空间关系。如果两个节点(残基)之间的距离低于一定阈值,通常为 10 Å,则存在一条边。在这个应用中,边没有属性,它们只是无权重的连接。

图是用节点特征 LSTM 生成的序列嵌入以及从残基接触图创建的残基特异性特征和边信息进行初始化的。

一旦图被定义,消息传递发生在每个三层的基于邻接的卷积中。节点特征是通过使用图的邻接矩阵从邻居聚合的。堆叠多个 GCN 层允许嵌入从越来越大的邻域中捕获信息,从直接邻居开始,延伸到邻居的邻居等。

最终的节点嵌入是全局汇集的,用于创建蛋白质级别的嵌入,然后用于将蛋白质分类为层次相关的功能类别(GO 术语)。分类是通过将蛋白质级别的嵌入通过具有 sigmoid 激活函数的全连接层(密集层)进行传递,使用二元交叉熵损失函数进行优化来执行的。分类模型是基于从蛋白质结构(例如来自蛋白质数据银行)和来自 UniProt 或 Gene Ontology 等数据库的功能注释的数据进行训练的。

总结思考

  • 图对于建模许多非线性系统非常有用。

  • GNNs 通过同时融合局部和全局信息来捕获传统方法难以建模的关系和模式。

  • GNNs 有许多变体,但目前最重要的是图卷积网络和图注意力网络。

  • GNNs 可以有效地识别使用监督和无监督方法在洗钱方案中存在的多跳关系。

  • GNNs 可以通过整合结构数据改进仅基于序列的蛋白质功能预测工具,如 BLAST。这使研究人员能够预测与已知蛋白质具有最小序列相似性的新蛋白质的功能,这是理解生物安全威胁和促进药物发现的关键步骤。

祝福您,如果您喜欢这篇文章,请查看我在机器学习和生物学上的其他文章。

考虑柔性负荷的综合能源系统低碳经济优化调度【考虑碳交易机制】(Matlab代码实现)内容概要:本文围绕“考虑柔性负荷的综合能源系统低碳经济优化调度”展开,重点研究在碳交易机制下如何实现综合能源系统的低碳化经济性协同优化。通过构建包含风电、光伏、储能、柔性负荷等多种能源形式的系统模型,结合碳交易成本能源调度成本,提出优化调度策略,以降低碳排放并提升系统运行经济性。文中采用Matlab进行仿真代码实现,验证了所提模型在平衡能源供需、平抑可再生能源波动、引导柔性负荷参调度等方面的有效性,为低碳能源系统的设计运行提供了技术支撑。; 适合人群:具备一定电力系统、能源系统背景,熟悉Matlab编程,从事能源优化、低碳调度、综合能源系统等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①研究碳交易机制对综合能源系统调度决策的影响;②实现柔性负荷在削峰填谷、促进可再生能源消纳中的作用;③掌握基于Matlab的能源系统建模优化求解方法;④为实际综合能源项目提供低碳经济调度方案参考。; 阅读建议:建议读者结合Matlab代码深入理解模型构建求解过程,重点关注目标函数设计、约束条件设置及碳交易成本的量化方式,可进一步扩展至多能互补、需求响应等场景进行二次开发仿真验证。
【顶级EI复现】【最新EI论文】低温环境下考虑电池寿命的微电网优化调度(Matlab代码实现)内容概要:本文介绍了名为《【顶级EI复现】【最新EI论文】低温环境下考虑电池寿命的微电网优化调度(Matlab代码实现)》的技术文档,重点围绕在低温环境下,结合电池寿命衰减因素对微电网系统进行优化调度的研究。该研究通过建立数学模型,综合考虑风光储、柴油、燃气等多种能源形式以及电网交互关系,利用Matlab编程实现优化算法(如内点法、多目标粒子群算法等),完成对微电网运行成本、能源效率电池使用寿命之间的多目标协同优化。文中强调了实际寒潮场景下的V2G调度数据应用,并提供了完整的仿真代码数据集支持,具有较强的工程复现价值。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事微电网、储能系统优化等相关领域的工程技术人员;尤其适合希望复现高水平EI论文成果的用户; 使用场景及目标:①用于低温环境下微电网能量管理系统的建模仿真;②支撑考虑电池老化机制的储能优化调度研究;③服务于学术论文复现、课题项目开发及智能电网优化算法验证; 阅读建议:建议结合提供的网盘资源(包括YALMIP工具包、完整代码数据集)进行实践操作,重点关注目标函数构建、约束条件设置及多目标优化求解过程,建议在Matlab环境中调试代码以深入理解算法实现细节系统响应特性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值