自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 论文学习:《创新编码策略的多类LncRNA亚细胞定位的集成深度学习框架》

原文标题:An ensemble deep learning framework for multi-class LncRNA subcellular localization with innovative encoding strategylncRNA亚细胞定位研究方法,主要分为三种类型:基于传统特征的方法、基于深度学习的方法和混合方法。Cao等人引入了lncLocator ,使用4-mer频率特征结合堆叠自编码器、随机森林和SVM。

2025-04-19 16:42:49 792

原创 论文学习:《EVlncRNA-net:一种双通道深度学习方法,用于对实验验证的lncRNA进行准确预测》

EVlncRNA-net的基本架构如图1所示。输入为lncRNA或ncRNA序列,输出为该序列被预测为EVLncRNA的概率。该过程的核心在于表示学习,它包括两个主要模块:GCN和CNN。在GCN模块中,lncRNA使用k-mer序列片段来描述,称为" k-mer单元"。每个k-mer单元由4的k次个初级特征节点和单个k-mer特征节点组成。为了平衡节点维度和生物相关性,我们为我们的k-mer单元选择一个k值为3。主要原因是3-mers由于其在保持维度可管理的同时有效地表示序列而被广泛应用于生物信息学中。

2025-04-14 21:22:41 1054

原创 论文学习:《通过基于元学习的图变换探索冷启动场景下的药物-靶标相互作用预测》

原文标题:Exploring drug-target interaction prediction on cold-start scenarios via meta-learning-based graph transformer药物-靶点相互作用(DTI)预测通常是从已知的药物-靶点相互作用中预测潜在的未观察到的相互作用。传统的方法通过发现药物靶标相互作用,准确但往往费时费力。可以无缝地组织和利用异构的生物数据,但在处理冷启动问题下的DTI预测时仍然存在差距。。

2025-04-13 20:57:25 702

原创 论文学习:《利用图注意力网络增强单细胞多组学数据的整合》

原文标题:Enhanced Integration ofSingle-Cell Multi-Omics Data Using Graph Attention Networks跨不同组学层的数据集成面临的挑战:高维度、异质性和稀疏性。是一个非对称的深度学习框架,它由三个主要部分组成:编码器、隐藏层和解码器。编码器学习输入数据的低维表示,而隐藏层控制这些特征的分布,使模型能够捕获复杂的数据结构。然后,解码器从这些潜在表示中重建原始输入数据。是由多个高斯分布组成的模型,其密度函数为多个高斯密度函数的加权组合。

2025-04-11 19:48:28 645

原创 论文学习:《AGMS-GCN:注意力引导的多尺度图卷积网络,用于基于骨架的动作识别》

AGM-GCN是一种注意力引导的多尺度图卷积SBAR网络结构,其总体架构如图所示。

2025-04-10 16:06:27 712

原创 论文学习:《Predicting gene sequences with AI to study codon usage patterns》——利用AI预测基因序列,研究密码子使用模式

这些预测结合起来就得到了序列的最终密码子预测,并且我们测量了相对于进化选择的密码子序列的预测的准确性。在掩蔽模式下,两个序列都是相同的,输入是密码子的序列,其中30 %或100 %的位置被掩蔽。在模拟模式中,第一个序列是直系同源蛋白中的密码子,第二个序列是密码子的遮蔽序列,其中30 %或100 %的位置被遮蔽。它预测每个氨基酸最常用的密码子和二元模型(bigram)频率模型,预测最常用的密码子,条件是其前的密码子。它是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。

2025-04-02 17:15:02 831

原创 论文学习:《Decoupled contrastive learning for multilingual multimodal medical pre-trained model》

文章:多语言多模态医学预训练模型的解耦对比学习融合了多语言和多模态数据,包括但不限于文本、图像和音频。这些模型需要大量的多语言多模态语料库来进行预训练,旨在提取和编码跨多种语言和模态的共享特征表示。第一,多语种医学数据的稀缺性,第二,由此导致的语言分布不平衡。尤其是现有数据资源的中心化特性,导致了中英文数据占据绝大多数的偏向。医疗数据的稀缺性是造成语言分布不均衡的主要原因之一。这种不均衡的数据分布导致医学多语种预训练模型的构建和评估存在偏差,影响模型在不同语言环境中的表现和适用性。

2025-03-31 21:42:52 747

原创 论文学习:《L2M-GCN: A new framework for learning robust GCN against structural attacks》

文章:L2M-GCN:一种针对结构攻击学习鲁棒GCN的新框架(1)根据。现实中的大多数模型都面临中毒攻击的威胁。(2)根据扰动的。修改攻击旨在改变原始图结构、节点特征或标签。注入攻击是添加新的具有负面影响的节点。(3)根据扰动的。定向攻击试图通过对目标节点产生错误的预测来误导GNN模型,而非定向攻击则致力于降低整个图中GNN模型的整体精度。(4)根据。结构攻击改变A的元素值,特征攻击扰动X,标签攻击篡改真实标签。结构攻击相比于特征攻击和标签攻击对GCN的负面影响更大。通常利用真实世界场景的先验知识。

2025-03-30 16:46:55 619

原创 论文《Predicting circRNA–disease associations with shared units and multi-channel attention mechanisms》

文章:预测具有共享单元和多通道注意力机制的circRNA -疾病关联大多数方法未能充分挖掘跨视图的潜在信息,同时忽略了不同视图贡献不同程度的重要性这一事实。。基于网络的方法通过使用已知关联构建异构网络并计算它们的相似度来预测新的关联,但它们往往过于强调相似性得分。传统的基于机器学习的模型通过使用人工提取的特征训练分类器来预测关联,但其性能严重依赖于提取的特征。基于深度学习的方法擅长潜在特征的提取,而且利用多视图提取更加丰富的信息,但没有有效地利用不同视图之间的潜在特征。

2025-03-29 20:38:09 959

原创 论文解读:《Accurate RNA 3D structure prediction using a language model-based deep learning approach》

文章:使用基于语言模型的深度学习方法进行精确的RNA三维结构预测RNA三维结构预测方法分为两大类:1.基于模板的建模,如ModeRNA和RNAbuilder,受限于有限的模板库;基于模板或基于能量的采样技术上,这主要是由可获得的RNA三维结构数据的稀缺性决定的。2.从头预测方法,包括FARFAR2,3dRNA和SimRNA,由于大规模采样的要求,预测能力更强,但计算量大。一种正交的从头预测方法是利用深度学习。,随后用于构建三维结构。MSAs可以为蛋白质建模提供更多有用的信息。

2025-03-26 10:10:58 723

原创 论文解读:《Word embedding factor based multi-head attention》——基于词嵌入因子的多头注意力

线性地将查询、键和值投影到不同的子空间中,允许模型从不同的角度理解输入序列,并利用输入句子序列中有关令牌之间关系的信息。第一,头的数量总是手动设置的,并且不清楚在面对新的NLP任务时,我们应该设置多少头才能达到最佳性能。第二,当这些头将自注意力机制中的查询、键和值投影到不同的子空间时,它们的实际意义缺乏合理的解释。1.引入了分歧正则化来多样化注意力分布,增强了模型捕获不同特征的能力。2.提出了一种改进多头协作的方法,这表明当前的方法可能无法充分利用不同头的协作潜力。

2025-03-25 20:25:27 1103

原创 sincFold:RNA二级结构中短程和长程相互作用的端到端学习

动机:编码和非编码RNA分子参与许多重要的生物学过程。非编码RNA折叠成明确的二级结构以发挥其功能。然而,从原始RNA序列中计算预测二级结构是一个长期未解决的问题,在经历了数十年几乎不变的性能之后,由于深度学习,现在又重新出现了。传统的RNA二级结构预测算法大多基于热力学模型和自由能最小化的动态规划。近年来,深度学习方法与经典方法相比表现出了优异的性能,但仍有很大的提升空间。结果:在这项工作中,我们提出了一种端到端的深度学习方法sincFold,它仅使用RNA序列作为输入来预测核苷酸接触矩阵。

2025-03-20 16:57:54 672

原创 DNA语言模型GROVER学习人类基因组中的序列上下文

在DNA上学习语感的深度学习模型在基因组生物任务上取得了很高的性能。基因组序列遵循类似于自然语言的规则,但在没有词的概念的情况下是不同的。我们在人类基因组上建立了字节对编码,并使用通过自定义任务选择的词汇训练了一个基础语言模型GROVER (通过提取的表示获得基因组规则),下一个k-mer预测。在人类基因组中定义的标记字典最能体现GROVER的信息内容。通过分析学习到的表示,我们观察到训练的token嵌入主要编码与频率、序列内容和长度相关的信息。

2025-03-17 19:33:08 826

原创 SSCRB: 使用基于序列和结构特征的注意力模型预测 circRNA-RBP 相互作用位点

环状RNA ( circular RNA,circRNA )与RNA结合蛋白( RNA binding proteins,RBPs )相互作用位点的预测对于调控疾病和发现新的治疗途径至关重要。由于全基因组circRNA结合事件数据的可获得性,计算模型已被广泛用于预测circRNA - RBP相互作用位点。然而,高效地获取多尺度circRNA特征以提高预测精度仍然是一个具有挑战性的问题。在本研究中,我们提出了一个预测circRNA - RBP相互作用位点的轻量级模型SSCRB。我们的。

2025-03-17 17:50:30 904

翻译 Cont:对比神经文本生成

最近,对比学习作为缓解曝光偏差问题的一种新的解决方案,在神经文本生成中引起了越来越多的兴趣。它引入了序列级的训练信号,这对于始终依赖自回归解码的生成任务至关重要。然而,先前在神经文本生成中使用对比学习的方法通常会导致较差的性能。在本文中,我们分析了潜在的原因,并提出了一个新的对比神经文本生成框架,CONT。CONT从对比样例的构建、对比损失的选择和解码策略3个方面解决了阻碍对比学习在生成任务中广泛应用的瓶颈问题。

2025-03-16 20:22:24 36

翻译 大可分离核注意力:重新思考CNN中的大核注意力设计

具有大内核注意力( LKA )模块的视觉注意网络( VAN )已被证明在一系列基于视觉的任务上提供了超越视觉转换器( ViTs )的卓越性能。然而,这些LKA模块中的深度卷积层会随着卷积核尺寸的增加而导致计算和内存占用的平方增加。为了缓解这些问题,并使VAN的注意力模块能够使用非常大的卷积核,我们提出了一个大可分离核注意力模块家族,称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平和垂直1D卷积核。

2025-03-16 16:25:45 104

翻译 DNAGPT:一个用于多个DNA序列分析任务的通用预训练工具

GPT系列的成功证明了GPT可以从序列中提取一般信息,从而使所有下游任务受益。这促使我们使用预训练的模型来探索DNA序列中隐藏的信息。然而,DNA序列分析中的数据和任务需求具有复杂性和多样性,因为DNA相关数据包含不同类型的信息,如序列、表达水平等,而目前还没有专门针对这些特征设计的模型。在此,我们提出了DNAGPT,这是一个通用的基础模型,它预训练了来自9个物种的超过100亿个碱基对,可以对任何DNA序列分析任务进行微调。我们的模型可以同时处理或输出DNA序列和编号。

2025-03-12 10:18:56 624

翻译 PHIAF:基于GAN的数据增强和基于序列的特征融合的噬菌体-宿主相互作用预测

噬菌体治疗已成为细菌疾病治疗中最有前途的抗生素替代品之一,鉴定噬菌体-宿主相互作用( PHIs )有助于了解噬菌体感染细菌的可能机制,从而指导噬菌体治疗的发展。与湿试验相比,辨识PHIs的计算方法可以降低成本、节省时间,更加有效和经济。在本文中,我们提出了一种基于生成对抗网络( GAN )的数据增强和基于序列的特征融合( PHIAF )的PHI预测方法。首先,PHIAF应用了基于GAN的数据增强模块,生成伪PHI以缓解数据稀缺问题。其次,PHIAF。

2025-03-09 16:36:31 691

翻译 DNASimCLR:一种基于对比学习的基因序列数据分类的深度学习方法

DNASimCLR利用卷积神经网络和基于对比学习的SimCLR框架,从不同的微生物基因序列中提取复杂的特征。在包含宏基因组和病毒基因序列的两个经典的大规模未标记数据集上进行了预训练。后续的分类任务通过使用先前获得的模型对预训练的模型进行微调来完成。我们的实验表明,DNASimCLR至少可以与目前最先进的基因序列分类技术相媲美。在基于卷积神经网络的方法中,DNASimCLR超越了最新的现有方法,明显地确立了其优于最先进的基于CNN的特征提取技术。

2025-03-09 10:58:53 718

翻译 利用Transformer学习具有大基因组窗口和三维染色质相互作用的组蛋白编码

现有的方法存在的主要限制因素:其一是它们只能利用TSS(转录起始)附近狭窄的基因组窗口。这是因为这些模型所基于的深度学习架构,如卷积神经网络( CNNs )和循环神经网络( RNNs ),并不能有效地建模长序列之间的依赖关系。卷积神经网络对于学习数据的局部模式具有很强的专门性,但是要学习模式之间的远程依赖关系是很有挑战性的。虽然RNN架构已经发展到对序列数据进行建模,但由于嵌入在单个位置的信息逐渐被稀释和污染,而模型计算沿着两个远程位置之间的位置进行,因此RNN架构在捕获长程依赖方面也存在困难。

2025-03-05 10:52:42 941

翻译 DNABERT-2:多物种基因组的高效基础模型和基准

k-mer标记化带来的计算和样本低效是开发大型基因组基础模型的主要障碍。我们提出用字节对编码( Byte Pair Encoding,BPE )来代替k-mer标记化。BPE是一种基于统计的数据压缩算法,通过迭代合并语料库中最频繁出现的基因组片段来构造标记。我们证明了BPE不仅克服了k-mer标记化的局限性,而且受益于非重叠标记化的计算效率。基于这些见解,我们引入了DNABERT-2,一个改进的基因组基础模型,它采用高效的标记器和多种策略来克服输入长度限制,减少时间和内存开销,并增强模型能力。我们认为缺乏一

2025-03-03 17:27:17 1186

翻译 NCYpred:一个具有注意力机制的双向Lstm网络,用于Y Rna和短的非编码Rna分类

短链非编码RNA ( sncRNA )参与多种细胞过程,可分为几十类。其中,Y RNA作为脊椎动物DNA复制起始的关键因子,以及潜在的肿瘤生物标志物,受到了越来越多的关注。同系物在线虫和昆虫中也有描述,在细菌中也有相关序列。缺乏能够准确预测Y RNA转录本的方法。在这项工作中,我们开发了一个基于注意力机制的LSTM网络,并构建了一个能够直接从核苷酸序列中分类sncRNAs (包括Y RNA)的分类模型。利用Rfam 14.3构建了一个包含45,447条来自广泛生物的sncRNA序列的数据集。

2025-02-26 11:18:55 1183

翻译 ncDENSE:一种基于深度学习框架的非编码RNA家族预测的新型计算方法

本研究提出了一种基于深度学习模型的方法ncDENSE,通过提取ncRNAs序列特征来预测ncRNAs家族。对ncRNAs序列中的碱基进行one-hot编码,并将其输入到包含动态双向门控循环单元( Bi-GRU )、密集卷积网络( DenseNet )和注意力机制( AM )的集成深度学习模型中。具体来说,动态Bi-GRU用于提取上下文特征信息,捕获ncRNAs序列的长期依赖关系。利用AM对Bi-GRU提取的特征赋予不同的权重,将注意力集中在权重较大的信息上。而。

2025-02-23 16:00:44 730

翻译 ncDLRES:一种基于动态LSTM和ResNet的非编码RNA家族预测新方法

现有的计算方法主要分为两类:第一类是通过学习序列或二级结构的特征来预测ncRNAs家族,另一类是通过同源序列之间的比对来预测ncRNAs家族。在第一类中,一些方法通过学习预测的二级结构特征来预测ncRNAs家族。二级结构预测的不准确性可能会导致这些方法的准确性较低。与之不同的是,ncRFP直接学习ncRNA序列的特征来预测ncRNAs家族。虽然ncRFP简化了预测过程,提高了性能,但是由于其输入数据的特征不完整,ncRFP的性能还有提升的空间。在第二类中,同源序列比对方法可以达到目前最高的性能。

2025-02-21 15:25:38 902

翻译 ncrfp:一种基于深度学习的端到端非编码RNA家族预测新方法

本文提出了一种新颖的端到端方法" ncRFP "来完成基于深度学习的预测任务。ncRFP不是预测二级结构,而是通过从ncRNAs序列中自动提取特征来预测ncRNAs家族。与其他方法相比,ncRFP不仅简化了过程,而且提高了精度。ncRFP的主要新颖之处在于它不同于传统的预测家族过程的方法,它直接基于ncRNAs序列来预测家族。以ncRNAs序列作为输入,ncRFP自动提取特征,并在深度学习模型的辅助下进行学习。本文分别基于RNN、CNN和DNN建立了3个模型。

2025-02-19 11:13:39 987

翻译 利用序列和结构的多模态对比学习改进ncRNA家族预测

本文提出的非编码RNA家族预测模型由ncRNA序列表示学习、ncRNA结构表示学习和ncRNA家族预测3个模块组成。首先,在包含190 000个一级序列结构的大规模哺乳动物nc RNA数据集上预训练BERT。然后,我们使用图神经网络对ncRNA的二级结构进行建模,并通过对比学习的方式将其与BERT模型相结合,使得两种模型提取的特征之间能够进行交互。最后,使用注意力机制将这两类特征进行融合,然后输入到ncRNA家族预测的最终任务中。

2025-02-18 20:34:18 1017

原创 影像组学特征融合方法研究现状

影像组学(Radiomics)是一种结合统计学和机器学习等分析建模工具的新技术。它能够从医学影像中挖掘肉眼无法观察到的隐藏信息,可用于进一步辅助临床诊断。其定义为高通量地从标准医学影像图像(如CT、MRI、PET等)中提取定量的影像特征,将其应用于临床辅助决策系统中可以提高诊断、预后和预测的准确性。这些生成的定量特征可以用于客观地描述肿瘤形态、强度、纹理等信息,将其输入到分类器训练,可以构建出具有诊断、预后或预测价值的模型。这些模型通过学习到的经验可以对未知的病例进行诊断或预测。

2025-01-17 11:03:40 692

原创 利用 SpaDo 进行多切片空间转录组域分析

SpaDo是一个用于多切片空间域分析的综合计算框架,包括四个主要组件(图1):(1) 细胞类型注释,(2) 空间相邻单元类型嵌入的计算 (SPACE),(3) 基于 Jensen-Shannon divergence (JSD) 的分层聚类,以及 (4) 多切片空间域分析。图 1 SpaDo 的工作流程a 计算单细胞和点分辨率空间转录组数据的 SPACE。SPACE SPatially Adjacent Cell type Embedding(空间相邻单元类型嵌入)。坐标-转录本计数矩阵。

2024-11-23 10:31:50 1924

原创 Cm-siRPred:基于多视角学习策略预测化学修饰 siRNA 的效率

siRNA修饰是指对siRNA分子进行化学或结构上的改变,以提高其在体内的稳定性和生物利用度,减少脱靶效应,并增强其特异性。这些修饰可以包括对siRNA分子的碱基、糖骨架或磷酸骨架的改变,以改善其药代动力学性质和减少免疫原性。siRNA分子的合理修饰对于确保其药物特性至关重要。基于机器学习的化学修饰 siRNA(cm-siRNA)效率预测可以显著优化 siRNA 化学修饰的设计过程,节省 siRNA 药物开发的时间和成本。然而,现有的机器学习方法存在数据集小、数据表示能力不足和缺乏可解释性等局限性。

2024-11-21 09:22:15 1150 1

翻译 利用深度学习预测蛋白质与配体的结合亲和力

预测目标蛋白质与小分子药物之间的结合亲和力对于加快药物研究和设计过程至关重要。为了实现精确有效的亲和力预测,在药物研发过程中需要使用计算机辅助方法。近十年来,人们开发了多种计算方法,其中深度学习是最常用的方法。我们收集了几种深度学习方法,并将其分为卷积神经网络(CNN)、图神经网络(GNN)和变形器(Transformers)进行分析和讨论。首先,我们对不同的深度学习方法进行了分析,重点关注它们的特征构建和模型架构。我们讨论了每种模型的优缺点。

2024-11-17 09:59:19 1988 1

原创 MFPred:基于多特征融合的 ncRNA 家系预测

同一家族的 ncRNA 通常具有相似的功能,因此在确定其功能之前预测 ncRNA 家族至关重要。预测 ncRNA 家族主要有两种方法,即传统生物学方法和计算方法。在传统生物学方法中,预测 ncRNA 家系需要大量的人力和物力。因此,本文基于计算方法提出了一种新的 ncRNA 家系预测方法,即 MFPred。MFPred通过提取ncRNA的序列特征来识别ncRNA家族,它拥有三个主要模块,包括:(1)四个ncRNA序列编码和特征提取模块,对ncRNA序列进行编码,并提取ncRNA序列的四个不同特征;

2024-11-07 11:03:50 728

翻译 Nphos:蛋白质 N-磷酸化数据库和预测器

摘要蛋白质 N-磷酸化广泛存在于自然界中,并参与各种生物过程。然而,与 O 型磷酸化相比,目前有关 N 型磷酸化的知识极为有限。在这项研究中,我们从 39 个物种的 7344 个蛋白质中收集了 11,710 个经实验验证的 N-磷酸化位点,随后构建了 Nphos 数据库,以分享蛋白质 N-磷酸化的最新信息。在这些大量数据的基础上,我们描述了蛋白质 N-磷酸化的顺序和结构特征。此外,在比较了数百个学习模型后,我们选择并优化了梯度提升决策树(GBDT)模型来预测人类的三种N-磷酸化类型,pHis、pLys和

2024-10-31 20:51:17 1997

翻译 DIST:利用深度学习增强空间转录组学

摘要空间分辨转录组学技术能够全面测量完整组织背景下的基因表达模式。然而,现有技术存在分辨率低或测序深度浅的问题。在此,我们提出了一种基于深度学习的方法 DIST,它能对未测量位置的基因表达谱进行推算,并通过自我监督学习和迁移学习来增强原始测量点和推算点的基因表达。我们评估了 DIST 在估算、聚类、差异表达分析和功能富集分析方面的性能。结果表明,DIST 可以准确地估算基因表达量,提高低质量数据的基因表达量,帮助检测更多有生物学意义的差异表达基因和通路,从而更深入地了解生物学过程。关键词:空间转录组

2024-10-31 08:53:08 1901

翻译 DELFMUT:面向深度估计的双工测序模型,用于稳定检测低频突变

由于样本的测序深度和重复深度分别是所有位点测序深度和重复深度的平均值,因此我们可以用样本级的饱和测序深度和重复深度来表示位点级的饱和测序深度和重复深度。除了样本水平的重复深度外,在饱和测序状态下,覆盖特定基因组位点的重复深度、双链模板比例以及读数水平和模板水平的链偏倚也趋于稳定,而在不饱和状态下,它们的数值变化很大。(c) 计算 Tm 突变模板中符合 n1+n2 规则的突变模板 x 的数量(即突变模板的每条正向链的突变支持读数满足≥ n1 或≥ n2,每条反向链的突变支持读数满足≥ n2 或≥ n1)。

2024-10-28 15:36:27 758

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除