
算法
文章平均质量分 89
风灬陌
风过无痕,陌路红尘
展开
-
使用python简单实现三种常见的降维方法:PCA、t-SNE和Umap(降到二维进行可视化)
使用python简单实现三种常见的降维方法:PCA、t-SNE和Umap(降到二维进行可视化)原创 2022-06-19 22:08:09 · 9959 阅读 · 0 评论 -
常见机器学习模型的便捷使用(Python)
常见的机器学习模型有:逻辑回归(LR)、决策树(DT)、随机梯度下降(SGD)、支持向量机(SVM)、随机森林(RF)、梯度提升决策树(GBDT)、极限梯度提升(XGBoost)和LightGBM。本文介绍了以上八种机器学习模型的便捷使用方法,实现了多个数据可对应多种模型。原创 2022-04-15 15:40:58 · 1999 阅读 · 0 评论 -
论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》
近年来,语言表示模型以其显著的效果引起了人们广泛关注。其中,来自transformer的BERT已被证明是一种简单但功能强大的语言模型,它实现了新颖的最先进的性能。BERT采用了语境化单词嵌入的概念来捕捉它们出现单词的语义和上下文。在这项研究中,作者提出了一种新的技术,将基于BERT的多语言模型融入到生物信息学中来表示DNA序列的信息,将DNA序列看作自然语句,然后使用BERT模型将其转换为定长的数值矩阵。作者将方法应用于DNA增强子的预测,这是该领域中一个众所周知且具有挑战性的问题。翻译 2021-06-13 15:26:22 · 3993 阅读 · 2 评论 -
论文解读:《功能基因组学transformer模型的可解释性》
深度学习方法的有效性很大程度上归功于从原始数据中自动提取相关特征。在这篇论文中,作者提出了一种新方法,它已经成功地收集了关于大肠杆菌转录过程的见解。这项工作建立在一个基于transformer 的神经网络框架设计的原核基因组注释的目的。作者发现,该模型的大多数亚基(注意头)专门用于识别转录因子,并能够成功地表征它们的结合位点和一致序列,揭示了参与转录过程启动的已知和潜在新元素。翻译 2021-05-21 17:03:43 · 2271 阅读 · 0 评论 -
论文解读:《iPseU‑Layer: 利用分层集成模型识别RNA伪尿苷(嘧啶)位点》
伪尿苷(嘧啶)是最普遍的RNA转录后修饰之一。伪尿苷(嘧啶)位点的鉴定是理解RNA功能、RNA结构稳定、翻译过程和RNA稳定性的重要一步;然而,在实验室探索和生化过程中,高通量实验技术仍然昂贵且耗时。所以,作者提出了一个有效的分层集成模型IPseU-Layer来识别RNA伪尿苷(嘧啶)位点。IPSEU-Layer方法本质上是基于三个不同的机器学习层,包括:特征选择层、特征提取与融合层和预测层。在此基础上,利用现有模型系统地进行了交叉验证测试和独立测试的验证实验。翻译 2021-04-10 10:47:54 · 712 阅读 · 2 评论 -
论文解读:《i6mA-stack: 基于堆叠框架的蔷薇科基因组DNA N6-甲基腺嘌呤(6mA)位点的计算预测》
DNA N6-甲基腺嘌呤(6mA)是一种表观遗传修饰,在真核生物和原核生物的多种细胞过程中都起着至关重要的作用。蔷薇科基因组中6mA位点的准确信息可能有助于理解基因组6mA的分布和各种生物学功能,如表观遗传。各种研究表明,通过实验确定6mA位点是可能的,但这一过程既耗时又昂贵。为了克服实验方法的缺陷,作者提出了一种基于机器学习(ML)技术的精确计算范式来识别中国月季(Rosa chinensis(R.chinensis))和中国刺梨(Fragaria Vesca)的6mA位点。翻译 2021-03-24 19:07:24 · 1238 阅读 · 0 评论 -
论文解读:《XG‑ac4C:使用带有电子离子相互作用假电位的eXtreme梯度增强技术鉴定mRNA中的N4-乙酰胞苷(ac4C)》
N4-乙酰胞苷(ac4C)是mRNA的转录后修饰,在mRNA稳定和调节中起主要作用。 ac4C修饰mRNA的工作机制仍不清楚,传统的实验既费时又昂贵。作者提出了一种基于极限梯度提升分类器的XG‑ac4C机器学习模型,用于ac4C站点的识别。 XG‑ac4C模型使用了ac4C位点中核苷酸的三核苷酸的电子离子相互作用假电位和电子离子相互作用假电位的组合。此外,使用Shapley加性解释和局部可解释的模型不可知性解释来理解特征的重要性及其对最终预测结果的贡献。获得的结果表明,XG‑ac4C优于现有的最新方法。..翻译 2021-03-15 21:00:50 · 759 阅读 · 0 评论 -
论文解读:《Deep4mC:通过深度学习对DNA N4-甲基胞嘧啶位点进行系统评估和计算预测》
DNA N4-甲基胞嘧啶(4mC)修饰代表一种新型的表观遗传调控。它涉及各种细胞过程。作者系统地评估了八种常规机器学习算法的预测能力以及先前在六个物种中常用的12种特征类型。使用代表性的基准数据集,研究了特征选择和堆叠方法对模型构建的贡献,发现特征优化和适当的强化学习可以改善性能。收集了六个物种基因组中新添加的4mC位点,并开发了一种新型的基于深度学习的4mC位点预测因子,即Deep4mC。 Deep4mC应用具有四个代表性特征的卷积神经网络,对于样本数量较少的物种,使用自举方法扩展了深度学习框架。翻译 2021-02-07 14:38:47 · 2981 阅读 · 4 评论 -
论文解读:《一种基于长短期记忆网络深度学习的药物靶相互作用预测方法》
现代药物发现的关键是发现,识别和准备药物分子靶标。但是,由于通量,精度和成本的影响,传统的实验方法很难广泛用于推断这些潜在的药物-靶标相互作用(DTI)。因此,迫切需要开发有效的计算方法来验证药物与靶标之间的相互作用。作者开发了基于深度学习的DTI预测模型。蛋白质的进化特征是通过特定位置评分矩阵(PSSM)和勒让德矩阵(LM)提取的,并与药物分子的亚结构指纹相关联,以形成药物-靶对的特征向量。然后,利用稀疏主成分分析(SPCA)将药物和蛋白质的特征压缩到统一的向量空间中。最后,构建了深长短期记忆以进行预测。翻译 2021-01-03 09:47:31 · 2589 阅读 · 8 评论 -
论文解读:《DeepSuccinylSite:基于深度学习的蛋白质琥珀酰化位点预测方法》
琥珀酰化后蛋白质中发生的总体局部变化已显示出与基因活性变化相对应,并受到柠檬酸循环缺陷的干扰,这些观察结果与琥珀酸在细胞呼吸过程中作为代谢中间体生成的事实一起,提示了琥珀酸蛋白可能在细胞代谢与重要细胞功能之间的相互作用中发挥作用。例如,琥珀酰化可能代表基因组调节和修复的重要方面,并且可能在许多疾病状态的病因学中产生重要影响。在这项研究中,作者开发了DeepSuccinylSite,这是一种新颖的预测工具,它使用深度学习方法以及嵌入技术来基于蛋白质的一级结构识别蛋白质中的琥珀酰化位点。翻译 2020-11-29 18:32:32 · 2207 阅读 · 0 评论 -
论文解读:《SDM6A:基于Web的集成机器学习框架,用于预测水稻基因组中的6mA位点》
论文解读:《SDM6A: A Web-Based Integrative Machine-Learning Framework for Predicting 6mA Sites in the Rice Genome》1.文章概括2.介绍文章链接:https://www.sciencedirect.com/science/article/pii/S2162253119302240DOI:https://doi.org/10.1016/j.omtn.2019.08.011服务器:http://thegle翻译 2020-11-24 19:56:47 · 988 阅读 · 5 评论 -
论文解读:《DRAW:一种用于图像生成的递归神经网络》
提出了一种深层生成模型:深度递归注意力写入器(DRAW)(Deep Recurrent Attentive Writer),该模型具有通过重复部分生成而不是通过一次正向传播生成图像来生成单个图像的特性。模仿人眼空间注意力机制的带有视觉偏好性的,可变自动编码框架,其主要功能是用于复杂图像的迭代构造。翻译 2020-07-12 17:33:16 · 1717 阅读 · 0 评论 -
论文解读:《自适应非局部随机游动用于图像超像素分割》
提出了一种新的基于自适应非局部随机游走(ANRW)算法的超像素分割方法。图像超像素分割算法主要有三个步骤(方法基于随机游走模型):第一步,通过基于梯度的方法产生种子点来生成初始超像素。第二步,提出了ANRW算法,通过调整非局部随机游走(NRW)来获得初始超像素,以获得更好的图像分割和超像素分割。第三步,将这些小的超像素进行合并,得到最终规则且紧凑的超像素。实验验证,与现有的方法作比较,有更好的超像素性能。翻译 2020-05-31 18:38:11 · 2695 阅读 · 4 评论 -
论文解读:《递归神经网络正则化》
RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。神经网络包含输入层、隐层、输出层,通过激活函数控制输出,层与层之间通过权值连接。下图一个标准的RNN结构图,图中每个箭头代表做一次变换,也就是说箭头连接带有权值。左侧是折叠起来的样子,右侧是展开的样子,左侧中h旁边的箭头代表此结构中的“循环“体现在隐层。图中O代表输出,y代表样本给出的确定值,L代表损失函数。原创 2020-04-19 18:05:15 · 2555 阅读 · 0 评论 -
论文解读:《基于半监督矩阵分解和随机游走的重叠网络社区划分算法》
社区结构是了解网络的拓扑结构和社会功能的基础,也是推荐技术,信息传播,事件预测等的重要因素。考虑了社交网络的结构和特点,提出了一种基于半监督矩阵分解和随机游走的算法。方法步骤:1.通过网络拓扑计算节点之间的转移概率。2.使用随机游走模型获得最终的游走概率,并构建特征矩阵。3.结合网络中的先验内容信息来构建必须链接矩阵和不能链接矩阵。4.将它们合并到随机游动的特征矩阵中以形成新的特征矩阵。5.根据分解的隶属度矩阵定义边数的期望。翻译 2019-11-21 17:10:01 · 2594 阅读 · 1 评论 -
K均值聚类算法
一、简介K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平...原创 2019-04-23 10:17:26 · 3162 阅读 · 0 评论