
机器学习
文章平均质量分 89
风灬陌
风过无痕,陌路红尘
展开
-
论文解读:《GPApred:第一个使用基于序列的最佳特征识别具有 LPXTG 样motif蛋白质的计算预测器》
革兰氏阳性菌的细胞表面蛋白参与许多重要的生物学功能,包括宿主细胞的感染。由于它们的毒性,这些蛋白质也被认为是潜在药物或疫苗靶点的有力候选者。在革兰氏阳性菌的各种细胞表面蛋白中,LPXTG 样蛋白是一个主要类别。多种 LPXTG 样蛋白已通过实验得到表征;然而,由于广泛的细菌基因组测序没有适当的注释,公共数据库中的细菌数量有所增加。在缺乏实验表征的情况下,识别和注释这些序列极具挑战性。因此,在这项研究中,我们开发了第一个基于机器学习的预测器,称为: GPApred,它可以从一级序列中识别 LPXTG 样蛋白。翻译 2023-08-03 22:56:14 · 984 阅读 · 0 评论 -
论文解读:《基于有序位置编码的深度学习和机器学习集成模型的抗癌肽预测》
抗癌肽(ACPs)是一类已被证明具有抗癌活性的肽。使用ACP来预防癌症可能是传统癌症治疗的可行替代方案,因为它们更安全,并显示出更高的选择性。作者提出了一种利用序列信息预测ACP的计算方法。该过程包括肽序列的输入,利用位置信息进行序列编码和手工特征提取,最后进行特征选择。整个模型由两个模块组成,包括深度学习和机器学习算法。深度学习模块包含两个通道:BiLSTM和CNN。最后,作者针对得出模型集成层的三条路径,对三个模型的分类结果进行了投票。该研究为ACP预测提供了一种新的方法,并提供了一个有前景的性能。翻译 2023-02-18 23:35:40 · 1473 阅读 · 0 评论 -
论文解读:《ILGBMSH:基于集成学习算法用于shRNA目标预测的可解释分类模型》
shRNA介导的基因沉默是实现RNA干扰的重要技术,设计有效可靠的shRNA分子起着至关重要的作用。作者基于ILGBMSH提出了一个可解释的分类模型,用于shRNA目标预测。作者并没有仅仅利用shRNA序列特征,而是提取了554个生物学和深度学习特征,这些特征在之前的shRNA预测研究中没有考虑到。与最先进的shRNA目标预测模型进行了比较,评估了模型的性能。还从模型的参数和SHAP来研究特征解释,这为从模型中获得生物学见解提供了依据。最后进行了敲低实验,实验结果与预测完全一致。翻译 2023-01-01 21:29:29 · 644 阅读 · 0 评论 -
论文解读:《iHSP-PseRAAAC:使用伪还原氨基酸字母组成识别热休克蛋白家族》
热休克蛋白 (HSP) 是一种功能相关的蛋白质,存在于所有生物体中,包括原核生物和真核生物。它们在蛋白质-蛋白质相互作用中起着重要作用,它们的功能障碍可能导致各种危及生命的疾病。根据它们的功能,HSP 通常分为六个家族。作者提出了一种名为iHSP-PseRAAAC的方法,它通过将简化的氨基酸字母表信息整合到伪氨基酸组成的一般形式中。引入简化氨基酸字母表的优势是能够避免统计预测中维度灾难或过度拟合问题。翻译 2022-12-15 19:06:38 · 200 阅读 · 0 评论 -
论文解读:《将生物医学数据集成和格式化为 Bioteque 中预先计算的知识图嵌入》
生物医学数据正在快速积累,将其整合到一个统一的框架中是一项重大挑战,因此可以同时考虑给定生物事件的多个视图。作者提出了 Bioteque,从巨大的知识图派生的预先计算的生物医学描述符,显示超过 45 万个生物实体和它们之间的 3000 万个关系。Bioteque 整合、协调和格式化从 150 多个数据源收集的数据,包括由 67 种类型的关联(例如,“药物治疗疾病”、“基因与基因相互作用”)链接的 12 种生物实体(例如,基因、疾病、药物)。翻译 2022-11-28 19:40:18 · 1249 阅读 · 0 评论 -
论文解读:《PredNTS:通过整合多个序列特征来改进和稳健地预测硝基酪氨酸位点》
由多种活性氮物质产生的硝基酪氨酸是一种蛋白质翻译后修饰。作者通过整合多个序列特征(包括 K-mer、CKSAAP、AAindex 和二进制编码方案)开发了一种计算预测器 PredNTS。使用随机森林分类器通过递归特征消除方法选择重要特征。最后,线性组合了不同使用单一编码的 RF 模型生成的连续随机森林 (RF) 概率分数。由此产生的 PredNTS 预测器在五折交叉验证中AUC = 0.910。它在全面和独立的数据集上优于现有的预测器。此外,作者还研究了几种机器学习算法,以证明所采用的 RF 算法的优越性。翻译 2022-09-17 22:16:46 · 819 阅读 · 0 评论 -
论文解读:《PLP_FS:使用支持向量机和融合多个 F_Score 特征选择来预测蛋白质中的赖氨酸磷酸甘油化位点》
磷酸甘油化是一种新发现的翻译后修饰 (PTM),已验证出其在蛋白质的构建和功能特性以及危险的人类疾病中的重要作用。目前有少量计算模型可用于识别磷酸甘油化位点,这些位点无法达到令人满意的预测能力。因此,作者设计并构建了一个名为 PLP_FS 的有效预测因子来识别本研究中的磷酸甘油化位点。为达到训练目的,通过融合多种F_Score特征选择技术,从三种基于序列的特征提取方法生成的特征中获得最优的特征集数量,并将其与支持向量机分类技术拟合到预测模型中。另一方面,还实施了K最近邻清洗和SMOTE方法来平衡基准数据集。翻译 2022-08-28 15:41:35 · 480 阅读 · 0 评论 -
论文解读:《PACES:mRNA中N4乙酰胞苷(ac4C)修饰位点的预测》
Ac4C是高度保守的RNA修饰,并且是mRNA中描述的第一个乙酰化事件。已经证明mRNA中的ac4C参与了mRNA稳定性,加工和翻译的调控,但是ac4C起作用的确切方式仍不清楚。此外,ac4C以生理相关水平广泛分布在人类转录组内,到目前为止,实验仅检测到一小部分修饰序列。在这项研究中,作者开发了人类mRNA中ac4C位点的预测因子,称为PACES,以帮助挖掘可能的修饰基序。PACES结合了两个随机森林分类器:PSDSP和KNF。使用基因组序列作为输入,PACES会根据训练模型给出可能的修饰。翻译 2020-10-12 17:04:47 · 4804 阅读 · 0 评论 -
论文解读:《iRice-MS:用于检测水稻多型翻译后修饰位点的集成 XGBoost 模型》
翻译后修饰 (PTM) 是指蛋白质生物合成后对蛋白质进行共价和酶促修饰,协调各种生物过程。在蛋白质组规模上检测PTM位点是深入了解其调控机制的关键步骤之一。在这项研究中,作者提出了一种基于XGBoost 的集成方法,称为:iRice-MS,用于识别水稻中的 2-羟基异丁酰化、巴豆酰化、丙二酰化、泛素化、琥珀酰化和乙酰化。对于每个PTM特定模型,作者采用了八种特征编码方案,包括基于序列的特征、基于物理化学性质的特征和基于空间映射信息的特征。从每种编码中识别出最优特征集,并建立它们各自的模型。翻译 2022-08-05 14:49:55 · 1014 阅读 · 0 评论 -
常见机器学习模型的便捷使用(Python)
常见的机器学习模型有:逻辑回归(LR)、决策树(DT)、随机梯度下降(SGD)、支持向量机(SVM)、随机森林(RF)、梯度提升决策树(GBDT)、极限梯度提升(XGBoost)和LightGBM。本文介绍了以上八种机器学习模型的便捷使用方法,实现了多个数据可对应多种模型。原创 2022-04-15 15:40:58 · 2000 阅读 · 0 评论