BioSequence2Vec:生物序列高效嵌入生成方法
在生物序列分析的机器学习流程中,设计数值嵌入是监督分析的重要步骤。目前已有多种方法用于此,但都存在一定的局限性。下面将详细介绍相关工作、提出的BioSequence2Vec方法以及实验评估结果。
相关工作
- 特征工程方法 :像Spike2Vec和PWM2Vec这类基于k - mer的特征工程方法,能取得一定的预测性能。然而,它们面临维数灾难问题,随着k值增加,频谱(频率计数向量)会变得稀疏,特定k - mer再次出现的可能性降低。为解决此问题,有人提出使用间隔k - mer的想法。
- 系统发育方法 :基于k - mer计数的系统发育方法可用于构建准确的系统发育树,但计算成本高,难以在大型数据集上扩展。
- 核矩阵方法 :通过计算核/格拉姆矩阵来计算序列间的成对相似度是机器学习领域的经典问题。为提高计算效率,有人提出近似方法,通过计算两个序列频谱的点积来改进核计算时间。
- 神经网络和预训练模型方法 :有研究提出基于神经网络的模型,利用Wasserstein距离提取特征,还有提出用于分类的ResNet模型。但深度学习方法在处理表格数据时效果不佳,且预训练模型通常针对特定类型的生物序列训练,难以在不同类型数据上泛化。
提出的方法:BioSequence2Vec
生物序列通常长度不一,即使长度相同也可能未对齐,不能直接视为向量。为解决这些问题,可将序列表示为固定维数的特
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



