22、BioSequence2Vec:生物序列高效嵌入生成方法

BioSequence2Vec:生物序列高效嵌入生成方法

在生物序列分析的机器学习流程中,设计数值嵌入是监督分析的重要步骤。目前已有多种方法用于此,但都存在一定的局限性。下面将详细介绍相关工作、提出的BioSequence2Vec方法以及实验评估结果。

相关工作
  • 特征工程方法 :像Spike2Vec和PWM2Vec这类基于k - mer的特征工程方法,能取得一定的预测性能。然而,它们面临维数灾难问题,随着k值增加,频谱(频率计数向量)会变得稀疏,特定k - mer再次出现的可能性降低。为解决此问题,有人提出使用间隔k - mer的想法。
  • 系统发育方法 :基于k - mer计数的系统发育方法可用于构建准确的系统发育树,但计算成本高,难以在大型数据集上扩展。
  • 核矩阵方法 :通过计算核/格拉姆矩阵来计算序列间的成对相似度是机器学习领域的经典问题。为提高计算效率,有人提出近似方法,通过计算两个序列频谱的点积来改进核计算时间。
  • 神经网络和预训练模型方法 :有研究提出基于神经网络的模型,利用Wasserstein距离提取特征,还有提出用于分类的ResNet模型。但深度学习方法在处理表格数据时效果不佳,且预训练模型通常针对特定类型的生物序列训练,难以在不同类型数据上泛化。
提出的方法:BioSequence2Vec

生物序列通常长度不一,即使长度相同也可能未对齐,不能直接视为向量。为解决这些问题,可将序列表示为固定维数的特

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值