51、用于蛋白质远程同源性检测的富集词袋模型

用于蛋白质远程同源性检测的富集词袋模型

1. 词袋(BoW)方法用于蛋白质远程同源性检测(PRHD)

在蛋白质远程同源性检测中,词袋(BoW)表示法是一种有效的方法。下面我们来详细了解如何从生物序列中提取 BoW 表示。
- 定义“单词”和“字典”
- 单词(N - 元组) :对于一个序列 $S = s_1 \cdots s_L$,其 N - 元组 $g_l = s_l \cdots s_{l + N - 1}$ 被视为单词。
- 字典 :固定长度 $N$ 后,字典 $D$ 是使用字母表 $A$ 构建的所有可能的长度为 $N$ 的子序列的集合。例如,对于核苷酸序列,字母表由 ‘A’、’T’、’C’、’G’ 四个符号组成;对于氨基酸序列,字母表有 20 个符号。因此,字典 $D$ 包含 $W = A^N$ 个单词。
- 提取 BoW 表示
1. 从序列 $S$ 中提取所有的 N - 元组 $g_1, \cdots, g_G$($G$ 取决于序列长度 $L$ 和 N - 元组的提取重叠程度)。
2. 每个 $g_i$ 用一个向量 $w_i$ 表示:
- $g_i \to w_i = [0, 0, \cdots, 1, \cdots 0]$
- 这个 $W$ 维向量通过“1 - of - W”方案编码 $g_i$ 对应字典 $D$ 中的第 $j$ 个单词 $v_j$ 的信息,即除了第 $j$ 个位置为 1 外,其余元素都为 0。
3. 序列 $S$ 的 BoW 表示通过对所有向量

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值