用于蛋白质远程同源性检测的富集词袋模型
1. 词袋(BoW)方法用于蛋白质远程同源性检测(PRHD)
在蛋白质远程同源性检测中,词袋(BoW)表示法是一种有效的方法。下面我们来详细了解如何从生物序列中提取 BoW 表示。
- 定义“单词”和“字典” :
- 单词(N - 元组) :对于一个序列 $S = s_1 \cdots s_L$,其 N - 元组 $g_l = s_l \cdots s_{l + N - 1}$ 被视为单词。
- 字典 :固定长度 $N$ 后,字典 $D$ 是使用字母表 $A$ 构建的所有可能的长度为 $N$ 的子序列的集合。例如,对于核苷酸序列,字母表由 ‘A’、’T’、’C’、’G’ 四个符号组成;对于氨基酸序列,字母表有 20 个符号。因此,字典 $D$ 包含 $W = A^N$ 个单词。
- 提取 BoW 表示 :
1. 从序列 $S$ 中提取所有的 N - 元组 $g_1, \cdots, g_G$($G$ 取决于序列长度 $L$ 和 N - 元组的提取重叠程度)。
2. 每个 $g_i$ 用一个向量 $w_i$ 表示:
- $g_i \to w_i = [0, 0, \cdots, 1, \cdots 0]$
- 这个 $W$ 维向量通过“1 - of - W”方案编码 $g_i$ 对应字典 $D$ 中的第 $j$ 个单词 $v_j$ 的信息,即除了第 $j$ 个位置为 1 外,其余元素都为 0。
3. 序列 $S$ 的 BoW 表示通过对所有向量
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



