28、生物信息学中的字符串挖掘及地理空间应用的数据挖掘

生物与地理数据中的字符串挖掘

最新推荐文章于 2025-11-25 11:38:37 发布

seed

最新推荐文章于 2025-11-25 11:38:37 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：科学数据挖掘与知识发现文章标签：生物信息学字符串挖掘数据挖掘

本文链接：https://blog.youkuaiyun.com/seed/article/details/154969770

科学数据挖掘与知识发现专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生物信息学中的字符串挖掘及地理空间应用的数据挖掘

生物信息学中的字符串挖掘

在生物信息学里，数据结构和算法对于分析生物序列极为关键。接下来，我们将详细介绍一些核心内容。

频繁项集挖掘

在挖掘频繁项集时，我们会选取与 Ix 之后次不频繁项相关的边，接着重复特定的三个步骤。持续迭代这一过程，直至所有边都处理完毕。以图 18 为例，当最小支持度设定为 2 时，我们从与最不频繁项 I5 相关的边开始处理。存在两条标有 I5 且指向两个叶子节点的边，每个叶子节点的节点计数都小于最小支持度，所以可忽略这些叶子节点。这两个叶子节点的最近公共祖先节点是 v4，与 I5 相关的两个叶子节点的总节点计数为 2，满足最小支持度。因此，我们将集合 {I2, I1, I5} 报告为最大频繁项集，集合 {I1, I5} 和 {I2, I5} 报告为频繁项集。

字符串核计算

在机器学习的众多问题中，分类器常常需要处理离散示例，像字符串、树和图等。由于非字符串的离散示例能轻松转换为字符串，所以字符串核被用于衡量两个字符串之间的相似度，进而衡量两个结构之间的相似度。大致来讲，字符串核的相似度衡量标准是两个输入字符串之间所有公共子字符串的总数。具体定义如下：
设 numu(v) 表示子字符串 v 在字符串 u 中出现的次数，Σ 表示字母表 Σ 上所有可能的非空字符串的集合。两个字符串 S 和 R 的核 k(S, R) 定义为：
[k(u, v) = \sum_{v \in \Sigma^ } (num_S(v) \times num_R(v)) \omega(v)]
其中，(\omega(v) \in R) 对每个字