序列数据的分类、聚类、特征与距离
1. 序列分类与聚类的三项任务
在序列数据中,有三项与分类和聚类相关的数据挖掘任务:
1. 分类任务 :为给定类别的序列数据构建分类器。通常结合通用分类方法与合适的特征选择/构造方法来实现。分类可以基于整个序列,即关注序列是否属于某一特定类别;也可以基于位点,即关注序列是否包含感兴趣的位点以及该位点在序列中的实际位置。
2. 聚类任务 :将给定的序列分组到不同的簇中。一般通过选择通用的聚类方法,并为序列选择或设计合适的距离函数来完成。距离函数需要考虑序列的特殊性质和底层应用的特定需求。
3. 混合任务 :可视为聚类和分类的混合。该任务涉及识别特定的序列簇(通常称为序列家族),并以某种模式或模型来描述这些序列簇。这些描述模式或模型可用于将序列分类到相应的家族中,同时为科学家提供区分信息。此任务有两种形式:一种是分组标准考虑整个序列;另一种是考虑序列中显示出特定区分性相似性的窗口。
对于这三项任务,簇或序列家族可能是不相交的,也可能相互重叠,并且不一定覆盖所有给定的数据。
2. 序列特征
2.1 序列特征类型
可以从以下几个角度考虑序列特征:
- 显式与隐式(构造) :有些特征基于序列中出现的模式,而另一些则由序列的属性或序列所代表对象的属性构造而来。前者的例子包括各种序列模式,后者的例子包括与蛋白质序列相关的蛋白质结构的物理/化学/空间属性。
- 简单与复杂、刚性与灵活
超级会员免费看
订阅专栏 解锁全文
1191

被折叠的 条评论
为什么被折叠?



