数据处理与异常检测技术解析
1. 数据分类方法
分类与聚类的显著区别在于分类是预先已知的。其任务是学习每个类别的独特特征,以便将未标记的数据分配到正确的类别中。特征应具有非重叠的区分性,以实现更精确的分类。
- 全序列分类 :最近邻分类器常被用于将未标记的查询与最相似的标记时间序列归为同一类别。简单形式可使用欧几里得距离,可应用于原始时间序列或转换后的表示形式。但实际中时间序列可能未完全对齐,因此常使用动态时间规整(DTW)等弹性距离度量方法。不过,DTW在处理异常值和数据不完美时存在缺点,一些方法通过添加乘法权重惩罚来减少扭曲效应。
- 基于区间的分类 :在存在噪声和冗余形状的情况下,全序列分类器可能会产生混淆并给出不准确的结果。此时,从区间而非整个序列中提取特征可能更可取。关键在于找到最佳区间,例如有的方法将区间长度设为2的幂次方,并提取二进制特征,然后使用支持向量机(SVM)进行训练。时间序列森林(TSF)是一种流行的基于区间的分类方法,它将时间序列划分为随机区间,基于区间的均值、标准差和斜率三个特征进行训练,通过多数投票确定最终分类结果。
- 基于字典的分类 :如果特定类可以由主题或频繁模式来表征,基于字典的分类方法是合适的。该技术通过滑动给定长度的窗口,计算不同训练实例上单词的分布,建立特定模式频率与特定类出现之间的关联。例如,Bag of Patterns(BoP)方法为转换后的时间序列计算单词直方图,将未标记时间序列的直方图与最相似的直方图对应的类进行匹配。
- 基于形状的分类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



