读书笔记《Outlier Analysis》第八章分类、文本和混合属性中的异常检测

最新推荐文章于 2024-05-09 07:15:00 发布

原创

最新推荐文章于 2024-05-09 07:15:00 发布 · 653 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#异常检测 #分类、文本和混合数据的异常检测

本文探讨了在分类、文本、事务及混合数据集中的异常检测技术。概率模型可通过定义生成模型适应不同数据域，基于邻近的方法则需设计合适的相似性度量。文章还介绍了线性模型在分类数据上的应用及文本数据的特殊处理。

1、引言

前面讨论的都是数值数据，然而，在现实生活生成中，还有很多其他类型的数据，如性别、种族、邮编、人员和实体的名称、IP地址等。通常处理这些数据更有挑战，因为难以以均匀和一致的方式来处理各种类型的属性。

类别（分类）属性也称为离散属性，如颜色类别，红、黄、橙等。这些属性的一个重要特征是，基础值本质上是无序的。与数值数据相比，通常很难定义同一属性的不同值之间的相似性。

分类数据给异常检测算法带来的挑战：

１、极值分析和统计计算依赖于统计量化的使用，如数值的均值和标准差。在分类数据的情况下，这种统计量化不再有意义。

２、针对数值数据设计了PCA等线性模型。虽然数据可以被预处理成稀疏的二进制表示（ｏｎｅ－ｈｏｔ编码），但数据矩阵中的数目可能太大，大多数是０，这给计算上带来了挑战。但是目前的软硬件发展迅速，计算问题将不再是主要问题。

３、所有基于邻近的算法都依赖于一些距离的概念。然而，许多距离量化，如欧式距离函数，对分类数据没有意义或有效。因此，分类数据需要重新定义邻近函数，以便能够使用基于邻近的算法。

４、许多基于密度的模型，如LOCI，不能很容易地适应分类数据，因为这些方法隐含地依赖于距离的概念。

然而，所有类别的算法都可以通过适当的修改来适应分类数据。在这些方法中，需要进行相似性计算，因此数据的相似性度量比较重要。

对于分类数据，可以将分类属性的每个值作为二进制属性来转换为二进制数据（one-hot编码）。二进制数据允许使用许多算法。尽管二进制数据存在一定的缺点，如高维、稀疏。

2、将概率模型推广到分类数据

与数值数据一样，分类数据的概率异常检测模型使用生成模型。主要的区别在于生成分布是根据分类记录的而不是数值记录量身定做的。

生成模型的优点是，通过选择底层分布和特定的生成过程来捕获特定数据域的复杂性。一旦这个生成过程被取消，人们就可以以数据驱动的方式学习相应数据分布的参数。

分类数据的情况与数值数据的情况没有很大的不同。正如第二章中对数值数据定义了混合模型一样，我们可以为分类数据定义相应的混合模型。唯一的区别是，这个混合模型的每个分类的概率分布现在被定义为分类数据，而不是适合数值数据的高斯模型。这种差异主要影响参数估计的方法和具体细节。然而，在这两种情况下，总体框架总是相同的。此外，这种方法很容易扩展到混合属性数据，方法是为分类属性和数值属性定义单独的概率分布，并将它们按产品方式