从区间数据设计概念格的两种互补分类方法
在数据分类领域,处理复杂的区间数据是一个具有挑战性的任务。传统的分类方法在面对非二进制、复杂且异构的数据时,往往需要进行概念缩放(即二值化)操作,将数据转换为二进制表格,以便构建概念格。然而,这种操作存在诸多问题,如依赖领域专家、容易导致信息丢失等。为了解决这些问题,本文介绍了两种基于形式概念分析(FCA)的分类方法:FCAS和IPS,它们可以在不进行缩放的情况下处理区间数据,为复杂数据的分类提供了新的思路。
1. 形式概念分析基础
形式概念分析(FCA)是一种强大的数学工具,用于从数据中发现概念和概念之间的层次关系。在FCA中,一个形式上下文由对象集 $G$、属性集 $M$ 和对象与属性之间的二元关系 $I$ 组成,记为 $(G, M, I)$。对于对象 $g \in G$ 和属性 $m \in M$,如果 $(g, m) \in I$,则表示对象 $g$ 具有属性 $m$。
通过两个推导运算符 $(·)’$ 可以定义一个伽罗瓦连接,将对象集的幂集 $2^G$ 和属性集的幂集 $2^M$ 联系起来:
- $A’ = {m \in M | \forall g \in A : gIm}$,表示对象集 $A$ 中所有对象共同具有的最大属性集。
- $B’ = {g \in G | \forall m \in B : gIm}$,表示具有属性集 $B$ 中所有属性的最大对象集。
满足 $A’ = B$ 且 $B’ = A$ 的对象 - 属性对 $(A, B)$ 被称为形式概念,其中 $A$ 称为概念的外延,$B$ 称为概念的内涵。所有形式概念按照包含关系构成一个完备格,称为概念格。
然而