基于聚类的敏捷BI方法

一种软计算方法在敏捷商业智能中的应用

摘要

本文提出了一种新方法,使用户能够以直观的方式并使用其自身的术语从原始数据集中提取知识。首先利用聚类算法识别原始数据集的内部结构,并在此结构上定义基于特异性的度量,以提取最具信息量的知识。为了使领域专家能够与基于聚类的结构及其嵌入的知识进行交互,还提出了图形可视化以及专用查询操作符。

一、引言

处理新的原始数据集是许多领域专家(如保险从业者、通信经理、决策者、数据记者等)日常的专业任务。面对大量异构的数据集,传统的数据分析与集成过程需要重新审视。将新的原始数据集整合到数据仓库或数据集市中的传统流程,通常依赖于领域专家与计算机科学家的前期协作,随后开发定制软件以满足专家提出的信息需求。然而,在投入大量时间进行用例定义、数据结构化和编程之前,若能先确认所集成的数据是否真正有用,则领域专家亟需高效且直观的工具,以自主分析原始数据集的内容与结构。

商业智能领域的主流厂商显然已经意识到甚至抢占了这一需求,并推出了直观工具(如亚马逊的QuickSight、微软的PowerBI、SAP的Crystal仪表板设计、IBM的Cognos、Tableau公共社区等),用于生成统计、预测和仪表板。

尽管这些操作工具大多关注可扩展性、实时分析、云服务以及将原始数据直接转换为仪表板或统计信息,但本研究的总体目标是实现一种以用户为中心的原始数据分析方法,生成更具人类可解释性的知识,这种方法可被视为一种敏捷商业智能方法。为实现这些雄心勃勃的目标,首先使用聚类算法识别原始数据集的内部结构。将数据离散化为相似项目的不同分组被视为一种数据模型,并作为数据到知识的转换过程的起点。最初的动机是使用聚类而非关系、对象或概念来组织数据集,旨在基于人类可读的数据结构提供查询功能。根据对象共享的属性对其进行分组,确实是一种自然的认知过程,从计算机科学的角度来看,这种方法对于表示数据集的内在结构也具有相关性和意义。

为了帮助领域专家理解这种基于聚类的数据结构,我们定义了专门的特异性度量,以识别其最具信息量的结构属性。关于该数据结构的提取的知识随后可使用来自专家词汇的语言术语进行重写。借鉴标签云的思想,我们提出了一种基于语言术语的图形视图,用以反映簇集合的结构属性。最后,定义了查询操作,使专家能够与该数据结构的语言和图形视图进行交互,从而获取预期的知识。

本工作的贡献在于:

  • 将从原始数据集中自动获得的簇集合视为一个数据模型,
  • 使用专家词汇中的术语对聚类进行语言上的重写,
  • 将特异性概念扩展到量化项目和语言术语相对于基于簇结构的信息量,
  • 并提出一种图形化可视化方法,即术语云的天空,以及用于操作它们的专用交互操作。

本文的其余部分结构如下:第二节介绍了一些基本的背景概念,第三节展示了如何利用特异性概念来量化从聚类中提取的知识的信息量。第四节详细说明了如何使用标签云来表示从聚类中逐步提取的知识,并解释了如何通过面向查询的操作符与标签云进行交互。在第五节中,在总结并展望未来工作之前,将本方法与相关工作进行了对比分析。

动机示例

簇用于根据项目在数值/分类空间中的描述来对一组项目进行结构化,如图1(左)所示。可以使用用户词汇来定义与划分属性定义域的语言变量相关(图1(左))。图1(右)展示了如何使用用户词汇重写聚类,并通过标签云进行显示。标签云中语言术语的图形属性(或描述聚类内容列表中项目的排列位置),由该语言术语(或项目)相对于聚类结构属性的特异性,即信息量决定。通过点击标签云中的特定术语,用户可关注满足特定条件的项目(例如,图2中具有‘medium mileage’的汽车)。

示意图0

示意图1

二、预备知识

A. 特异性概念

特异性概念由亚格尔[20]提出,用于量化形如 V is A的命题P的信息量,其中 V是论域 X上的一个变量, A是 X的一个模糊集。特异性度量与嵌入在该命题中的知识的不精确性相关。从可能性分布的角度来看,A中包含的可用于描述 X的可能值越多,其特异性就越低。最特异的情况是当 A退化为一个单元素集时。在其初始定义中,特异性度量记为 Sp(A),是从模糊子集(A)到单位区间的一个映射:

Sp: F →[0, 1].

三个属性确保了用于确定 A 对 V描述精确程度的度量的语义:

1) Sp(A) = 1当且仅当 ∃x ∈ X使得 μA(x) = 1且 ∀x′ ∈ X, x′ ≠ x, μA(x′) = 0,

2) Sp(∅)= 0,

3) 设 A和 B为两个集合,使得 A ⊂ B,则 Sp(A) ≥ B。

[20]中提出的初始特异性度量是:

Sp(A)= ∫ αmax 0 |A1α| dα, (1)

其中αmax是 A中的最大等级(即 A的高度),且Aα={x|μA(x) ≥ α}在。所提出的数据到知识的转换方法中,特异性起着至关重要的作用,因为它用于量化提取的知识的信息量。尽管初始特异性度量的整体含义保持不变,但其属性和定义已根据我们的上下文进行了调整。

B. 基于聚类的数据模型

开放数据集通常具有表格结构,并形成包含 n个项目{x1, x2,…, xn}描述的多重集。每个项目,例如属于全集X的 x,由 m个属性A1, A2,…, Am进行描述,其中 xi.Aj表示项目xi在属性Aj的定义域 Dj上所取的值。

由相似数据子组定义的数据底层结构,可以使用聚类算法[11]自动获得。在考虑的任务中,选择合适的算法时必须满足三个要求:算法必须具有可扩展性,以便能够处理大数据集;最好采用增量式,以高效地管理数据演变;还必须能够自动确定合适的簇的数量:由于目标是自动识别数据的底层结构,因此不能假设数据专家知道应识别多少个簇。第三,每个簇必须关联一个代表,称为其中心,对应于该簇中最典型的对象。由于 算法具有线性/增量方式管理数据以及自动检测簇数量的能力,因此在[12]中引入的该算法满足我们的要求。为了不失一般性但为了更清晰起见,本研究使用了该聚类算法的一个清晰(即非模糊)版本,以获得一个更易于解释和理解的初始数据结构,但所提出的方法可直接推广到模糊簇的情况。

一个项目被分配到某个簇是基于其与该组内其他项目的相似性,这种相似性的量化需要一个相似性度量 r,以及其与其他组项目之间的相异性,这依赖于一种相异性度量,此处记为 d。两个项目之间的距离 d计算如下: d(x1 , x 2) = 1/m∑ m i=1 d i( x 1 .A i , x 2 .A i) ,其中 d i( a, b) = |a− b| max D i () −m in ( D i )如果 A i 为数值类型,而对于类别值则使用严格相等性判断。相似性度量 r仅基于距离r(x1 , x 2) = 1 − d(x1 , x 2) 。

一个项目 x相对于同一簇中其他成员的相似性记为is C(x)并按如下方式计算:

isC(x)= 1 |C| − 1 ∑ y∈C,y≠x r(x, y), (2)

而其相对于其他簇的成员的外部相异性,记为edC(x),定义如下:

edC(x)= 1 |D| − |C| ∑ y∉C d(x, y). (3)

定义1(基于聚类的数据模型) :本文所考虑的数据模型的核心概念是项目簇。一个簇,例如 C,简单地通过集合 C: {x1/μC(x1) x2/μC(x2)…, x|C|/μC(x|C|)}来表示,其中μC(x)是 x对簇C的隶属度,在初始聚类时被设为1 ,因为初始聚类是清晰的。因此,基于聚类的数据结构由一个簇集合组成,其中每个簇都由一个模糊集表示,用以体现其元素的隶属关系。

值得注意的是,与关系模型要求同一关系中元素的唯一性不同,一个项目在同一个簇中可以重复多次,以存储不同值的频率和分布(此处表是一个多重集)。

C. 领域专家词汇

通常,一个开放数据集会附带发布一个词典,该词典或多或少粗略地解释了每个属性的含义。基于此词典,领域专家能够定义其主观且依赖于领域的专家词汇 V。定义词汇的过程包括:使用与强模糊划分相关联的语言标签对感兴趣属性的定义域进行离散化[7]:形式上,对于属性Aj,j= 1..m, qj表示其划分中涉及的模态数量,Vj ={vj1 ,… v jq j} 表示对应的模糊集。强划分性质要求∀j= 1..m, ∀x ∈ D j ,∑ q j k=1 μv j k( x.A j) = 1。同时还要 求,每个项目在每一维度上不能满足多于两个模态。每一个模态,例如v ji,都通过一个称为l ji的标签进行语言描述。这些语言标签通常对应自然语言中的形容词(例如“便宜的”、“近期”、“高的”等),构成了专家的词汇。

示意图2

Di Vi e1 ∈Di e2 ∈Di eh ∈Di
vi1
vi2

viqi
μvi1(e1)
μvi2(e1)

μviqi(e1)
μvi1(e2)
μvi2(e2)

μviqi(e2)
μvi1(eh)
μvi2(eh)

μviqi(eh)

表 I. 分类划分

D. 使用词汇表中的术语进行数据重写

作为数据到知识转换过程的起点,领域专家应能够获得基于簇的数据集内部结构的人类可理解视图。为了便于理解用于构建簇的数据属性,这些属性将根据专家词汇进行重写。此重写步骤包括构建一个来自专家词汇的语言标签向量,以表示簇的内容。

定义 2(项目重写向量) :一个项目 x 可以被重写为一个由 ∑m k=1 ak 隶属度 〈μv 11( x.A1)…, μv 1q 1(x.A1)…, μv m1( x.Am)…, μv m qm (x.Am)〉 组成的向量,由于在数值属性上定义的划分的属性,该向量通常是稀疏的。

整个簇可以使用专家词汇进行重写,也可以通过合并其所含项目的重写向量来实现重写。

定义 3(簇重写向量) :与表示一个项目在多大程度上满足专家词汇中不同标签的项目重写向量相反,簇重写向量表示每个语言术语对相关簇的覆盖程度,由此得到以下形式化定义:

〈ρv 11(C),…, ρv 1 q 1(C),…, ρv m1(C),…, ρv m qm(C)〉,

where ρv i j(C)= ∑x ∈ C μ v i j (x) |C| .

这样的向量提供了语言空间中一个簇的描述(意图表示)。

III. 基于特异性的聚类知识提取

如第二节所述,数据集及其基于聚类的结构存在于两个空间中:首先是数值空间,在该空间中数据最初被描述,并在其中计算项目之间的距离度量以构建聚类;其次是语言空间,对应于使用专家词汇中的术语对项目和聚类进行重写。在本节中,我们提出量化项目在数值空间中描述聚类所带来的信息量的方法,以及专家词汇中的术语在语言空间中所带来的信息量。

A. 命题 C的特异性由 x表示

在数值空间中,一个簇可以通过其所包含的项目来解释。因此,量化其程度是很有意义的

一个项目作为其簇的代表性程度。项目x越接近簇 C中的其他成员,并且越远离其他簇的成员,则其作为该簇代表的程度越高。从特异性的角度来看,其思想是衡量一个项目为解释基于簇的数据模型的结构属性所提供的信息量。

项目 x相对于其所属的簇 C的特异性记为 Sp(x, C),当 C仅包含一个项目(可能被重复)且该项目在所有考虑的属性上均不同于其他簇的项目时,特异性达到最大。在相似性方面,用于形成簇的关系中,项目 x对于簇 C的特异性达到最大(即Sp(x, C)),当且仅当 x与簇 C中的其他成员完全相似,而与其他簇的成员完全不同。相反地,项目 x相对于其所属的簇 C的代表性最小(即 Sp(x, C) = 0),当且仅当 x与簇C中的其他项目完全不同,或与另一个簇C′ ≠ C的所有成员完全相似。一般来说,一个项目 x与其所属簇的其他成员越接近,而与其他簇的成员越远离,则其特异性越高。一种项目级别的特异性函数形式如下:

Sp:(X × C) →[0, 1],

其中 X是所考虑的全集, C是簇集合。因此,重新审视特异性度量相关的三个基本属性(见第二节‐A),以量化一个项目对某个簇的特异性程度:

1) Sp(x, C) = 1当且仅当 isC(x) = 1且 ∀C ′≠C, isC ′(x) = 0;

2) Sp(x, C) = 0当且仅当 isC(x) = 0或 ∃C ′≠C, isC ′(x) = 1;

3) 如果(edC(x) ≥ edC(y) ∧ isC(x) > isC(y)) ∨(isC(x) ≥isC(y)∧edC(x) > edC(y)),那么 Sp(x, C) > Sp(y, C)。

一种可能的项目级别特异性函数定义如下:

Sp(x, C)= (isC(x), edC(x)), (4)

其中 是关于其两个参数单调不减的任意t‐范数,且满足当 x ≠ 0和 y ≠ 0时 T(x, y) > 0,例如韦伯t‐范数无法使用,因为它无法满足第三个性质。

值得注意的是,所提出的关于项目级别相对于簇的特异性度量的定义,对应于通常所说的典型性度量[13]。在此意义上,项目相对于簇的特异性程度用于确定每个簇的代表。某个簇(例如 C)的最具代表性的项目表示为MC,并按如下方式确定:

M C ={x ∈ X | Sp(x, C)= max y∈ C Sp(y, C)}. (5)

一个簇可以在数值空间中(外延上)通过其项目的列表来表示,这些项目按照它们的特异性进行排序,从而能够区分簇的代表性项目和对应于离群值的项目。对整个数据集 D计算特异性度依赖于 |D|.(|D| − 1)/2个元组的比较,因此导致复杂度为 O( |D|2)。

B. 命题 C is v的特异性

在语言空间中,可以使用专家词汇中的术语,通过簇的重写向量来描述一个簇(见第二节‐D)。这种表示提供了关于语言术语相对于簇内容的覆盖度的局部信息(ρv(C) = ∑x∈C μv (x) |C| )。关于每个术语的此类局部信息可通过特异性程度加以补充,以量化该术语相对于相关簇的结构属性的代表性。从这个意义上讲,术语 v用于描述簇 C所传递的信息量,与它所覆盖的项目比例 C相比其他簇中由 v描述的项目比例 C有关。因此,若在某一给定维度上, C的所有项目完全由 v描述,且其他簇中没有任何元素被 v部分描述,则 v相对于 C的特异性达到最大。语言层面上的特异性函数形式如下:

Sp:(V × C) →[0, 1],

其中 V是语言术语的。根据此定义,特异性函数(第二节‐ A)的三个基本属性按以下方式调整:

1) Sp(v, C)= 1 iff. ρv(C)= 1 and ∀C′ ≠ C, ρv(C′)= 0,

2) Sp(v, C)= 0 iff. ρv(C)= 0 or ∃C′ ≠ C, ρv(C′)= 1,

3) if(ρv(C) ≥ ρv′(C) ∧ ∀C′ ≠ C, ρv(C′)< ρv′(C′)) ∨ (ρv(C)> ρv′(C) ∧ ∀C′ ≠ C, ρv(C′) ≤ ρv′(C′)) then Sp(v, C)> Sp(v′, C).

项目级别上的特异性函数的一个可能定义如下:

Sp(v, C)= (ρv(C), 1 − maxC′≠Cρv(C′)), (6)

其中 是任意t‐范数,该t‐范数关于其两个参数再次是非递减的,并且满足 T(x, y) > 0,当 x ≠ 0和y ≠ 0时

C. 簇 C 相对于簇集合 C的特异性

簇相对于整个簇集合的信息量概念可以有不同的解释。在簇级别上的定量评估[8],[14]通常依赖于两个概念:紧凑性和可分性,前者与其内容的紧密程度相关,后者则与其到其他簇的距离相关。紧凑性和可分性在项目级别上进行操作,即通过计算项目描述的数值/分类空间中的距离来实现。

本着在项目和语言术语层面上定义的特异性度量的精神,我们提出量化簇的语言描述精确且唯一的程度。该量化还依赖于用于描述同一簇成员的语言术语的紧凑性,以及该描述相对于与其他簇相关联术语的可分性。

设V C 表示 C成员的重写向量中出现的语言术语集合。 V C 的紧凑性,记为 Co(VC),当其包含 m个术语(每个对应一个)时达到最大。

每个考虑的维度,因此:

Co(VC)= |VmC|, (7)

其中|VC| 是 VC中语言术语的数量。

重写向量 VC 相对于其他簇的可分性用 Se(VC)表示,并在此使用杰卡德距离进行计算:

Se(VC)= 1 − |C|1 − 1 ∑ C′≠C |VC⋂V′ C| |VC⋃V′ C|. (8)

簇的特异性被定义为紧凑性与可分性之间的折衷:

Sp(C,C)= Co(VC)× Se(VC) 2 . (9)

1) Sp(C,C)= 1 iff. Co(VC)= 1 and Se(VC)= 1,

2) Sp(C,C)= 0 iff. Co(VC)= 0 or Se(VC)= 0,

3) if.(Co(VC) ≥ Co(VC′) ∧ Se(VC)> Se(VC′)) ∨ (Co(VC)> Co(VC′) ∧ Se(VC) ≥ Se(VC′)) then Sp(C,C)> Sp(C′,C).

IV. 数据模型可视化

为了将一个簇转化为可解释的知识,我们提出了一种针对这种数据结构(或更准确地说是其重写形式)的图形视图。该图形视图必须真实地再现嵌入在簇中的知识和属性,特别是每个术语相对于整个数据结构的特异性。在此基于聚类的数据结构的图形表示基础上,我们还提供了一种交互式且直观的图形查询机制,利用词云来表示聚类。

示意图3

A. 将聚类显示为标签云

如第二节‐D所述,使用专家词汇对一个簇(例如C)进行重写,表现为形式为〈ρv 11( C)…, ρv 1 q 1(C)…, ρv m1( C)…, ρv m qm(C)〉的向量。

其中,ρv(C)用于量化 v对于簇 C的局部代表性。另一项信息 Sp(v, C)则将该覆盖度置于簇集合的背景下进行考量,并量化簇 C的特异性。借鉴渐进信息标签云表示的思想,我们提出通过反映其局部和全局结构属性的语言术语云来表示每个簇。

描述簇的某一部分的术语形式为:〈l i j A i〉 ,其中 i= 1..m和 j= 1..qi ,例如“低价”或“可靠品牌”。因此,一个簇可以用一组术语来表示,这些术语代表了其至少一个项目部分满足的属性。对于给定的簇 C,术语〈l i j A i 〉可能与有趣的渐进知识相关联:

  • 其关于簇 C的局部覆盖度记为 ρ v i j( C),
  • 其特异性记为 Sp(vi j , C)
  • 其中心性与该术语描述簇中特定项目有关。vij相对于 C的中心性,记为 λC(vij),计算方式如下:
    λC(vij)= |C1| ∑ x∈C min(μvij(x), Sp(x, C))。

这三个度量指标与描述每个簇的术语相关联,彼此互补。覆盖度是从簇的角度出发的信息,用于说明某个术语对给定簇的重要性程度。在基于数据聚类的结构层面,可通过特异性程度来进一步理解该术语的覆盖度。然而,对于同一个簇,两个术语可能具有相同的特异性程度,但却描述了簇中不同的部分。例如,两个术语可能以相同比例分别覆盖簇中的两个不同部分:一部分由典型项目组成,另一部分由非典型项目组成。如果这两个术语完全不覆盖其他簇,则它们的特异性程度相同,此时中心性可用于区分这些术语在描述簇内特定项目(在数值空间中)方面的能力。

术语及其相关属性(覆盖度、特异性和中心性)被转化为图形表示,以形成每个簇的云。术语通过文本标签进行图形化呈现,其大小、颜色和位置分别与其覆盖度、特异性和中心性成正比。与网络上出现的标签云不同,在标签云中术语的位置和间距没有意义,所提出的可视化技术旨在忠实地再现每个簇的结构属性。

设 S、 O和 P分别为术语的预定义最大字体大小、所选颜色的最大不透明度以及笛卡尔平面的原点。在我们的实验中, S初始设置为48pt, O设置为100%, P设置为(0,0)。

对于要在簇 C的云中显示的每个术语〈lij Ai〉,其大小sC l i j简单地设置为 max(6, ρv i Sp(vij , C) × O)。术语的中心性决定其在云中的位置。最中心的标签lC 0放置在平面的原点。其余术语首先按其中心性降序排列lC 1 , lC 2 , lC 3 ,…使得λC(v1) ≥ λC(v2) ≥ λC(v3) ≥…,然后沿一条螺旋曲线排列,该曲线的方程为:
[ x y]= z × u[ cos u sin u],
其中 u是按中心性排序的术语列表中的索引。使用索引来计算每个术语的坐标,而非使用中心性程度,能够线性化术语之间的间隙,同时避免了具有相近中心性程度的术语重叠,从而获得更具可读性的视图。 z是一个缩放参数,可用于扩展或收缩螺旋结构,该参数初始设置为使各个云彼此不重叠。术语按照从最不中心到最中心的顺序显示,以确保最中心的术语不会被其他中心术语部分遮挡。

示意图4

B. 将一组簇显示为云天

由 k个聚类组成的集合显示为 k个螺旋云的天空(第四节‐A)。如图5所示,聚类围绕最特异的一个聚类进行排列(第三节‐C)。因此,k个聚类按其特异性C递减的顺序排列:C0, C1,…, Ck,使得 Sp(C0,C) ≥ Sp(C1,C) ≥… ≥Sp(C0,C)。最特异聚类的云 C0位于笛卡尔平面的原点,而其他云中心的坐标取决于它们相对于C0的特异性差异,使得一个聚类Ci, i= 1..k越具有特异性,就越靠近 C0。
[ x y]= z′×(Sp(C0,C)−Sp(Ci,C))[ cos i×( 360 k−1 +90) sin i×( 360 k−1 其中 z′ 是一个缩放因子,可用于将簇绘制得彼此更接近或相反地将它们分开。

示意图5

C. 查询术语云天空

为了让专家关注每个簇的某些特定属性,已定义了查询操作。这些操作通过与云状天空的图形交互触发,会改变聚类的内容及其图形视图。默认情况下,操作应用于整个簇集合,但专家可通过点击某个簇的标题来决定仅修改特定的聚类。

属性投影 :应用于特定云或整个天空时,投影算子用于从滚动列表中指定感兴趣的属性。整个天空或仅激活聚类的云将被修改,以显示与投影属性相关的语言术语。因此,此操作不涉及特异性度的重新计算,也不涉及云结构的任何修改。
示例 :投影操作可用于识别一个或多个聚类中项目某些属性所具有的属性:“ C1和 C2聚类中汽车的里程和车龄如何?”

项目选择 :选择的目的是将聚类内容缩减为满足给定条件的项目子集。我们的主要目标是提供一种直观且交互式的数据库管理工具,而非一种完整且表达力强的形式化查询语言,因此选择条件只能采用涉及专家词汇中术语的合取形式。受分面搜索方法在数据查询中的启发,合取条件通过点击云图中出现的术语迭代定义。

从满足条件 ψ的簇 C中进行项目选择表示为σψ(C),并返回一个新簇:
σψ(C)={xi/(min(μC(xi), μψ(xi))| xi ∈ C ∧ min(μC(xi), μψ(xi))> 0}. (10)

单击一个术语会创建一个新的合取项,并执行选择操作。但此操作还意味着需要重新计算每个聚类的语言描述,并重建术语云的天空。确实,必须为所有聚类重新计算重写向量(第二节‐D)、描述所选项目的语言术语的特异性以及每个簇的特异性。该操作在最坏情况下的复杂度为 O(n2),其中 n是数据集中的项目数量。每次激活新的合取项后都重新计算天空可能显得代价较高,但这种方法非常具有信息性,因为在查询构建的每个步骤中,它都能提供当前结果集的语言和图形视图。
示例 :选择操作可用于检查满足给定选择条件的项目是否在不同组内与特定属性相关联。通过使用如“存在不同类型的廉价汽车吗?”这样的查询,可以发现有一组是具有中等里程的小型基础汽车,另一组是具有高里程的更豪华汽车。

关注簇中的典型或非典型项目 :在知识发现的背景下,关注簇中最典型(特定)或非典型(非特定)的项目可能是有意义的。为此,可将表示为 (或)的聚焦算子应用于一个簇或整个天空,以保留特异性程度至少(或至多)相等的项目到阈值 β。应用于簇 C:{x1/μC(x1) x2/μC(x2)…, x|C|/μC(x|C|)},操作 β(C) 返回一个新簇:
β(C)={x/μC(x)|x ∈ C ∧ SpC(x) ≥ β},
而β(C) 返回该簇:
β(C)={x/μC(x)|x ∈ C ∧ SpC(x) ≤ β}.
示例 :可使用聚焦操作来识别簇中最具体(或最不具体的)项目的属性:“聚集豪华汽车的簇中最典型的属性是什么?”(或“在低预算情况下我能买到的最令人惊讶的汽车是什么?”)。

Displaying the content of a cluster :在交互式知识发现过程的某个阶段,专家可能希望从聚类的语言表示(即术语云)转为在数值空间中以表格视图显示其内容。满足当前选择条件并在投影属性上进行描述的项目将以表格形式展示,并按其特异性降序排列。为了高效地从语言空间中的聚类可视化切换到数值空间中的聚类扩展,需要定义索引:首先将语言术语与部分由该术语描述的簇标识符关联起来,然后从这些簇标识符进一步关联到满足相应术语的元组标识符。

D. 初步实验

所提出的{approach}已应用于来自UCI机器学习库( https://archive.ics.uci.edu/ml/datasets/Iris)的鸢尾花数据集,该数据集可被离散化为三个簇。描述每朵鸢尾花的四个数值维度与图6中所示的模糊划分相关联,这些模糊划分构成了专家词汇。该数据集的初始云天空如图7所示。

示意图6

五、相关工作

敏捷商业智能是近期由领域专家需要快速分析大量原始数据集并判断将其集成到企业数据集市中是否有用而引发的问题。受用户需求驱动,该问题首先得到了解决由大数据管理公司(例如,亚马逊的QuickSight、 Pentaho的敏捷BI、微软的PowerBI等)以及近期由学术界 [3],[22] 推动。敏捷商业智能方法的整体目标是从原始数据中提取有用且精确的知识,并生成可解释但通常是静态的仪表板(如Oracle的仪表板、idashboards等),通常结合使用数据挖掘 [6],[2] 和统计技术与数据可视化技术 [5]。

与许多数据到知识的转换方法一样,本文采用聚类算法[13]作为揭示数据结构的工具。我们方法的第一个特点是利用来自专家词汇的语言术语,生成关于基于聚类的数据结构的个性化知识。专家词汇在个性化方面的贡献已在多种应用环境中被充分证明是有效的,例如分面搜索[17]、协作式灵活查询[1]、数据库摘要[18],[16],[19]以及查询答案解释[15]。本研究的第二个贡献是扩展了文献[20]中提出并在[4]中进一步讨论的特异性概念,用于量化项目、语言术语和簇相对于数据结构的信息量。这些不同元素所关联的特异性程度在向专家呈现提取的知识时起着核心作用,因为它有助于识别最具信息量的元素(项目、术语、簇),从而优先突出显示。这些特异性度还用于生成术语云的结构,每个簇对应一个术语云。术语云通常用于网页中,以表示特定页面中出现术语的频率。尽管术语云在反映文档内容的代表性方面具有优势,但这种可视化技术的主要缺点在于,术语在云中的相对位置并无实际意义,而仅取决于屏幕尺寸[9]。已有研究使用软计算技术从社交网络中提取知识,并利用术语云进行可视化,其中云中每个术语对应一个与模糊集[21]相关联的语言标签。但据我们所知,此类知识可视化策略此前从未被用于解释基于聚类的数据结构,也未曾作为查询定义界面使用。

六、结论

如果一种商业智能方法能够提供直观工具,使领域专家可以自主地将原始数据转化为具有信息量的知识,则称该方法为敏捷商业智能。在本研究中,我们提出了一种新的敏捷商业智能方法,该方法基于聚类算法自动构建的数据结构,以及通过模糊划分形式化表达的专家词汇表。基于特异性概念,根据各项、语言描述和聚类相对于整个基于聚类的结构的信息量对其进行区分。为了帮助专家理解基于聚类的数据及其相关知识,系统提供了以语言术语云形式呈现的图形视图,以及一个基础但直观的查询机制,使专家能够与知识可视化工具进行交互。本研究还结合了一家小型法国IT公司工程师的意见,探讨了实现方面的问题。

目前正在解决这些问题,例如确定基于聚类的结构(关系型、NoSQL 或专用)最有效的存储模型,以及索引策略,以在查询期间高效地重新计算特异性度并重建云结构。一旦这些技术问题得到解决,领域专家(保险从业者)将利用该方法从描述事故和客户的数据集中提取知识,并期望通过这样一个实际使用案例获得关于本文所述方法的相关性和直观性的有益反馈。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值