利用贝叶斯网络实现数据立方体:NetCube的原理与应用
1. 贝叶斯网络的优势
在数据领域中,当存在独立性时,使用贝叶斯网络(BN)而非全联合概率表具有显著优势:
- 存储节省 :若领域变量间存在足够多的独立性,原本因规模过大而难以表示的领域也能通过BN进行有效表示。例如,对于包含大量变量的领域,全联合概率表所需的存储量会呈指数级增长,而BN可大幅减少存储需求。
- 独立性的清晰直观表示 :通过BN的图形表示,能轻松确定感兴趣的量在统计上依赖于哪些变量,哪些变量无关以及在何种条件下无关。边的省略表明领域中变量间存在条件独立性。
不过,如果领域中的所有变量在统计上都相互依赖,使用BN就没有存储优势,因为网络规范所需的存储量与属性数量呈指数关系。幸运的是,在实际应用中,数据挖掘中最有趣的领域往往存在大量的独立性。
以图2(b)为例,DataCube需要存储20个基本计数,而对应的BN仅需6个概率条目。虽然在这个特定示例中,存储节省并不显著,但对于包含数十或数百个变量的大型稀疏网络,存储节省会呈指数级增长。对于n个属性,DataCube需要存储2n个计数表,每个表的大小等于其所包含属性的基数之积(减一)。以目前的技术,无法存储包含数百个变量的全联合表,但如果存在足够多的条件独立性,这样的领域可以用贝叶斯网络简洁地表示。
贝叶斯网络的一个有趣应用是Getoor等人(2001)提出的方法,他们使用贝叶斯网络的关系扩展——概率关系模型,来估计“select”或“select - join”数据库查询的大小(即匹配记录的数量),这对于在执行查询前找到最优查询执行计划非常有用。
NetCube:用贝叶斯网络实现数据立方体
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



