6、文本数据挖掘中的词关联模式与最大一致性问题

文本数据挖掘中的词关联模式与最大一致性问题

引言

数据挖掘自20世纪90年代初兴起,旨在从大规模数据库中发现有价值的“关联规则”。关联规则是一种前提条件和目标条件之间的蕴含关系,如果数据库中的一条记录满足前提条件,那么它很可能也满足目标条件。为了找到所有符合条件的规则,数据挖掘工具需要用户提供正整数支持度和置信度比率,然后搜索那些满足规则的记录数超过支持度,且该记录数与满足前提条件的记录数之比大于置信度的关联规则。

目前,针对结构良好的数据库,如具有布尔或数值属性的关系数据库,已经有了大量的研究成果。然而,随着测量和传感技术以及网络基础设施的发展,弱结构数据库(如文本数据库和SGML/HTML存档)的规模和种类迅速增加,这也催生了对这类数据库数据挖掘工具的潜在需求。但在这方面的研究成果还比较少,实现这些工具的一个难点在于,工具不仅要快速处理以找到规则,还要在运行时构建定义规则的属性或结构。

我们的目标是开发一种高效的文本数据库数据挖掘工具。为此,我们引入了最优模式发现框架,专注于寻找与给定目标条件形成关联规则且置信度最大的前提条件。这个问题可以表述为:给定一组文本及其二进制标签函数,找到一个条件,使得该条件对文本的分类与标签函数的分类在最多数量的文本上达成一致,我们称之为最大一致性问题。该问题的互补版本,即最小不一致性问题,与计算学习理论中的不可知PAC可学习性框架相关。

词关联模式

作为文本上的条件,我们考虑词关联模式 $\pi = (p_1, …, p_d; k)$,它由字符串序列 $p_1, …, p_d$ 和正整数间隔 $k$ 组成。如果文本中每个字符串按照给定顺序且在指定距离 $k$ 内出现,则该模式匹配该文本。这种模式扩展了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值