高效挖掘高实用项集及社交网络事件检测
1. HUIStream算法处理交易删除
在处理数据流中高实用项集挖掘时,HUIStream算法在删除交易后,会找出需要更新的闭twu项集以及所有HTWU项集。具体步骤如下:
- 确定需更新的闭twu项集 :删除交易后,需更新的项集是被删除交易TDEL的子集,因为删除交易后,TDEL子集的twu值会降低。通过对TDEL和删除交易前的所有闭twu项集求交集,可得到需要更新的闭twu项集。为避免交集为空,HUIStream仅对TDEL和SET({TDEL})中Cid对应的闭twu项集求交集。
- 记录需更新的闭twu项集 :将需要更新的闭twu项集记录在临时表TempDEL中,该表包含三个字段:DItemset记录需要更新的闭twu项集X;C1记录删除交易前X的Cid;C2记录可用于判断删除交易后X是否仍是闭twu项集的信息。首先将TDEL放入TempDEL的第一条记录,并将对应的C1和C2设为0。
- 更新闭表内容 :根据TempDEL表更新闭表内容。对于TempDEL中的每条记录,从闭表中获取Cid为p和q的闭twu项集的twu值。若X的twu值减去TDEL的tu值等于0,则从闭表中移除Cid为p的项集X;若Cid为q的项集Y不是项集X,且X的twu值减去TDEL的tu值等于Y的twu值,则删除交易后X不再是闭twu项集。若删除后X仍是闭twu项集,则更新闭表中X的twu值和X中每个项的效用。若删除交易前X不是闭HTWU项集,但删除后是,则找出X的所有Equal TWU项集。
例如,当删除交易T1 = {CE}时:
超级会员免费看
订阅专栏 解锁全文
1128

被折叠的 条评论
为什么被折叠?



