文本挖掘-词的发现

最新推荐文章于 2022-03-10 10:33:49 发布

原创最新推荐文章于 2022-03-10 10:33:49 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据挖掘专栏收录该内容

0 篇文章

订阅专栏

最近开始关注一些数据挖掘的东东，大概了解了一下文本挖掘中词发现的方法，呃，原来是介个样子滴。。。

一. 对“疑似词”需要计算下列数值

（1）出现频度；

（2）凝固度；

即，字组合在一起的概率有多大。

例如：

“吹风”，出现的概率为p1, “机”，出现的概率为p2，“吹风机”，出现的概率为p3

如果“吹风”和“机“没有关系，那么，它的出现概率，应该为 p1*p2左右，但如果p1*p2 远远小于 p3，就说明”吹风机“更有可能是个词

词的切分方式不同，计算出的凝固度也不会相同，因此，需要尝试各种切分方式。

例如：”吹风机“，”吹“+”风机“， ”吹风“ + ”机“

（3）左邻右邻集合的信息熵；

信息熵用来表征事件有多随机；

词的左右邻集合的信息熵越大，也就说明词在运用上的自由度越大，该”疑似词“也越有可能是一个词。

二. 计算方法

（1）先确定一个可接受的词的长度d，如，5；

（2）列出语料的所有后缀串，取前面d+1个字，然后按字典排序；

（3）每个串的，2~d个字，做为”疑似词“，计算它们出现的频率，及右集合的信息熵；

（4）将语料倒叙，按照step 2 ~ step 3 再做一遍，计算出左邻集合的信息熵；

（5）对频度和左右邻信息熵超过阈值的词做词切分，计算凝固程度，符合条件的，你别动，说的就是你，是个词。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。