词汇挖掘和新词发现

参考链接:
《互联网时代的社会语言学:基于SNS的文本数据挖掘》
python简单实现新词发现
实现的模块主要分为四个部分:
从文章中提取所有可能出现的候选词。
计算每一个词的聚合度。
计算每一个词的左临熵和右临熵,即:自由度。
通过聚合度和左右临熵的分值组合来对一个候选词进行打分。

下面苏神的改进方案:使得新词发现的计算量大大降低
【中文分词系列】 2. 基于切分的新词发现
基于今日头条开源数据的文本挖掘
分享一次专业领域词汇的无监督挖掘(电力)
从文本中自动提取关键词和摘要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值