参考链接:
《互联网时代的社会语言学:基于SNS的文本数据挖掘》
python简单实现新词发现
实现的模块主要分为四个部分:
从文章中提取所有可能出现的候选词。
计算每一个词的聚合度。
计算每一个词的左临熵和右临熵,即:自由度。
通过聚合度和左右临熵的分值组合来对一个候选词进行打分。
下面苏神的改进方案:使得新词发现的计算量大大降低
【中文分词系列】 2. 基于切分的新词发现
基于今日头条开源数据的文本挖掘
分享一次专业领域词汇的无监督挖掘(电力)
从文本中自动提取关键词和摘要