自动取词,并提取大文本的关键字

本文介绍了一个利用Python实现的程序,该程序能够自动从文本中提取词语并使用TF-IDF算法提取文档的关键字。通过分析关键字,可以了解不同QQ群讨论的主要内容。程序详细说明了如何自动组成词语和提取关键信息,包括对《互联网时代的社会语言学:基于SNS的文本数据挖掘》一文的引用。

本人用QQ机器人记录QQ群的信息,并通过每个人的对话自动获取大家关注的话题,从而知道群友喜欢讨论什么。于是实现了本程序:http://www.oschina.net/code/snippet_1180874_23462

不过在自动组词的时候用的算法颇有爆力的感觉,需要很多地方进行优先。但是本人用c/c++的多,python用得少,不知道哪位仁兄帮我实现一个更好的版本!

程序具体功能是:

1、自动从一大段文本中提取可能组成的词语。
2、通过输入多个文档,通过tf-idf算法自动提取各种文档的关键字。
3、通过提取关键字可以得到不同的QQ群讨论的主要内容。
关于第一条的原理说明请参考《互联网时代的社会语言学:基于SNS的文本数据挖掘》http://www.matrix67.com/blog/archives/5044

转载于:https://my.oschina.net/dancing/blog/150000

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值