
文本挖掘
赵侠客
一个独立思考的开发者
展开
-
使用spark TF-IDF特征计算文章间相似度
写在前面计算字符串之前的相似度可以使用 Levenshtein distance(最小编辑距离)来实现,JAVA实现可以参考http://blog.youkuaiyun.com/ironrabbit/article/details/18736185,计算新闻标题间的相似度间可以使用这个算法,如果是计算整篇文章间的相似度使用更适合使用:分词–>特征提取–>向量空间–>计算向量相似度,这样的流程,本文介绍方法纯属个原创 2017-06-23 12:03:11 · 6085 阅读 · 3 评论 -
使用Spark完成基于TF-IDF特征的新闻热点聚类
写在前面互联网各个地方时时刻刻都在发生着这样或者那样的事件,如果使用人工去观察根本无法全文们的知晓哪地方发生了什么热点事件,做为主流媒体更喜欢第一时间得知热点事件的发生,好及时的紧靠热点。舆情监控的目的就是及时的得知互联网上发生的热点事件,舆情监控也是媒体大数据的一项重要工作。本文简单实现一个简单的新闻件事聚类。后期可以从各大主流媒体网站爬取数据,第隔一段时间聚类一次,如果一类报道中文章数据比较多,原创 2017-06-23 17:43:34 · 9457 阅读 · 11 评论