
文本挖掘
beneo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。 [color=blue][size=large]第一步:搭建hadoop平台。[/size][/color] 我使...2011-09-23 22:37:50 · 259 阅读 · 0 评论 -
最最最简单的URL聚类
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL [color=blue][size=large]第一步:提取http链接[/size][/color] 使用 Jsoup 来做 [code="java"] Document doc = Jsoup.parse(stream.getText()) Elements links = d...2011-09-23 22:57:36 · 1021 阅读 · 0 评论 -
mahout vector 的产生方式
根据[url=https://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text]wiki[/url] [size=medium]mahout 产生 vector 的方式有2种:[/size] [color=blue][size=large]#1 from lucene index to vect...原创 2011-09-27 08:28:37 · 206 阅读 · 0 评论