
Web Data Mining
文章平均质量分 79
fxjtoday
这个作者很懒,什么都没留下…
展开
-
海量文档查同或聚类问题 -- Locality Sensitive Hash 算法
考虑一下这个场景, 使用网络爬虫高速爬取大量的网页内容, 如果想把这些网页进行实时聚类, 并从中提取每个网页聚类的主题. 我们应该怎么样去做对于普通或常见的聚类算法, 比如K-means, 或Hierarchical 聚类, 无法适用于这个常见, 对于这些聚类算法无法进行incremental 聚类, 即在聚类开始前必须知道整个数据集, 而这个场景中的数据集是随着爬虫不断增多的. 而且这些聚类算法的performance 不够高, 比如对于K-means 需要不断的partition 以达到比较好的聚类效原创 2011-02-22 15:56:00 · 10062 阅读 · 2 评论 -
decruft(A library to extract meaningful data from a webpage) 源码分析
开源Python模块, http://code.google.com/p/decruft/ decruft使用example, from decruft import Document #import urllib2 #f = urllib2.open('url') f = open('index.html', 'a') print Document(f.read()).summary() 分析一下summary的实现, 总体来说并没有什么复杂的理论, 主要就是根据段落中的word number, link原创 2011-04-13 11:33:00 · 3586 阅读 · 0 评论 -
boilerpipe(Boilerplate Removal and Fulltext Extraction from HTML pages) 源码分析
开源Java模块boilerpipe(1.1.0), http://code.google.com/p/boilerpipe/ 使用例子, URL url = new URL("http://www.example.com/some-location/index.html"); // NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you String text = ArticleExtractor.IN原创 2011-04-13 13:30:00 · 7389 阅读 · 0 评论