
网络爬虫
diu_brother
阿里巴巴集团 javacoder
展开
-
java 爬虫实现爬豆瓣电影数据并存入mysql数据库
很久以前写的用java爬取豆瓣电影数据的程序,使用httpclient进行网页请求,使用jsoup进行解析,注释很清楚,所以直接上代码: (1)jar包: (2)爬取类package crawl;import org.apache.http.*;import org.apache.http.client.methods.CloseableHttpResponse;import org.a原创 2016-03-12 17:18:07 · 8962 阅读 · 8 评论 -
java 爬虫使用Bloom Filter 算法实现Visited表
在生活中,包括在设计计算机软件时,经常要判断一个元素是否在一个集合中,最直接的办法就是将全部元素都存在计算机中,遇到一个新元素,将它与集合中的元素比较即可。一般来讲,计算机中的集合是使用哈希表来存储的。它的好处是快速而准确,缺点是费存储空间。当集合比较小时,这个问题不显著,但当集合非常巨大时,哈希表存储效率低的问题就体现出来了。 一种称为布隆过滤器的数学工具,它只需要哈希表的1/8到1/4的大小就原创 2016-03-13 18:42:29 · 1230 阅读 · 0 评论