
爬虫研究心得
liuyawen44
这个作者很懒,什么都没留下…
展开
-
基于Mongodb OPIC策略 布隆过滤器 Jsoup Crawler4j源码自己写的一个爬虫框架
本人大三学生,最近突然对爬虫感兴趣,于是搜了搜Github 找到了一个比较简单的爬虫框架Crawler4j当然我是学JAVA的,读了好久源码,想尝试着修改一下,写一个比较简单的自己的框架。当然,里面有很多抄袭的源码,更重要的抄袭了大神的思想,,但毕竟是学习,以提高自己能力为主,自己动手改一改,至少是把源码读懂了七七八八吧。。而且自我感觉多读源码对自己的编程能力还是有提高的。。原创 2016-10-11 14:28:49 · 1096 阅读 · 0 评论 -
mongodb 使用心得
最近刚开始学MongoDB 想用它写一个爬虫,但是构建URL优先级队列的时候卡住了我,,好像BerkeleyDB存储的时候可以根据key自动排序,这样想要的数据会很容易取到,,(没有亲身实践过,并不太清楚,只是看了博客)但是MongoDB是不可以的,它默认的好像是按照插入时间排序,,,然而为了取出优先级比较高的URL,我不得不每次做排序并且Limit(n)返回数据,,但是尤其在多线程大数据下尤其影原创 2016-10-02 22:09:43 · 460 阅读 · 0 评论