
爬虫设计
zhiwei0701
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记一次多线程读取文件并进行URL爬取的代码设计
记一次多线程读取文件并进行URL爬取的代码设计近期入职新公司,两周内知识的输入是以往的好几倍,值得将近期学到的东西记录一下。第一个完成的任务是从HAWQ的数据表中拉取千万级别数量的URL到文件中,程序对不同URL进行爬取相关内容,爬取内容很简单,无非是文章标题、摘要等,比较复杂的是千万级别数量URL的爬取速度以及文件读取方式,保证在速度快的情况下,爬取正确率稳定在80%以上。设计思路首先需...原创 2019-05-08 00:51:23 · 536 阅读 · 0 评论 -
webmagic scheduler源码分析
webmagic scheduler源码分析项目中使用webmagic作为爬虫爬取框架,需要实现2个功能:对于一些未爬取到的URL,需要做重试机制,重复爬取,设置爬取次数,直至爬取到网页内容或者达到重试次数。用户点击停止,则停止对剩余URL的爬取。这二个功能的添加都是对scheduler模块进行改造,webmagic的scheduler模块负责管理待抓取的URL,以及一些去重的工作。W...原创 2019-07-14 17:28:13 · 542 阅读 · 0 评论