
爬虫
文章平均质量分 70
遥不可及梦
这个作者很懒,什么都没留下…
展开
-
西刺代理爬虫多进程改进验证有效代理IP
吐槽作为一名小白,初次写的爬虫,对于性能、耗时等等完全不在意。但是之前写的验证100个proxyIp的有效性话的时间是在无法接受470秒,在被逼无奈的情况下,用多进程改进,但是途中闹了很多笑话,这里记录一下。背景模块: 1. multiprocessing.Pool (PS:就在网上查了一下用进程池的比较多。这里就介绍一下简单的用法,详细介绍请自行查文档)def func(param):原创 2017-12-21 14:36:13 · 1402 阅读 · 0 评论 -
爬虫小白第一篇 西刺代理
爬取西刺代理流程图背景环境:python3.6模块: urllib.request(获取html)chardet(判断html的编码)bs4.Beautiful(提取代理IP)github地址(https://github.com/tonyxinminghui/spider/blob/master/xici_spider.py) 获取html难点选择用什么模块获取html西刺代理原创 2017-12-19 13:24:02 · 10455 阅读 · 0 评论