
python 爬虫
文章平均质量分 52
kong050kong
这个作者很懒,什么都没留下…
展开
-
Python3 requests爬取代理IP并验证可用性(附多线程模式)
简要介绍:使用python3 环境,需要自己安装的包有 requests (网址请求,获取页面信息)和 Lxml(页面解析,信息提取) 。首先确定从何处获取 “IP”,本人此次爬取的是西刺网的免费IP代理。大概流程:请求有免费IP的网址(本次使用“http://www.xicidaili.com/nn/”) 获取网址的页面信息 从已经获得的页面信息中,提取有用的...原创 2018-07-22 15:05:48 · 4481 阅读 · 0 评论 -
scrapy TypeError: Object of type 'PangciItem' is not JSON serializable
json序列化问题发现不用重写 json.JSONEncoder今天写爬虫处理 item 时使用ubuntu16.4,python3 ,scrapy 报出错误: TypeError: Object of type 'PangciItem' is not JSON serializable是 json序列化问题,然后自己在网上查,大部分的解决方法是自定义类并重写 js...原创 2018-09-15 23:38:51 · 2765 阅读 · 1 评论 -
python3 requests多线程爬取xici 代理ip并验证
使用环境 Python3使用到的库requests,lxml,threading,queue,time需要额外安装的库requests ,lxml安装命令pip install requests lxml 开始爬虫工作流程:1. 构造 URL 列表2. 获取 URL 响应页面 3. 提取页面有用数据 4. 保存数据5. 清洗数据上代码import requ...原创 2019-03-28 14:57:45 · 727 阅读 · 0 评论 -
python3 selenium 登录douban,获取cookie
selenium登录豆瓣流程:1. 进入豆瓣登录页面2. 切换到**子框架**,定位**用户,密码**输入框. 并输入数据,再**定位登录**按键,点击登录.3. 返回登录成功后的cookies,4. 关闭驱动浏览器.遇到的问题:开始定位登录框总是失败. 程序报错==selenium.common.exceptions.NoSuchElementException: Messa...原创 2019-04-02 15:18:57 · 1163 阅读 · 0 评论