
python爬虫
哈丨吅
这个作者很懒,什么都没留下…
展开
-
python爬虫小白升仙_8-----初探scrapy-redis分布式爬虫
scrapy-redis分布式爬虫 爬取知乎用户信息原创 2020-02-23 18:44:12 · 602 阅读 · 0 评论 -
python爬虫小白升仙_1-----爬取笔趣阁小说
python爬虫小白升仙爬取笔趣阁小说一、思想1.使用requests库进行网页源码的获取2.使用xpath对HTML进行特定节点内容的提取3.保存数据内容到文件4.生成可执行文件.exe二、源码'''author:Kilter.wangtime:20...原创 2019-04-29 17:38:19 · 13496 阅读 · 4 评论 -
python爬虫小白升仙_3-----爬取豆瓣影评(哪吒之魔童降世)
最近看了《哪吒之魔童降世》,有搞笑,有温情,有剧情,有理念,强烈推荐,给国漫点赞。然后又在学习python爬虫,就试了下爬取其豆瓣影评涉及:1. requests请求网页2. xpath提取数据3. 爬取遇到“下一页”操作时的处理4. openpyxl将数据写入excel5. matplotlib.pyplot画柱状图和圆形分布图源码:import reque...原创 2019-08-05 19:00:32 · 1020 阅读 · 5 评论 -
python爬虫小白升仙_2-----爬取天气预报信息
目的:从中国天气网爬取城市天气预报信息,得到7天的天气信息,并存入excel中技术:requests、xpath的使用,openpyxl写入数据到excel(.xlsx),生成exe : pyinstaller -F Weather_Spider.py1. 分析网页,通过xpath获取相关数据,并对数据进行简单处理area=xml.xpath('//div[@class="cru...原创 2019-08-02 00:56:32 · 1021 阅读 · 1 评论 -
python爬虫小白升仙_4-----爬取代理IP并多线程检测IP有效性
本文实现爬取"https://www.xicidaili.com/nn/"该网站的高匿代理ip,并使用多线程进行IP有效性的检测涉及:1. requests.get添加参数headers2. 多页网页数据的爬取3. 使用xpath获取的列表为空的问题的处理4. 代理IP的有效性检测5. 多线程的简单使用,提高ip验证的效率网页信息:请求头:header...原创 2019-08-07 19:41:30 · 867 阅读 · 0 评论 -
python爬虫小白升仙_5-----初识scrapy(爬取电影天堂数据)
初识scrapyscrapy安装 创建scrapy项目 爬取电影天堂相关电影资讯 数据写入数据库mongodb 使用Robo 3T查看数据库存储的数据scrapy安装使用 pip install scrapy 命令安装创建scrapy项目1. scrapy基本流程2. 进入要创建项目的文件夹,输入scrapy startproject "项目名称" --...原创 2019-08-14 21:00:44 · 787 阅读 · 0 评论 -
python爬虫小白升仙_6-----scrapy(爬取当当网数据)
使用scrapy爬取当当网的数据,输入搜寻的关键字(如python、C++、java等),输入查询的页数,获取到书的名称、作者、价钱、评论数等信息,并下载书籍相应图片,画水平条形图直观显示热度较高的书籍涉及:1. scrapy的使用2. scrapy.FormRequest() 提交表单3. 数据保存到mongodb,数据写入.xlsx表格4. 设置referer防止反爬...原创 2019-08-27 11:23:53 · 602 阅读 · 0 评论 -
python爬虫小白升仙_7-----selenium模拟登录豆瓣网+opencv破解滑块验证码
使用selenium进行模拟登录豆瓣网,利用opencv模块获取滑块验证码的缺口,最终实现模拟登录涉及1. selenim启动360极速浏览器2. selenium获取标签、输入等的基本操作3. 获取登录相关标签时,遇iframe的解决办法3. 获取滑块验证码图片,并下载到本地4. 使用opencv模块中的"模板匹配"方法获取缺口的位置5. 采用物理加速度位移相关公式按...原创 2019-09-03 16:18:14 · 2196 阅读 · 3 评论