
爬虫
文章平均质量分 54
D_ry
Don't repeat yourself.
展开
-
python爬虫实战:爬取王者荣耀英雄背景故事
准备工作:python,scrapy英雄列表https://pvp.qq.com/web201605/herolist.shtml使用网页打开该网站,按F12进入开发者模式,点击network选项,刷新网页。可以发现一个包含了所有英雄名字的json文件,其中乱码是因为解码问题。复制该链接并访问,可以得到如下文件:点击页面中某一英雄,进入详情页:可以看到艾琳的英雄id为155,在之前的json文件中搜索155:进一步点击背景故事按钮,可以得到该英雄的背景故事。所以可以得知,我们只需要知道原创 2021-06-17 21:16:03 · 1291 阅读 · 10 评论 -
python使用代理IP访问网络爬取数据
示例1:Python 3.X HTTP代理调用·爬虫(动态)代理IP'''Python 3.x描述:本DEMO演示了使用爬虫(动态)代理IP请求网页的过程,代码使用了多线程逻辑:每隔5秒从API接口获取IP,对于每一个IP开启一个线程去抓取网页源码'''import requestsimport timeimport threadingfrom requests.packages...原创 2020-03-04 21:18:23 · 1863 阅读 · 0 评论 -
史上最全航班号,航班信息爬虫,飞常准
有一个爬航班信息的需求,在飞常准网站上可以得到一个航班列表,里面有6000个航班号,但经过测试后发现这个列表不全,导致爬取的数据缺失严重,经过长时间的收集,最终得到了一份更全面的航班号,虽然还是没有达到全部覆盖,但已经是能找到最全的了,共10931个航班号,且基本有效,最终爬取到了9747个航班信息。分享一些经验:飞常准网站上航班信息中实际起飞和到达时间是一张图片,通用的思路是将图片下载下来...原创 2020-02-29 14:27:13 · 5434 阅读 · 5 评论 -
爬虫实战:使用requests库爬取12306余票信息
最近看了一些爬虫的资料,试着自己写了一个小爬虫,爬取12306的余票信息。代码很少,也没做什么优化,仅记录一下第一个爬虫。思路分析:查询余票的正常步骤肯定是打开12306,输入出发地,目的地,出发时间,点击查询。根据这个步骤,一步一步开始:1.首先来到https://kyfw.12306.cn/otn/leftTicket,输入出发地等信息,点击查询,通过浏览器F12抓包分析可以发现,车站...原创 2019-02-21 15:07:48 · 949 阅读 · 1 评论 -
爬虫实战:爬取豆瓣TOP250电影信息
直接上代码,主要2个函数,一个是获取每个电影的详情页URL的函数,一个是处理电影详情页数据的函数。import requestsfrom bs4 import BeautifulSoupimport timestart_url = 'https://movie.douban.com/top250'movie_url = []#连接太多会被拒绝,限制在5个requests.adap...原创 2019-03-13 22:56:32 · 1066 阅读 · 0 评论 -
爬虫实战:爬取前程无忧(51job)python相关职位信息
import requestsfrom bs4 import BeautifulSoupimport reimport timerequests.adapters.DEFAULT_RETRIES = 3strat_url = 'https://search.51job.com/list/030000%252C00,000000,0000,00,9,99,python,2,1.html'...原创 2019-03-27 13:09:14 · 1270 阅读 · 0 评论 -
使用2句python代码获取微博热搜榜表格版
1.首先导入requests和pandas两个库。2.定义ua,找到微博热搜榜的网址https://s.weibo.com/top/summary?cate=realtimehot3.将获取到的html通过read_html方法得到其中的表格数据,read_html方法返回一个表格类型的列表,因为只有一个表格,我们取第一个就好。import requestsimport pandas as...原创 2019-04-06 23:13:21 · 482 阅读 · 0 评论