
Python网络爬虫
文章平均质量分 62
Python网络爬虫实战系列
ZeroCode-py
这个作者很懒,什么都没留下…
展开
-
【Python网络爬虫】爬取疫情数据和资讯生成网页
【Python网络爬虫】爬取疫情数据和资讯生成网页原创 2022-06-05 17:50:06 · 1585 阅读 · 1 评论 -
Python网络爬虫:抓取书籍排行榜 并生成HTML网页
Python网络爬虫:抓取书籍排行榜 并生成HTML网页原创 2022-04-23 16:02:09 · 1846 阅读 · 0 评论 -
Python网络爬虫:爬取天气预报 将数据保存到文本文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取天气预报,并将数据保存到文本文件中,开始学习吧!1. 解析网页首先,来到https://www.tianqi.com/,搜索一个城市,如图:图中红框内的数据基本就是我们的爬取目标,这里我直接放出浏览器复制的XPath路径:# 目前气温/html/body/div[5]/div/div[1]/dl/dd[3]/p/b/text()# 湿度/html/body/div[5]/div/div[1]/dl/dd[4]/b[1]/t原创 2021-07-31 18:09:00 · 3000 阅读 · 1 评论 -
Python网络爬虫:编写一个查询IP的小程序
hello,大家好,我是wangzirui32,今天我们来学习如何编写一个查询IP的小程序,开始学习吧!1. 获取API首先,来到淘宝IP地址库,网址:https://ip.taobao.com,查询一个IP,并打开检查,这是我发现的API接口:打开查看详细信息,发现需要使用POST请求,提交如下表单:"ip": "IP地址""accessKey": "alibaba-inc"经测试,这个网页也支持GET请求,于是代码就简单多了。2. 编写代码from requests import g原创 2021-07-30 22:17:41 · 786 阅读 · 0 评论 -
Python网络爬虫:爬取腾讯招聘网职位信息 并做成简单可视化图表
hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧!文章目录1. 网页分析2. 获取json数据3. 转换为Excel4. 招聘城市信息可视化1. 网页分析首先来到腾讯招聘网首页,搜索“Python”,同时打开开发者工具,选择Network,发现了API请求:这个请求的网址如下:https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1626354原创 2021-07-15 21:48:33 · 3850 阅读 · 4 评论 -
Python网络爬虫:百度翻译JS解密
hello,大家好,我是wangzirui32,今天我们来学习JS解密的一个案例——百度翻译JS解密,开始学习吧!1. 解析请求参数百度翻译的链接:https://fanyi.baidu.com打开开发者工具,切换到“Network”,然后输入一些文字进行测试:图片中用红色框标注的是翻译的请求,请求表单如下:通过尝试不同的翻译内容,发现只有sign的值会变,这个值应该是根据翻译内容自动生成的。那么,sign值是如何加密的呢?这就需要深入JS代码了。2. 解析JS代码首先,我们再次加载页面原创 2021-07-14 21:04:10 · 1095 阅读 · 9 评论 -
Python番外篇:爬取腾讯新闻热点内容 并发送新闻提示电子邮件
hello,大家好,我是wangzirui32,今天来教大家如何爬取爬取腾讯新闻热点内容,并发送新闻提示电子邮件,开始学习吧!1. HTML解析腾讯网的首页为https://www.qq.com,打开“抗肺炎”专区,开始解析:这个新闻的XPath是//*[@id="tab-news-02"]/ul[1]/li[2]/a我们对这个路径稍作修改,爬取id='tab-news-02'的div标签下所有的a标签://*[@id="tab-news-02"]/ul/li/a网页分析完了,开始编写代码原创 2021-07-08 18:33:14 · 1420 阅读 · 0 评论 -
Python网络爬虫:爬取优快云博客各专栏访问量
hello,大家好,我是wangzirui32,今天我们来学习如何爬取优快云博客各专栏访问量,开始学习吧!学习目录1. HTML分析2. 编写代码3. 运行代码1. HTML分析这里以我的博客主页为例,打开https://blog.youkuaiyun.com/wangzirui32,再打开开发者工具,找到装着专栏信息的div标签:再点击其中的一个专栏,进行解析:2. 编写代码代码奉上——(不懂看注释)from requests import getfrom bs4 import Beautifu原创 2021-06-06 12:52:14 · 413 阅读 · 0 评论 -
Python网络爬虫:爬取优快云博文评论 并制作成词云图
hello,大家好,我是wangzirui32,今天来教大家如何爬取优快云博文评论,并制作成词云图。开始学习吧!1. 寻找评论源地址打开一篇博文,再打开抓包工具Network,发现源地址:我们来解析一下返回数据:{... "data":{ "list":[ {"info":{ "content":"博主不光能写的一手好代码,还能写的一手好文章。", "userName":"Rex__404", "digg":1, "diggArr":[],原创 2021-05-23 19:42:23 · 1722 阅读 · 1 评论 -
Python网络爬虫:批量下载喜马拉雅音频
hello,大家好,我是wangzirui32,今天我们来学习如何批量下载喜马拉雅音频。开始学习吧!学习目录1. 解析网站1.1 获取音频地址1.2 解析专栏网页1.3 整理亿下思路2. 编写爬取代码1. 解析网站1.1 获取音频地址在喜马拉雅网站上,随便点开一个音频,打开“开发者工具”,再点击播放按钮,可以看到出现了多个请求:经过排查,发现可疑url:查看它的响应信息,发现音频地址就在里面:接下来,解析这个返回音频地址的url:https://www.ximalaya.com/revis原创 2021-05-16 13:13:16 · 3876 阅读 · 8 评论 -
Python:获取心知天气API实时天气数据 制作弹窗提醒程序 并设置成自启动项目
hello,大家好,我是wangzirui32,今天我们来学习如何获取心知天气API实时天气数据,制作弹窗提醒,并设置成自启动项目。开始学习吧!1. 心知天气API密钥获取首先,访问https://www.seniverse.com,进行登录或者注册操作,然后在控制台上创建一个免费版的项目,创建后,项目信息为:复制你的私钥信息,来到官方文档,发现API地址为:在文档中,可以看到查询的API网址,接下来,把url中的参数key改为你的密钥,访问,返回的json数据:2. 编写代码代码如下:原创 2021-05-15 21:17:30 · 2107 阅读 · 3 评论 -
Python:百度智能云AI(baidu_aip模块)识别图像文字
hello,大家好,我是wangzirui32,今天来教大家如何使用百度智能云AI识别图像文字,开始学习吧!文章目录1. 创建应用2. 编写代码1. 创建应用首先点击https://login.bce.baidu.com/登录,再在管理中心中,找到产品服务中的文字识别,创建应用:点击“立即创建”,可以看到应用列表多了一个应用:2. 编写代码写代码之前,要先安装baidu_aip模块,命令:pip install baidu_aip然后准备示例图像:编写代码:from aip imp原创 2021-05-09 12:41:31 · 2501 阅读 · 1 评论 -
Python网络爬虫:爬取优快云热搜数据 并保存到本地文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取优快云热搜数据,并保存到Excel表格中。开始学习吧!学习目录1. 数据包抓取2. 编写代码1. 数据包抓取打开优快云首页,再打开检查(或为审查元素,各大浏览器不同,笔者用的是FireFox浏览器),点击“网络”(或是Network),再点击搜索框,可以看到出现了4个请求:经过分析,发现网址为:https://silkroad.youkuaiyun.com/api/v2/assemble/list/channel/pc_hot_wor原创 2021-05-02 21:08:08 · 1727 阅读 · 7 评论 -
Python网络爬虫:50行代码爬取优快云博客文章列表 并将点赞评论等数据存储到Excel表格
hello,大家好,我是wangzirui32,今天我们来学习如何爬取优快云博客文章列表,并将数据存储到Excel里。开始学习吧!(Tips:本节课有点复杂,请耐心学习!)学习目录前言1. 网页代码分析2. 编写代码写在最后前言最近,我想看看自己博客文章的情况,但是又懒得一个又一个去翻,于是,我决定要使用Python爬虫来获取博客的情况。1. 网页代码分析下面我们要爬取很多数据,于是,我用两张图来代替解释:2. 编写代码根据上面的分析编写代码:# -*- coding: utf-8 -原创 2021-04-09 22:26:53 · 738 阅读 · 4 评论 -
Python网络爬虫:35行代码爬取桌酷壁纸图片 并存储到本地文件夹
hello,大家好,我是wangzirui32,今天我们来学习如何爬取桌酷壁纸图片,并存储到本地文件夹。开始学习吧!学习目录1. 桌酷网站分析1.2 网址分析1.3 HTML源码分析2. 编写爬取代码3. 展示结果写在最后1. 桌酷网站分析1.2 网址分析桌酷壁纸网站的链接为https://www.zhuoku.org/,首先,单击页面上的搜索文本框,随便输入些什么,比如这里笔者输入“天空”,导航栏的地址变为:https://www.zhuoku.org/search/天空这样就好理解了,只原创 2021-04-09 19:22:12 · 636 阅读 · 1 评论 -
Python番外篇:爬取国际空间站实时经纬度 并用Pygame可视化位置
hello,大家好,我是wangzirui32,今天在网上看到一个Python程序,是爬取国际空间站实时经纬度并显示到地图上,我自己也想学习做一个这样的项目,顺便巩固亿下Python的基础知识。学习目录1. 国际空间站经纬度查询网址2. 图片素材3. 创建项目文件夹4. 编写代码get_data.py 获取经纬度数据ISS.py 创建空间站对象show_map.py 显示ISS位置5. 展示结果1. 国际空间站经纬度查询网址http://api.open-notify.org/iss-now.jso原创 2021-04-05 11:39:42 · 1943 阅读 · 7 评论 -
Python网络爬虫&模块介绍:fake-useragent模块快速生成User-Agent信息
hello,大家好,我是wangzirui32,今天我们来学习如何使用fake-useragent模块快速生成User-Agent信息。开始学习吧!1. pip 安装在命令行中输入:pip install fake-useragent如果没有报错,打开一个Python文件,输入:import fake_useragent没有报错则安装成功。2. 生成请求头我们先来打印一下随机生成的请求头:from fake_useragent import UserAgentprint(User原创 2021-04-02 21:13:59 · 906 阅读 · 1 评论 -
Python网络爬虫:某度地图API获取城市餐厅数据 并提取内容展示结果
hello,大家好,我是wangzirui32,最近笔者的文章总访问突破1万了,这一路来感谢大家的支持,谢谢!这也是我的第60篇原创博文,希望你能认真的学习完它。开始学习吧!1. 百度API接口1.1 注册或登录账户百度地图提供了一系列API接口,供开发者使用。首先,你需要去https://passport.baidu.com/v2/?reg注册一个账户,如果你已经有了一个账户,可以点击https://passport.baidu.com/v2/进行登录。然后,你需要输入开发者资料,就可以创建自原创 2021-04-02 19:39:56 · 1964 阅读 · 2 评论 -
Python网络爬虫:爬取并下载个性化签名图片 附GUI窗体版
Hello,大家好,我是wangzirui32,最近我开了个新的系列,是“Python网络爬虫”分类,还请大家多多支持!今天,我们来学习如何爬取并下载个性化签名图片,开始学习吧!学习目录1. 分析网页1.1 网址1.2 分析表单1. 分析网页1.1 网址这里要爬取的网站为www.uustv.com,这是一个可以制作个性化签名的网站。1.2 分析表单如图:字体大小标签和字体风格标签里...原创 2021-03-27 13:43:15 · 419 阅读 · 0 评论 -
Python番外篇:爬取优快云作者排行榜数据
今天,又双叒叕是番外篇,我们来爬取优快云作者排行榜上的数据。1. 确定数据源首先,排行榜的网页链接是https://blog.youkuaiyun.com/rank/list/total:打开“查看网页源代码”,会看到:里面根本没有排行榜数据,我认为,这是因为优快云网站使用了AJAX技术,这种技术通过后台与服务器进行少量的数据交换就可以使网站实现异步更新,减少了网站重复内容的下载,也节省了网站的流量。简单来说,AJAX技术就可以直接加载或更新网页的一部分,而不是为了更新某个动态数据重新加载整个页面。那原创 2021-02-03 20:41:33 · 869 阅读 · 2 评论 -
Python番外篇:网络爬虫组词程序
今天,双是番外篇,这次番外篇主要教大家如何用网络爬虫查询词语。1.确定数据源首先,我们得找一个查询的数据源,我找到了360国学网站,选择“词语大全”,它的查询词语网址为:https://guoxue.baike.so.com/query/index/这后面得加上亿些参数:type = phrasetext = 圆组词word_inc = 圆2. 给请求添加数据源网址参数用word来代替“圆”,写成Python字典:word = input("请输入你想组词的字:")key_dic原创 2021-01-24 21:07:41 · 970 阅读 · 3 评论 -
Python:第三方库BeautifulSoup4 解析HTML网页
今天,我们将用Python的pip,安装下载一个第三方库BeautifulSoup4,它可以帮助我们分析HTML网页的内容。1.安装BeautifulSoup4模块在Windows系统下,打开一个cmd命令提示符,输入:pip install BeautifulSoup4如果没有出现错误信息,则打开一个Python文件,输入:import bs4运行代码,没有报错就说明成功安装。2.使用BeautifulSoup4模块from bs4 import BeautifulSoup 以上代原创 2021-01-24 20:00:49 · 1403 阅读 · 1 评论 -
Python:第三方库requests 发起网络请求
今天,我们将用Python的pip,安装下载一个第三方模块requests,它可以帮助我们发起网络请求。1.安装reqeusts模块在Windows系统下,打开一个cmd命令提示符,输入:pip install requests如果没有出现错误信息,则打开一个Python文件,输入:import requests运行代码,没有报错就说明成功安装。2.使用reqeusts模块2.1 get方法2.1.1 普通请求import requestsr = requests.get("htt原创 2021-01-24 17:28:33 · 808 阅读 · 2 评论 -
Python番外篇:爬虫查询IP地址经纬度,时区等信息
hello,大家好,我是wangzirui32,今天我们来学习如何查询IP地址经纬度,时区等信息。1. 数据来源网址:http://ip-api.com/json/xxx.xxx.xxx.xxx?lang=zh-CN这是一个API接口,你可任意时刻调用它。2. 编写代码输入代码:(不懂看注释)from requests import getfrom json import loads# 伪造请求头headers = { "User-Agent": "Mozilla/5.0 (原创 2021-03-21 18:35:58 · 724 阅读 · 0 评论 -
Python番外篇:爬取优快云博文中所有的代码
hello,大家好,我是wangzirui32,今天我们来学习如何爬取优快云博文中所有的代码。1. 分析网页源码如图:2.编写代码代码如下:(不懂看注释)# 导入所需模块from requests import getfrom bs4 import BeautifulSoup as bsimport re # 正则表达式模块# 伪造请求头headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Ne原创 2021-03-21 17:54:27 · 596 阅读 · 3 评论 -
Python番外篇:自动下载你所有粉丝的头像图片(requests + urllib)
Hello,大家好,我是wangzirui32,今天我们来学习如何爬取并下载你所有粉丝的头像图片。1. 分析粉丝列表1.2 数据接口经过我的分析,发现粉丝列表是通过js脚本加载生成的,那它必然会访问一个数据接口,这个接口经过查找,为:https://blog.youkuaiyun.com//phoenix/web/v1/fans/list?blogUsername=你的用户名访问这个接口就可以获取某个用户所有的粉丝数据。1.3 分析数据接口这里我直接放图片,不懂的可以在评论区讨论:2. 编写代码首原创 2021-02-28 18:27:44 · 284 阅读 · 0 评论 -
Python:教你如何下载网络上的文件
大家好,我是wangzirui32,今天来教你如何使用urllib模块下载网络上的文件。1. 确定要下载什么这里我选择了优快云官网的图标,图片链接为https://img-home.csdnimg.cn/images/20201124032511.png,就是下面的图片:2. 编写代码from urllib.request import urlopen# 图片urlurl = "https://img-home.csdnimg.cn/images/20201124032511.png"原创 2021-02-28 16:53:52 · 1371 阅读 · 1 评论 -
Python番外篇:selenium+matplotlib 爬取天气预报 制作温度折线图
hello,大家好,我是wangzirui32,今天我们来学习如何使用=selenium+matplotlib来爬取天气预报,并制作未来气温折线图。先来看看成品:好了,看到了我们的成果,相信你会更有学习的动力的!开始学习吧!学习目录1. 爬取天气数据并存储到json文件中1.2 数据来源1.3 分析天气预报网页1.4 编写爬取代码2. 读取数据并使用matplotlib制作图表写在最后1. 爬取天气数据并存储到json文件中1.2 数据来源这里使用的数据来源为中国天气网(www.weather原创 2021-02-19 20:57:52 · 1728 阅读 · 2 评论 -
Python番外篇:使用selenium实现优快云自动签到
今天,我们来学习使用selenium实现优快云自动签到,开始学习吧!1. 登录登录就不多说了,在我的Python番外篇:使用selenium自动登录优快云文章中。2.自动签到2.1 签到按钮HTML源码首先,我们访问签到页面,找到签到按钮的HTML源码:可以看到,签到按钮是一个class属性为btn btn-primary标签。2.2 编写代码from selenium.webdriver import Firefoxfrom time import sleepdef csdn_l原创 2021-02-18 20:46:42 · 287 阅读 · 1 评论 -
Python番外篇:使用selenium给优快云博文自动点赞
大家好,我是wanzirui32,今天我们来学习如何使用selenium给优快云博文点赞。1. 登录优快云登录在上一篇文章就已经介绍过,不知道的可以去看看哦!2.点赞2.1 分析这里拿我的一篇文章分析:根据上面的分析,我们可以写一段代码。2.2 编写代码代码:(不懂的看注释)from selenium.webdriver import Firefoxfrom time import sleepdef csdn_login(driver, username, password):原创 2021-02-18 14:49:54 · 187 阅读 · 0 评论 -
Python番外篇:使用selenium自动登录优快云
hello,大家好,我是wangzirui32,今天我们来学习如何使用selenium自动登录优快云。1. 登录页面分析首先我们打开登录页面,开始分析:我们要点击“账号密码登录”进行登录,它的HTML源码为:然后,我们来分析登录的用户名框和密码框:![密码HTML源码](https://img-blog.csdnimg.cn/20210218135842596.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_1原创 2021-02-18 14:21:52 · 376 阅读 · 0 评论