
爬虫
文章平均质量分 75
#爬虫 #二次学习 #回炉重造 #进阶
chaser&upper
西电CS研究生,优快云专家博主&人工智能领域优质创作者,全网粉丝20w+,热爱生活,喜欢分享,欢迎您与我交流!商务合作,请私信沟通。
展开
-
Python爬虫入门180分钟轻松获取疫情数据
【代码】Python爬虫入门180分钟轻松获取疫情数据。原创 2023-08-18 08:57:17 · 311 阅读 · 0 评论 -
你还在担心期末复习没有题目做?爬虫帮帮你
你还在为期末复习没有题目做?前言题库刷题暴力输出结果展示前言数据分析期末复习,因为是学校第一年考试,只能去互联网上找题啦!给大家推荐一个宝藏级的考试系统,里面有各种计算机科目的练习题,可以直接在上面答题练习,也可以像我一样暴力输出。题库刷题暴力输出暴力爬取全部题目信息及答案!"""@Author: ZS@优快云 : https://zsyll.blog.youkuaiyun.com/@Time : 2021/12/3 20:15"""import requestsimport原创 2021-12-03 22:07:36 · 1068 阅读 · 0 评论 -
【搞到你手软】Selenium 自动化访问优快云大牛的全部文章
Selenium自动化访问优快云大牛的全部文章1. 获取数据2. 初始化3. 自动化测试4. 完整代码5. 结果展示1. 获取数据请参考:【爬虫数据抓包】获取指定优快云博主的全部文章信息2. 初始化def __init__(self, path): # 获取driver驱动 self.driver = webdriver.Chrome() # 获取工作表 self.ws = openpyxl.load_workbook(path).active3.原创 2021-10-02 16:03:11 · 312 阅读 · 0 评论 -
【Scrapy框架实战】爬取网易严选-苹果12手机热评
Scrapy爬取网易严选-苹果手机热评1. 前言2. Scrapy项目创建3. 网页分析4. 发送请求5. 提取信息6. 模拟翻页7. 数据保存8. 结果展示9. 数据分析1. 前言Iphone13出来了,但是Iphone12依然香啊!好不好,我们去网易严选看看便知~~紫色的太可爱了!所以我们今天的目标就是使用Scrapy抓取网易严选Iphone12评论数据,看看到底值不值得入手!2. Scrapy项目创建在你想存放项目的路径下,打开终端:scrapy startproject app原创 2021-09-29 20:30:32 · 921 阅读 · 2 评论 -
【爬虫实战】国家企业公示网-运行效果
国家企业公示网-运行效果0. 首页--接口/说明文档1. 启动爬虫2. 访问手动打码页面3. 打码后返回页4. 查询结果4.1 抓取中4.2 抓取成功4.3 抓取失败5. 静态文件夹0. 首页–接口/说明文档1. 启动爬虫127.0.0.1:5000/company?company_name=2. 访问手动打码页面127.0.0.1:5000/crack_captcha?token=3. 打码后返回页4. 查询结果127.0.0.1:5000/result?token=原创 2021-08-29 11:10:54 · 611 阅读 · 0 评论 -
爬虫阶段性总结
爬虫阶段性总结requests模块使用cookie参数保持会话超时参数timeout的使用代理的使用verify参数和CA认证postsession数据提取jsonpathxpathjs解析Scrapy完成爬虫流程保存数据crwalspider中间件的使用方法分布式爬虫分布式爬虫总结手刃JDScrapy_splashrequests模块resonse.content.headers:响应头resonse.headers:请求头Set-Cookie:即是Cookie值response.cookies原创 2021-08-29 11:10:26 · 463 阅读 · 0 评论 -
【爬虫实战】国家企业公示网-crawler爬虫抓取数据
crawler爬虫实现1. crawler功能2. crawler代码实现3. 完成后的项目文件结构4. 后续可以继续完善学习目标了解 crawler爬虫运行流程了解 crawler爬虫模块实现1. crawler功能初始化driver输入公司名称,并点击判断是否需要验证如果需要验证,获取验证图片并保存获取打码坐标点击验证图片判断查询结果选择第一条查询结果获取主要信息保存数据页面向redis中发送信息对失败情况进行保存,关闭driver,推送失败信息组织抓取逻辑,原创 2021-08-29 11:10:10 · 2006 阅读 · 1 评论 -
【爬虫实战】国家企业公示网-node_server节点任务调度
node_server节点任务调度实现1. node_server节点任务调度的功能2. node_server代码实现3. node_server可拓展功能3.1 负载均衡3.2 服务注册与节点心跳3.3 开启多任务执行crawler爬虫学习目标:了解 节点任务调度模块的功能和实现1. node_server节点任务调度的功能轮询gsxt_token队列,取出token根据token从gsxt_task:token中读取任务信息启动爬虫并传递参数2. node_server代码实原创 2021-08-29 11:09:57 · 491 阅读 · 0 评论 -
【爬虫实战】国家企业公示网-webapi实现
webapi代码实现1. quart框架1.1 介绍1.2 安装1.3 文档2. 代码实现2.1 webapi.py2.2 static.py学习目标:了解 quart框架了解 各个接口的功能1. quart框架1.1 介绍quart是基于Asyncio的Python微框架。它志在让开发者能够在Web开发中很容易地得到Asyncio带来的好处。它对Flask应用的支持最好,它和Flask拥有相同的API支持 HTTP/1.1,HTTP/2 和 Websockets扩展性很强,并支持很原创 2021-08-29 11:09:32 · 685 阅读 · 0 评论 -
【爬虫实战】国家企业公示网-项目分析
国家企业公示网项目分析前言1. 确定抓取流程,确定数据位置1.1 网站首页1.2 行为验证图片1.3 选择列表页中第一个公司1.4 确定数据位置1.5 保存数据页面2. 项目代码组件3. 消息中间件(消息总线)3.1 token队列3.2 任务详情hashmap4. webapi4.1 功能4.2 设计接口4.2.1 首页接口说明文档4.2.2 爬虫启动接口4.2.3 手动打码静态页面接口4.2.4 手动打码获取验证码信息接口4.2.5 获取任务状态或结果接口5. node_server节点任务调度6. c原创 2021-08-29 11:09:14 · 2587 阅读 · 0 评论 -
【12306购票】测试运行以及完整代码
测试运行以及完整代码1. 测试运行2. 项目地图3. 项目文件结构3.1 12306.funk12306.py3.2 12306.get_stations_dict.py3.3 12306.utils.captcha.py3.4 12306.utils.parse_date.py3.5 12306.utils.parse_passenger.py3.6 12306.utils.parse_seat_type.py3.7 12306.utils.parse_trains_infos.py3.8 12306.u原创 2021-08-29 11:09:03 · 3247 阅读 · 0 评论 -
【12306购票】构造时间参数以及下单购票
构造时间参数以及下单购票1. 构造时间参数2. 下单购票3. 组织运行逻辑学习目标了解 构造时间参数了解 下单购票逻辑1. 构造时间参数# 12306.utils.parse_dateimport datetimedef parseDate(train_date): """ :param train_date: '2017-12-12' :return: """ week_name = ["Mon", "Tue", "Wed", "Thu",原创 2021-08-29 11:08:43 · 664 阅读 · 0 评论 -
【12306购票】预定订单初始化、解析用户信息以及坐席信息
预定订单初始化、解析用户信息以及坐席信息1. 预定订单初始化2. 获取用户信息3. 解析用户信息4. 获取乘客信息列表5. 解析坐席类型6. 构造乘客信息学习目标了解 预定订单初始化了解 解析构造用户信息了解 解析构造坐席信息1. 预定订单初始化# 12306.funk12306.Funk12306.buy_ticket # 检查用户是否保持登录成功 url = 'https://kyfw.12306.cn/otn/login/checkUser' d原创 2021-08-28 14:57:21 · 826 阅读 · 0 评论 -
【12306购票】解析车站信息以及车辆信息
解析车站信息以及车辆信息1. 解析城市/车站编码2. 获取车辆信息3. 解析车辆信息4. 获取后续请求所需的参数了解 解析车站信息了解 解析车辆信息1. 解析城市/车站编码城市/车站编码js文件有版本号# 12306.funk12306.get_stations_dictimport reimport jsonimport requests# 获取车站编号字符串 station_version=1.9076url = 'https://kyfw.12306.cn/otn/reso原创 2021-08-28 14:55:05 · 1373 阅读 · 0 评论 -
【12306购票】处理验证码并完成登陆
处理验证码并完成登陆1. 获取前置cookie2. 获取图片验证码并处理2.2.1 获取图片验证码2.2.2 使用打码平台处理验证图片2.3 添加手动处理验证图片功能3. 完成登陆4. 运行测试效果学习目标:了解 使用打码平台处理验证图片了解 实现12306登陆实现1. 获取前置cookie根据抓包过程完成前置cookie的获取;使用requests.session()自动处理cookie;注意Referer# 12306.funk12306class Funk12306():原创 2021-08-28 14:52:43 · 892 阅读 · 0 评论 -
【爬虫实战】12306购票抓包分析以及任务分解
12306购票抓包分析以及任务分解前言1. 抓包分析1.1 `https://www.12306.cn/index/`1.2 `https://kyfw.12306.cn/otn/login/conf`1.3 `https://kyfw.12306.cn/otn/index12306/getLoginBanner`1.4 `https://kyfw.12306.cn/passport/web/auth/uamtk-static`1.5 `https://kyfw.12306.cn/passport/web/原创 2021-08-28 14:48:20 · 2243 阅读 · 1 评论 -
【反反爬实战】网易有道翻译(免费、即时的多语种在线翻译)
爬虫实战:网易有道翻译前言1. 分析页面2. Py模拟JS生成 Form Data数据3. 请求&解析数据4. 完整代码前言Python开发中,总是遇到不会的单词,有道翻译用着还不错,慢慢滴我便对 Ta 动了歪心思 (* ̄︶ ̄)1. 分析页面翻译链接:网易有道翻译首先按下F12进入开发者模式,进入Network,进行数据抓包。复制一句话,粘贴入查询框,会自动进行翻译,观察有哪些数据包传送过来。打开服务器最先发送过来的数据包,得到翻译结果。于是我复制以下post原创 2021-08-19 19:50:04 · 1117 阅读 · 0 评论 -
【爬虫进阶】JS的解析(反反爬)
JavaScript的解析1 确定js的位置1.1 观察按钮的绑定js事件1.2 通过search all file 来搜索2 观察js的执行过程3 js2py的使用3.1 js2py的介绍3.2 js的执行思路3.3 具体的实现4 小结学习目标:了解 定位js的方法了解 添加断点观察js的执行过程的方法应用 js2py获取js的方法1 确定js的位置对于前面人人网的案例,我们知道了url地址中有部分参数,但是参数是如何生成的呢?毫无疑问,参数肯定是js生成的,那么如何获取这些参数的规转载 2021-08-19 19:03:46 · 745 阅读 · 0 评论 -
【爬虫进阶】Chrome在爬虫中的使用(必备技能)
Chrome浏览器使用方法介绍1 新建隐身窗口2 chrome中network的更多功能2.1 Perserve log2.2 filter过滤2.3 观察特定种类的请求3 寻找登录接口3.1 寻找action对的url地址3.2 通过抓包寻找登录的url地址学习目标了解 新建隐身窗口的目的了解 chrome中network的使用了解 寻找登录接口的方法1 新建隐身窗口浏览器中直接打开网站,会自动带上之前网站时保存的cookie,但是在爬虫中首次获取页面是没有携带cookie的,这种情原创 2021-08-19 18:59:33 · 688 阅读 · 0 评论 -
【爬虫进阶】验证码处理:打码平台的使用(反反爬)
爬虫进阶:验证码处理1.图片验证码1.1 什么是图片验证码1.2 验证码的作用1.3 图片验证码在爬虫中的使用场景1.4 图片验证码的处理方案2.图片识别引擎2.1 什么是tesseract2.2 图片识别引擎环境的安装2.3 图片识别引擎的使用2.4 图片识别引擎的使用扩展3.打码平台3.1 为什么需要了解打码平台的使用3.2 常见的打码平台3.3 云打码的使用3.4 云打码官方接口4.常见的验证码的种类4.1 url地址不变,验证码不变4.2 url地址不变,验证码变化学习目标了解 验证码的相关原创 2021-08-19 18:34:06 · 2931 阅读 · 0 评论 -
【爬虫进阶】Selenium处理iframe, 多窗口调度
Selenium处理iframe, 多窗口调度前言1. 切换窗口2. iframe处理3. 后序前言上回说到我们已经可以通过selenium拿到拉钩网的招聘信息了. 但是, 信息不够全面. 我们希望得到的不仅仅是⼀个岗位名称和公司名称, 我更想知道更加详细的职位描述以及岗位要求.1. 切换窗口此时问题就来了. 我们可以在搜索页面点击进入到这个详情页. 然后就可以看到想要的职位描述了. 但是, 这时就涉及到如何从⼀个窗口转向另⼀个窗口了(切换选项卡).首先, 我们先通过selenium定位到搜索原创 2021-08-18 22:52:47 · 716 阅读 · 0 评论 -
【爬虫实战】斗鱼直播(你想看的都有呀!)
Selenium实战:斗鱼直播前言1. 获取数据2. 解析数据3. 自动翻页4. 保存数据5. 完整代码6. 效果展示前言斗鱼直播—每个人的直播平台闲着没事儿,看起斗鱼的游戏直播了,感觉挺有意思,就想着看看目前有多少人在直播,获取直播的相关信息存入csv中,想看什么一览无余。1. 获取数据斗鱼直播间 https://www.douyu.com/directory/alldef __init__(self): self.url = 'https://www.douyu.com/di原创 2021-08-18 22:35:48 · 1834 阅读 · 5 评论 -
【爬虫进阶】Selenium的常用方法(推荐收藏)
Selenium的常用方法(建议收藏)1. selenium标签页的切换2. switch_to切换frame标签3. selenium对cookie的处理3.1 获取cookie3.2 删除cookie4. selenium控制浏览器执行js代码5. 页面等待5.1 页面等待的分类5.2 强制等待5.3 隐式等待5.4 显式等待5.5 手动实现页面等待6. selenium开启无界面模式7. selenium使用代理ip8. selenium替换user-agentSelenium的其它使用方法知识原创 2021-08-18 22:13:50 · 1419 阅读 · 2 评论 -
【爬虫进阶】Selenium定位获取标签对象并提取数据
Selenium定位获取标签对象并提取数据1. driver对象的常用属性和方法2. driver对象定位标签元素获取标签对象的方法3. 标签对象提取文本内容和属性值Selenium提取数据知识点:了解 driver对象的常用属性和方法掌握 driver对象定位标签元素获取标签对象的方法掌握 标签对象提取文本和属性值的方法1. driver对象的常用属性和方法在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法driver.page_so原创 2021-08-18 22:03:36 · 11293 阅读 · 3 评论 -
【爬虫进阶】Selenium入门好文,强烈推荐 ! ! !
爬虫进阶:Selenium入门前言:selenium的介绍1. selenium运行效果展示1.1 chrome浏览器的运行效果1.2 phantomjs无界面浏览器的运行效果1.3 观察运行效果1.4 无头浏览器与有头浏览器的使用场景2. selenium的作用和工作原理3. selenium的安装以及简单使用3.1 在python虚拟环境中安装selenium模块3.2 下载版本符合的webdriver4. selenium的简单使用前言:selenium的介绍selenium自动化测试框架在爬虫原创 2021-08-18 21:59:01 · 664 阅读 · 2 评论 -
【爬虫实战】百度贴吧(想搜什么帖子都可以)
爬虫实战:百度贴吧前言1. 获取数据2. 解析数据3. 保存数据4. 完整代码5. 效果展示前言百度贴吧—全球领先的中文社区!里面搜你想知道的 getAll!既然不能吃瓜,那就玩游戏吧!使命召唤回归原味经典!当年多么热爱的枪战游戏哇!1. 获取数据百度贴吧 https://tieba.baidu.com/index.html关键字搜索:https://tieba.baidu.com/f?ie=utf-8&kw=使命召唤def get_data(self, url):原创 2021-08-18 14:02:13 · 1080 阅读 · 1 评论 -
【爬虫进阶】数据提取-lxml模块(万能操作)
数据提取-lxml模块1. 了解 lxml模块和xpath语法2. 谷歌浏览器xpath helper插件的安装和使用3. xpath的节点关系3.1 xpath中的节点是什么3.2 xpath中节点的关系4. xpath语法-基础节点选择语法4.1 xpath定位节点以及提取属性或文本内容的语法4.2 语法练习5. xpath语法-节点修饰语法5.1 节点修饰语法5.2 关于xpath的下标5.3 语法练习6. xpath语法-其他常用节点选择语法6.1 选取未知节点的语法6.2 语法练习7. lxml模原创 2021-08-18 13:29:32 · 1216 阅读 · 3 评论 -
Chrome安装爬虫必备插件:Xpath Helper高效解析网页内容(实测有效)
Chrome安装爬虫必备插件:Xpath Helper(最新教程)1. 谷歌浏览器xpath helper插件的安装和使用2. 谷歌浏览器xpath helper插件的作用3. 谷歌浏览器xpath helper插件的安装和使用3.1 xpath helper插件的安装4. XPath调试5. 附加内容1. 谷歌浏览器xpath helper插件的安装和使用要想利用lxml模块提取数据,需要我们掌握xpath语法规则。接下来我们就来了解一下xpath helper插件,它可以帮助我们练习xpath语法,原创 2021-08-18 13:21:12 · 10593 阅读 · 2 评论 -
【爬虫进阶】数据提取-jsonpath模块
数据提取-jsonpath模块1. jsonpath模块的使用场景2. jsonpath模块的使用方法2.1 jsonpath模块的安装2.2 jsonpath模块提取数据的方法2.3 jsonpath语法规则2.4 jsonpath使用示例3. jsonpath练习了解 jsonpath模块的使用场景掌握 jsonpath模块的使用1. jsonpath模块的使用场景如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的。jsonpath模块就能解决这个原创 2021-08-18 13:00:49 · 512 阅读 · 0 评论 -
【爬虫进阶】数据提取概述篇(巩固加强)
数据提取概述篇数据提取概述1. 响应内容的分类2. 认识xml以及和html的区别2.1 认识xml2.2 xml和html的区别2.3 常用数据解析方法数据提取概述了解 响应内容的分类了解 xml和html的区别1. 响应内容的分类在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据结构化的响应内容json字符串可以使用re、json等模块来提取特定数据json字符串的例子如下图xml字符串可原创 2021-08-18 12:55:04 · 367 阅读 · 0 评论 -
【爬虫进阶】requests模块(万字长文)
requests模块requests模块1. requests模块介绍1.1 requests模块的作用1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装1.3 requests模块发送get请求2. response响应对象2.1 response.text 和response.content的区别:2.2 通过对response.content进行decode,来解决中文乱码2.3 response响应对象的其它常用属性或方法3. requests模块发送请求3.原创 2021-08-17 19:22:27 · 496 阅读 · 2 评论 -
【爬虫进阶】爬虫概述基础篇(回炉重造)
爬虫概述爬虫概要1. 爬虫的概念2. 爬虫的作用3. 爬虫的分类3.1 根据被爬取网站的数量不同,可以分为:3.2 根据是否以获取数据为目的,可以分为:3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:4. 爬虫的流程5. http协议5.1 http以及https的概念和区别5.2 爬虫特别关注的请求头和响应头5.2.1 特别关注的请求头字段5.2.2 特别关注的响应头字段5.3 常见的响应状态码5.4 浏览器的运行过程5.4.1 http请求的过程5.4.2 注意5.5 关于http原创 2021-08-17 10:33:58 · 945 阅读 · 2 评论 -
二战《中国作物种质信息网》“异步协程“ 优化
二战《中国作物种质信息网》异步协程优化一战:多线程二战:异步协程一战:多线程更多内容请参考:一战《中国作物种质信息网》(再也不怕没有小麦数据源了)二战:异步协程执着的小猪,我又回来了定义协程:需要在方法前加上 async同时需要安装 asyncio & aiohttppip install asyncio -i 清华镜像# 爬取小麦数据,使用异步协程提高效率# MY0:14400"""action: itemp: MY014200croptype: ["粮食作物", "原创 2021-07-22 21:15:05 · 831 阅读 · 15 评论 -
一战《中国作物种质信息网》(再也不怕没有小麦数据源了)
中国作物种质信息网-小麦数据源前言分析获取一页数据多线程获取多页面存入CSV文件完整代码结果展示后序前言最近项目需要获取小麦数据源,因此着手《中国作物种质信息网》的数据爬取。link:https://www.cgris.net/default.asp#分析进入小麦专区后:link可以根据小麦相应字段进行指定查询 (若不选择则默认显示全部字段)选择默认查询,则获得全部的小麦信息哇哦!22058条数据,够了够了!检查页面源代码发现里面没有我们需要的内容,可以猜测,该内容原创 2021-07-21 23:50:49 · 2022 阅读 · 5 评论 -
【超详解干货建议收藏】正则表达式 & re模块
正则表达式 & re模块1. 正则表达式简介概念作用2. 正则表达式的使用(re模块)2.1 match()2.1.1 match 方法的使用2.1.2 match 方法中 flag 可选标志的使用3. 常用匹配符3.1 常用匹配符的使用3.2 表示数量(匹配多个字符)3.2.1 匹配手机号码3.2.1 正则表达式中常用的限定符1. findall2. search3. match4. finditer5. compile()6. 正则中的内容如何单独提取?1. 正则表达式简介概念正则表达式原创 2021-07-21 23:04:23 · 885 阅读 · 2 评论 -
正则表达式
Regular Expression简介语法贪婪匹配和惰性匹配简介Regular Expression, 正则表达式, ⼀种使⽤表达式的⽅式对字符串进⾏匹配的语法规则.我们抓取到的⽹⻚源代码本质上就是⼀个超⻓的字符串, 想从⾥⾯提取内容.⽤正则再合适不过了.正则的优点: 速度快, 效率⾼, 准确性⾼ 正则的缺点: 新⼿上⼿难度有点⼉⾼。不过只要掌握了正则编写的逻辑关系, 写出⼀个提取⻚⾯内容的正则其实并不复杂语法正则的语法: 使⽤元字符进⾏排列组合⽤来匹配字符串,在线测试正则表达式 https原创 2021-07-21 15:09:30 · 349 阅读 · 0 评论 -
requests模块入门
requests模块入门requests安装先拿sogou搜索开刀试试百度翻译抓取豆瓣电影requests安装在前⾯⼩节中, 我们使⽤urllib来抓取⻚⾯源代码. 这个是python内置的⼀个模块. 但是, 它并不是我们常⽤的爬⾍⼯具. 常⽤的抓取⻚⾯的模块通常使⽤⼀个第三⽅模块requests. 这个模块的优势就是⽐urllib还要简单, 并且处理各种请求都⽐较⽅便.既然是第三⽅模块, 那就需要我们对该模块进⾏安装, 安装⽅法:pip install requests如果安装速度慢的话可以改原创 2021-07-21 15:01:05 · 332 阅读 · 6 评论 -
HTTP协议
HTTP协议协议请求响应请求⽅式协议协议: 就是两个计算机之间为了能够流畅的进⾏沟通⽽设置的⼀个君⼦协定. 常⻅的协议有TCP/IP. SOAP协议, HTTP协议, SMTP协议等等…HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议. 直⽩点⼉, 就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是原创 2021-07-21 14:54:38 · 228 阅读 · 0 评论 -
Web请求全过程剖析
Web请求全过程剖析简介页面渲染数据的过程1. 服务器渲染2. 前端JS渲染简介上⼀⼩节我们实现了⼀个⽹⻚的整体抓取⼯作. 那么本⼩节, 给各位好好剖析⼀下web请求的全部过程, 这样有助于后⾯我们遇到的各种各样的⽹站就有了⼊⼿的基本准则了.那么到底我们浏览器在输⼊完⽹址到我们看到⽹⻚的整体内容, 这个过程中究竟发⽣了些什么?这⾥我们以百度为例. 在访问百度的时候, 浏览器会把这⼀次请求发送到百度的服务器(百度的⼀台电脑), 由服务器接收到这个请求, 然后加载⼀些数据. 返回给浏览器, 再由浏览器原创 2021-07-21 14:49:08 · 638 阅读 · 0 评论 -
第⼀个爬虫案例
第⼀个爬虫案例前言百度开刀前言⾸先,我们还是需要回顾⼀下爬⾍的概念. 爬⾍就是我们通过我们写的程序去抓取互联⽹上的数据资源.⽐如, 此时我需要百度的资源. 在不考虑爬⾍的情况下, 我们肯定是打开浏览器, 然后输⼊百度的⽹址,紧接着, 我们就能在浏览器上看到百度的内容了.那换成爬⾍呢? 其实道理是⼀样的. 只不过, 我们需要⽤代码来模拟⼀个浏览器, 然后同样的输⼊百度的⽹址. 那么我们的程序应该也能拿到百度的内容. 对吧~百度开刀第一个爬虫大多都是手刃百度在python中, 我们可以直接⽤url原创 2021-07-21 14:41:35 · 271 阅读 · 0 评论