爬虫
文章平均质量分 62
爬虫相关知识介绍
Gratitute_林腾
努力学习的程序员,菜就多练!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫-scrapy和selenium的对比
Scrapy 强大的爬虫规则和中间件系统,允许你对请求、响应、错误处理等进行高度定制。原创 2024-10-06 10:01:43 · 2061 阅读 · 0 评论 -
爬虫-scrapy_介绍_安装_项目的创建和运行_基本语法
目录什么是scrapyscrapy的安装scrapy项目的创建和运行scrapy项目的创建和运行创建scrapy项目创建爬虫文件运行爬虫文件原创 2024-10-04 15:33:10 · 494 阅读 · 0 评论 -
爬虫-selenium_edge的无界面模式
在爬虫中,Edge的无界面模式(headless mode)指的是在不显示图形用户界面的情况下运行Microsoft Edge浏览器。这种模式适合自动化测试或数据抓取,因为它可以提高性能并节省资源,同时允许程序在后台执行操作。原创 2024-09-27 09:13:30 · 1411 阅读 · 0 评论 -
爬虫-selenium_交互
Selenium的交互主要是指在使用Selenium进行Web自动化测试或自动化操作时,模拟用户与Web页面及其元素之间的各种交互行为。这些交互行为涵盖了多个层面,包括与页面元素的交互、与浏览器的交互,以及通过执行JavaScript代码与页面进行更深入的交互。原创 2024-09-26 16:12:28 · 685 阅读 · 0 评论 -
爬虫-selenium_元素信息
class"content".text"你好,世界".tag_name"button"原创 2024-09-26 14:55:33 · 561 阅读 · 0 评论 -
爬虫-selenium_元素定位
这些方法可以帮助你在自动化测试中准确地定位网页上的元素,以便进行点击、输入等操作。查找元素,并选择第一个匹配的元素。通过 HTML 标签名查找元素。通过 CSS 选择器查找元素。通过链接的可见文本查找元素。查找页面上链接文本为。最常用的是1、3、5。原创 2024-09-26 14:30:38 · 839 阅读 · 0 评论 -
爬虫-selenium基本介绍
安装浏览器驱动时注意版本保持一致。将压缩包解压到一个指定路径下。比如D:\software\edge_driver路径。访问百度,看看能否正常打开。记住你指定的路径,之后会用。接下来安装selenium。原创 2024-09-25 15:00:41 · 1746 阅读 · 0 评论 -
爬虫-BeautifulSoup的基本使用
在很多的计算机编程语言中,如果不加空格不会输出内容,但是在bs4中,不会报错,能正常显示内容。所有这里div>ul>li,加不加空格都可以,但如果是在其他编程语言中使用子代选择器,需要加空格。可以通过.(点)代表class,.(点)后面跟上class的属性值xx,这样就可以查找到class属性为xx的所有a标签了,这种操作称为类选择器。可以通过#代表id,#后面跟上id的属性值xx,这样就可以查找到id属性为xx的所有a标签了。可以看到,得到了所有的a标签,并以列表的形式返回。通过属性来寻找对应的标签。原创 2024-09-24 21:42:19 · 1643 阅读 · 0 评论 -
爬虫实战_jasonpath解析淘票票
获取淘票票中的所有城市。原创 2024-09-23 16:24:27 · 970 阅读 · 0 评论 -
爬虫-解析_jsonpath
JSONPath是一种用于从 JSON 数据中提取数据的表达式语言。它的作用与 XPath 类似,但专门用于处理 JSON 格式的数据。它允许你根据路径提取嵌套在复杂 JSON 对象中的数据。相比于xpath,jsonpath只能解析本地的文件。原创 2024-09-23 15:28:03 · 762 阅读 · 0 评论 -
爬虫-解析_站长素材
很容易看出,除了第一页,其他页码的接口地址都是在fengjing后加上"_页码"即可。原创 2024-09-22 16:40:45 · 964 阅读 · 0 评论 -
爬虫-解析_xpath_获取网站的百度一下
黑框的左边书写xpath表达式,右边会显示表达式得出的结果,这样可以方便地检查写的表达式得到的结果是否为“百度一下”。根据网页源码,书写表达式,获取“百度一下”。因为id属性具有唯一性,所以如果要精准获取单一元素,一般通过id来定位。图中代码并未写完,还需要通过xpath表达式来定位“百度一下”。此时打开百度首页,按f12,获取“百度一下”的源码位置。按ctrl+alt+x使用xpath插件。将书写的表达式复制到脚本中。获取百度网站的百度一下。原创 2024-09-21 15:13:29 · 1194 阅读 · 0 评论 -
爬虫-解析_xpath的基本使用
路径查询基于 XML 文档的层级结构,类似于文件系统的路径,用来表示节点之间的关系。虽然 XPath 主要是为 XML 设计的,但因为 HTML 是 XML 的一个子集,许多工具和库都允许使用 XPath 来查询和操作 HTML 内容。我也尝试过将这个解释器的lxml删掉,然后重新安装lxml,但还是会默认下载到这个目录下,恼火得很,所以我干脆就换成这个解释器了。外围是单引号,就用双引号)。因为这个表达式的意思是:找到元素的直接子元素,但不是body的直接子元素。原创 2024-09-19 12:39:31 · 680 阅读 · 0 评论 -
爬虫-解析_xpath插件的安装
在爬虫中,指的是从网页的 HTML、XML 或其他格式的响应数据中提取有用的信息。:首先,爬虫会发送 HTTP 请求获取网页内容,通常是 HTML 格式的网页。:使用解析器(如 BeautifulSoup、xpath 或 jsonPath)来理解网页的结构。例如,从 HTML 文档中提取特定的标签、类名、属性或文本内容。:根据需求,爬虫会通过选择器(如 XPath、CSS 选择器)从网页中提取出目标数据,例如标题、价格、图片链接等。原创 2024-09-19 10:16:13 · 931 阅读 · 0 评论 -
爬虫-urllib_代理池
在爬虫中,是指一组或多个可用的代理服务器列表,爬虫程序可以动态地从这些代理中选择代理服务器,进行网络请求。代理池的主要作用是帮助爬虫程序绕过目标网站的反爬机制,比如IP封禁、请求频率限制等。原创 2024-09-16 16:23:41 · 1527 阅读 · 0 评论 -
爬虫-urllib_代理
在爬虫中,(Proxy)是指一个中间服务器,爬虫通过该服务器发送请求和接收响应。代理的作用是使爬虫在访问目标网站时隐藏自身的真实IP地址,从而达到匿名化、规避IP封禁、负载均衡等目的。原创 2024-09-16 15:56:28 · 1093 阅读 · 0 评论 -
爬虫-urllib_handler处理器
可以处理不同的协议或不同类型的请求,比如处理 HTTP 请求、HTTPS 请求、Cookies 管理、代理服务器处理、身份验证等。通过组合不同的处理器,你可以自定义 HTTP/HTTPS 请求的行为。模块的一部分,用于处理 HTTP、HTTPS、FTP 等协议的连接和请求处理。是用来处理特定类型的请求或响应的模块。使用handler来访问百度,获取页面源码。程序运行后,可得到网页源码。原创 2024-09-16 14:47:19 · 926 阅读 · 0 评论 -
爬虫-微博的Cookie登录
在爬虫中,使用通常用于访问需要身份验证的网页或保存用户会话状态的网站。Cookie 是服务器存储在客户端(浏览器)上的一小段数据,主要用于跟踪用户的会话信息。例如,当用户登录一个网站时,服务器会将用户的身份信息(如会话ID)存储在 Cookie 中,以便在后续的请求中确认用户的身份。一些网站对未登录的用户有内容访问限制,只有登录后才能获取特定内容。通过使用登录后的 Cookie,你的爬虫可以模拟已登录的用户,从而访问网站的更多资源。2.原创 2024-09-16 10:37:31 · 5288 阅读 · 0 评论 -
爬虫-urllib_异常
目录HTTPError和URLError示例原创 2024-07-16 10:50:12 · 796 阅读 · 0 评论 -
urllib_ajax的get请求_豆瓣电影前十页
在豆瓣电影(排行榜动作类)页面中,找到获取信息对应的接口。分别获取第一页、第二页、第三页的对应接口的url。原创 2024-06-06 15:43:21 · 205 阅读 · 0 评论 -
urllib_ajax的get请求_豆瓣电影第一页
如果下载数据到本地时没有指定encoding='utf-8',则运行会报错,文件中不会加载数据内容。在豆瓣电影(排行榜动作类)页面中,找到获取信息对应的接口。原创 2024-06-06 15:10:02 · 230 阅读 · 0 评论 -
urllib_post请求_百度翻译之详细翻译
发现依然能打印正确的结果,说明是cookie反爬,headers只需携带cookie就能破解反爬。原创 2024-05-26 09:35:48 · 464 阅读 · 0 评论 -
urllib_post请求_百度翻译
然后就是请求对象的定制,post请求,除了url,headers外,还要指明data,即请求数据。可以看到这个内容是json格式的,使用json.loads(),将其转成python对象。打开百度翻译,并打开控制台,输入spider,然后在网络中找到对应的接口。可以看到,该url是post请求,且传递的数据为kw : XXX,函数用于将一个JSON格式的字符串转换为相应的Python对象。是 "load string" 的缩写。发起请求,得到想要内容。原创 2024-05-24 17:07:04 · 667 阅读 · 0 评论 -
urllib_get请求的urlencode方法
如果使用quote方法来将参数值转为Unicode,需要手动一次次的调用quote,像上图的情况,就需要调用两次quote方法来分别将"胡彦斌"和"男"转换成Unicode。然后还要进行字符串拼接,并且参数间还需要用&拼接。此时,我们可以使用urlencode方法,它能一次性将多个参数都转换成Unicode,并自动用&拼接起来。当参数非常多的时候,例如有几十个甚至几百个,这种方式就显得很麻烦。原创 2024-05-20 15:15:57 · 266 阅读 · 0 评论 -
urllib_get请求的quote方法
现在我想通过urllib来获取该页面的源码,正常来说,是把地址栏(https://www,baidu.com/s?但是如果我们使用url='https://www.baidu.com/s?wd=胡彦斌‘,就不行,因为ascii识别不了汉字,所以我们需要把'胡彦斌'通过unicode标准转成ascii。这是因为它自动帮我们转成了Unicode编码,通过这个url会正确地获取页面源码。然后使用quote方法,将’胡彦斌‘转成ascii,在将其与url拼接。首先我们需要用到urllib.parse,所以先导入。原创 2024-05-13 09:23:04 · 449 阅读 · 0 评论 -
urllib请求对象的定制
User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。原创 2024-05-02 09:32:23 · 626 阅读 · 1 评论 -
urllib下载
注意:pycharm是没有mp4播放器的,可以通过打开windows的文件管理器来打开这个mp4文件。一个参数url_video为下载视频的地址,第二个参数为视频的名字。第一个参数url_img为下载图片的地址,第二个参数为图片的名字。第一个参数url_page为下载网页的地址,第二个参数为文件名。运行成功后,项目文件会出现'胡彦斌.jpg'运行成功后,项目文件会出现'视频.mp4'原创 2024-04-28 15:36:00 · 571 阅读 · 0 评论 -
爬虫urllib的基本使用
urllib是python自带的库,不需要专门下载,可直接使用url的内容就是我们想要访问的地址,这里以百度首页地址为例。原创 2024-04-25 15:12:10 · 480 阅读 · 0 评论
分享