
Web Scraping
文章平均质量分 95
好喜欢上学
由艰难而至高远
展开
-
【Scrapy】简单项目实战--爬取dangdang图书信息
一定要记得!!在setting开启管道设置 ,设置的时候注意路径名称,在这卡了半天✅ spiders/ 里的爬虫逻辑(怎么抓,主要抓取数据的文件)✅ pipelines.py 里的存储逻辑,处理抓到的数据(怎么存,定义文件存储方式等等)✅ settings.py 里的配置参数(怎么调优)总的来说,简单一点的爬虫用scrapy实现时需要先创建好项目-->明确要爬取的目标--->分析页面,看看数据存在什么标签中,写爬取的py文件--->看看是否有反爬机制--->在管道文件中添加对数据的处理方式。原创 2025-04-30 18:41:51 · 1347 阅读 · 0 评论 -
【scrapy框架】入门+学会创建项目
Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。原创 2025-04-30 16:15:23 · 1028 阅读 · 0 评论 -
【18】爬虫神器 Pyppeteer 的使用
Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大,Selenium 当然同样可以做到。而 Pyppeteer 又是什么呢?它实际上是Puppeteer 的 Python 版本的实现,但它不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。原创 2025-04-29 17:42:34 · 1653 阅读 · 0 评论 -
【17】aiohttp 异步爬虫实战
在上一课时我们介绍了异步爬虫的基本原理和 asyncio 的基本用法,另外在最后简单提及了 aiohttp 实现网页爬取的过程,这一课时我们来介绍一下 aiohttp 的常见用法,以及通过一个实战案例来介绍下使用 aiohttp 完成网页异步爬取的过程。前面介绍的 asyncio 模块内部实现了对 TCP、UDP、SSL 协议的异步操作,但是对来实现了。aiohttp 是一个基于 asyncio 的异步 HTTP 网络模块,它既提供了服务端,又提供了客户端。原创 2025-04-01 20:14:40 · 2336 阅读 · 0 评论 -
【16】异步爬虫的原理和解析
定义协程。原创 2025-03-31 11:40:35 · 1704 阅读 · 0 评论 -
【15】Selenium 爬取实战
我们学习了 Selenium 的基本用法,【】本节我们就来结合一个实际的案例来体会一下 Selenium 的适用场景以及使用方法。原创 2025-03-29 21:09:46 · 869 阅读 · 0 评论 -
【14】Selenium的基本使用
上期文章我们讲解了 Ajax 的分析方法,利用 Ajax 接口我们可以非常方便地完成数据的爬取。只要我们能找到 Ajax 接口的规律,就可以通过某些参数构造出对应的的请求,数据自然就能被轻松爬取到。崔庆才爬虫案例练手地址:在很多情况下,,它的的,如图所示:此时解决方法通常有两种,一种是深挖其中的逻辑,把其中 token 的构造逻辑完全找出来,再用 Python 复现,构造 Ajax 请求;另外一种方法就是。原创 2025-03-28 14:18:11 · 2066 阅读 · 0 评论 -
【13】Ajax爬取案例实战
try:定义一个 scrape_api 方法,和之前不同的是,这个方法专门用来处理 JSON 接口,最后的response 调用的是 json 方法,它可以解析响应的内容并将其转化成 JSON 字符串。LIMIT = 10定义了一个 scrape_index 方法,用来接收参数 page,page 代表列表页的页码。构造了一个 URL,通过字符串的 format 方法,传入 limit 和 offset 的值。原创 2025-03-26 21:54:51 · 1324 阅读 · 0 评论 -
【12】Ajax的原理和解析
当我们在用 requests 抓取页面的时候,得到的结果可能会和在浏览器中看到的不一样:在浏览器中正常显示的页面数据,使用 requests 却没有得到结果。这是因为requests 获取的都是原始 HTML 文档,而浏览器中的页面则是经过 JavaScript 数据处理后生成的结果。这些数据的来源有多种,可能是通过 Ajax 加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。数据加载是一种异步加载方式,原始页面不会包含某些数据,原创 2025-03-26 17:59:42 · 1466 阅读 · 0 评论 -
【11】Requests + PyQuery 基本案例实战
如果我们要完成列表页的爬取,可以这么实现:遍历页码构造 10 页的索引页 URL。从每个索引页分析提取出每个电影的详情页 URL。这里定义了一个 scrape_detail 方法,它接收一个 url 参数,并通过调用 scrape_page 方法获得网页源代码。由于我们刚才已经实现了 scrape_page 方法,所以在这里我们不用再写一遍页面爬取的逻辑了,直接调用即可,这就做到了代码复用。原创 2025-03-23 13:36:24 · 978 阅读 · 0 评论 -
【10】高效存储MongoDB的用法
在这一节中,我们就来看看 Python 3 下 MongoDB 的存储操作。原创 2025-03-21 18:59:30 · 974 阅读 · 0 评论 -
【09】爬虫解析利器 PyQuery的使用
关于 CSS 选择器的更多用法,可以参考。原创 2025-03-18 14:44:29 · 707 阅读 · 0 评论 -
【08】解析无所不能的正则表达式
贪。原创 2025-03-14 20:20:10 · 855 阅读 · 0 评论 -
【07】入门首选,Requests库的基本使用
当然,如果参数都传一个 HTTPBasicAuth 类,就显得有点烦琐了,所以 requests 提供了一个更简单的写法,可以直接传一个元组,它会默认使用 HTTPBasicAuth 这个类来认证。这里通过比较返回码和内置的成功的返回码,来保证请求得到了正常响应,输出成功请求的消息,否则程序终止,这里我们用 requests.codes.ok 得到的是成功的状态码 200。不设置headers信息时,某些网站会发现这不是一个正常的浏览器发起的请求,网站判断出来即返回异常的结果,导致网页抓取失败。原创 2025-03-12 17:45:22 · 1334 阅读 · 0 评论 -
【06】多路加速,了解多进程基本原理
线程是操作系统能够进行调度的最小单位,是进程的子集。原创 2025-03-12 12:25:28 · 962 阅读 · 0 评论 -
【05】多路加速,了解多线程基本原理
一个进程中可以同时处理很多事情【浏览器中可以在多个选项卡中打开多个页面,有的页面播放音乐,有的页面播放视频,可以同时运行,互补不干扰】为什么能同时做到这麽多任务呢?-----任务对应着线程的执行。进程是线程的集合,进程是由一个或者多个线程构成的;线程是操作系统进行线性调度的最小单位,是进程中一个最小运行单元。多线程就是一个进程中同时执行多个线程。原创 2025-03-11 20:33:33 · 868 阅读 · 0 评论 -
【04】session和 Cookies
在学习javaweb时接触过感兴趣的友友可以看看~在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及的相关知识,本节就来揭开它们的神秘面纱。原创 2025-03-10 14:10:10 · 1021 阅读 · 0 评论 -
【03】爬虫的基本原理
基本原理我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。原创 2025-03-09 21:21:48 · 1743 阅读 · 0 评论 -
【02】Web网页基础
HTML 文档中的所有内容都是节点:整个文档是一个文档节点每个 HTML 元素是元素节点HTML 元素内的文本是文本节点每个 HTML 属性是属性节点注释是注释节点HTML DOM 将 HTML 文档视作树结构,这种结构被称为节点树 :通过 HTML DOM,树中的所有节点均可通过 JavaScript 访问,所有 HTML 节点元素均可被修改,也可以被创建或删除。节点树中的节点彼此拥有层级关系。我们常用父(parent)、子(child)和兄弟(sibling)等术语描述这些关系。原创 2025-03-09 18:55:09 · 701 阅读 · 0 评论 -
【01】HTTP基本原理
HTTP 是一种用于从万维网(WWW)服务器传输超文本到本地浏览器的传输协议。原创 2025-03-08 04:09:47 · 1610 阅读 · 0 评论 -
【爬虫】开篇词
网络爬虫(Web Scraping),也称为网页数据抓取,是一种自动化程序,能够按照设定的规则访问网页并提取数据。它就像一只“蜘蛛”,在互联网上爬行并收集有价值的信息。原创 2025-03-08 02:26:58 · 1394 阅读 · 0 评论