沭阳学爬虫03爬虫基本原理_沐阳爬虫-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_54687004/article/details/113928756

本文介绍了网页爬虫的基本原理，包括如何获取网页源代码、使用正则表达式或库提取信息，以及如何保存数据。讨论了JavaScript渲染页面的问题，并指出对于动态内容，可能需要使用Selenium等工具模拟渲染。此外，还涵盖了爬虫在处理HTML、JSON、二进制数据及文件下载等方面的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫基本原理

爬虫，就是获取网页并提取和保存信息的自动化程序

获取网页

爬虫首先要做的工作就是获取网页，就是获取网页的源代码

源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了

向网站的服务器发送一个请求，返回的响应体便是网页源代码

所以最关键的部分就是构造一个请求发送给服务器，然后接收到响应并将其解析出来

python提供了许多库来帮助我们实现这个操作，如urllib、requests等

我们可以用这些库来帮助我们实现HTTP请求操作，请求和响应都可以类库提供的数据结构来表示

得到响应之后只需要解析数据结构中的Body部分即可，得到网页的源代码

这样我们就可以用程序来实现获取网页的过程了

提取信息

获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据

最通用的方法便是采用正则表达式提取，这是一个万能的方法，但是在构造正则表达式时比较复杂且容易出错

由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS选择器或Xpath来提取网页信息的库，如Beautiful Soup、pyquery、lxml等

使用这些库，我们可以高效快速地从中提取网页信息，如节点的属性、文本值等

保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用

保存形式有多种多样

简单保存为TXT文本或JSON文本
保存到数据库，如MYSQL或MongoDB等
保存到远程服务器，如借助SFTP进行操作等

自动化程序

自动化程序就是说爬虫可以代替人来完成这些操作

首先，我们手工当然可以提取这些信息，但当量特别大或者想快速获取大量数据的话，肯定还是要借助程序

爬虫就是代替我们来完成这份爬虫工作的自动化程序

它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行

能抓怎样的数据

在网页中我们能看到各种各样的信息，最常见的便是常规网页，它们对应着HTML代码，而最常抓取的便是HTML源代码
可能有些网页返回的不是HTML代码，而是一个JSON字符串(其中API接口大多采用这样的形式)，这种格式的数据方便传输和解析，它们同样可以抓取，而且数据提取更加方便
网页中还会看到各种二进制数据，如图片、视频和音频等。利用爬虫，我们可以将这些二进制数据抓取下来，然后保存成对应的文件名
还有各种扩展名的文件，如CSS、JavaScript和配置文件等，这些其实也是最普通的文件，只要在浏览器里面可以访问到，就可以将其抓取下来

上述内容都对应各自的URL，是基于HTTP和HTTPS协议的，只要是这种数据，爬虫都可以抓取

JavaScript 渲染页面

有时候，我们在用urllib或requests抓取网页时，得到的源代码实际和浏览器中看到的不一样

现在网页越来越多地采用Ajax、前端模块化工具来构建，整个网页可能都是由JavaScript渲染出来的，也就是说原始的HTML代码就是一个空壳

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>This is a Demo</title>
</head>
<body>
<div id="container">
</div>
</body>
<script src="app.js"></script>
</html>