
爬虫
文章平均质量分 80
爬虫学习记录
月光晒了很凉快
天道酬勤。
展开
-
Urllib库及其常用的四个模块
urllib是 Python 标准库中的一个模块,用于处理 URL 及其相关操作。它提供了一组用于打开和读取 URL 的功能,支持 HTTP、HTTPS、FTP 等协议。原创 2024-08-25 23:24:39 · 1193 阅读 · 0 评论 -
在学习爬虫前的准备
获取网页内容。我们会通过代码给一个网站服务器发送请求,它会返回给我们网页上的内容。在我们平时使用浏览器访问服务器内容是,本质上也是向服务器发送一个请求,然后服务器返回网页上的内容。只不过浏览器还会进行一个额外的步骤,就是把内容渲染成直观优美的页面,方便给用户展现。而用程序获取的内容,因为没有经过渲染,所以我们看到的内容更加原始。解析网页内容。我们在上一步可以获取到整个网页的内容,由于内容过于繁杂,可能有许多数据是我们并不想要的。原创 2024-01-09 00:27:35 · 1534 阅读 · 0 评论 -
爬虫你需要知道的:什么是http请求
我们将通过发送http请求来获取网页内容。http是HyperText Transfer Protocol的缩写,意思是超文本传输协议,它是一种客户端和服务器之间的请求响应协议。浏览器就可以看作是一个客户端,当我们在浏览器地址栏输入想访问的网址,按下回车后,浏览器就会像服务端发送一个http请求,然后等待服务器返回给浏览器响应。http有多种不同的请求方法,最常见的是get和post。由于爬虫程序大部分都是在获取数据,所以我们发送的请求大部分情况下都用get方法。原创 2024-01-11 00:38:50 · 629 阅读 · 0 评论