Python爬虫基本流程（自用）

最新推荐文章于 2025-02-18 09:04:04 发布

Lisza

最新推荐文章于 2025-02-18 09:04:04 发布

阅读量3.7k

点赞数 2

分类专栏：爬虫文章标签： python

本文链接：https://blog.youkuaiyun.com/Lisza/article/details/119182051

版权

本文介绍了Python爬虫的基本流程，包括导入requests和lxml库，分析网页获取URL和headers，使用xpath定位元素，处理中文乱码问题，以及图片的下载方法。还给出了爬取豆瓣影评的进阶提示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、导入requests库，以及lxml库中的etree

from lxml import etree
import requests

二、网页分析，获取url、headers通过requests.get()请求网页内容

代码段为：

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55'}
url = 'https://movie.douban.com/subject/27119724/'
resp = requests.get(url,headers=headers)
resp.encoding = 'utf-8'
print(resp.text)

URL为所爬取页面的网址

url = 'https://movie.douban.com/subject/27119724/'

有时只使用requests.get(url)无法获取html信息，需要添加请求头 headers 来解决

请求头 headers

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lisza

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...

weixin_35880151的博客

01-29

1889

说明文章首发于HURUWO的博客小站,本平台做同步备份发布。如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览。原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)直接点击即可前往访问。整个系列文章链接前言本章内容本章讲解关于fidder数据包转发的问题，也就是拦截了数据之后如何将想要的数据推到指定的数据库做处理。Fidder...

开源python爬虫软件下载_33款可用来抓数据的开源爬虫软件工具

weixin_39969881的博客

12-01

3378

参与评论您还未登录，请先登录后发表或查看评论

爬虫必须要了解的请求头 user-agent

软件测试前沿技术分享

11-26

5662

前言在现在 Python 最火的时代，有一门技术已经被广泛宣传了 -- 爬虫那爬虫是什么呢？它是按照一定的规则，自动地抓取网络上信息的程序或者脚本举个简单的例子，腾讯新闻网站上，有统计全国各地的疫情情况这些疫情，是怎么汇总的呢？如果只是靠人工手动去收集，那耗费的人力物力将非常的庞大。那具体该怎么做呢？其实，这个就是通过爬虫技术，写好脚本，到国家卫健委的官网上以及各个城市的卫健委的官网上去获取到的数据，然后进行归纳总结。 Ps：爬虫技术好，但是不要去触犯法律哟既然爬虫能获取到网上的各种信息

【计算机网络】HTTP 协议详解

最新发布

代码逐梦人

02-18

1039

在 Python 爬虫中，设置headers和cookies是非常常见的操作，它们可以帮助你模拟浏览器行为，绕过一些网站的反爬机制，让请求看起来更像是正常用户的请求。下面将详细介绍如何在不同的 Python 库中设置headers和cookies。

浏览器版本大全

软件开发

03-10

5458

USER_AGENTS = [ "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36", .

如何通过代码检测浏览器的内核和版本号

邵玉斌的专栏

10-23

9354

文章目录方法一方法二综合测试chromeEdgeMaxthonVC++调用 CHtmlView类firefox结论方法一依据根据浏览器的请求头来识别。利用javascript的navigator.userAgent方法，只要在html网页中写入： &amp;lt;script&amp;gt; document.write(navigator.userAgent); &amp;lt;/script&amp;gt; 即可。

AppleWebKit/537.36(KHTML,likeGecko)与cdn讲解

Recently祝祝的博客

02-04

3万+

WebKit 是一个开源的浏览器引擎，与之相对应的引擎有Gecko（Mozilla Firefox 等使用），Trident（也称MSHTML，IE 使用）和EdgeHTML（也称Chakra，Edge和其他UWP浏览器使用）。 Apple开发了Safari，使用了KHTML，同时也增加了很多新特性，后来另起炉灶叫了WebKit，但是它有希望能够看到那些为KHTML编写的网页，于是Safari标称自己为Mozilla/5.0 (Macintosh; U; PPC Mac OS X; de-de) Apple

python爬虫-爬知网社科基金信息.rar_python 爬虫知网_文献搜索_爬虫爬文献_知网爬虫_知网社科基金

07-13

本程序是一个用python语言编写的爬虫程序，旨在爬取知网中以关键词“国家社科”搜索，然后将搜索出的结果自动爬取出来。由于爬取的内容不在一个页面里，所以涉及到了二次加载。主要爬取：题名、作者、单位、文献来源...

自用python小工具主要是爬虫方面.zip

02-03

探索Python爬虫工具：为数据挖掘与数据分析提供强大支持在数据驱动的今天，获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此，我们汇集了一系列Python爬虫工具，旨在帮助您更高效地获取、处理和...

爬虫策略——反爬机制

好看资源网的博客

11-19

2246

伪装、代理池、验证码识别、以及动态页面渲染处理等技术，开发者可以有效绕过大多数反爬措施，实现稳定的数据抓取。现代网站通常会使用多种反爬手段来限制爬虫访问数据。了解这些机制并针对性地制定绕过策略，是构建高效爬虫的关键。许多动态网站通过 JavaScript 加载内容，而直接请求可能无法获得完整的 HTML 数据。验证码是最常见的反爬手段，用于验证用户的真实性，防止自动化请求。通过模拟用户的操作（如点击、滚动、延迟）绕过反爬机制。通过代理池轮换 IP 是应对 IP 封禁的常用手段。网站通常会通过检查请求中的。

2019年7月常用浏览器的User-Agent

qq_34502571的博客

07-13

4269

USER_AGENTS = [ # Windows 10 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362', # Edge浏览器版本44.18362.1.0 ...

Python爬虫有用的库：fake_useragent，自动生成请求头

一名在读学生

08-09

2万+

利用第三方库fake-useragent，随机生成user-agent，解决请求头问题，增加爬虫的真实性。

Python爬虫技术第12节设置headers和cookies

hummhumm的专栏

07-24

3860

在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。

【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片

Yhen的博客

04-18

4332

以下内容为本人原创，欢迎大家观看学习，禁止用于商业用途，转载请说明出处，谢谢合作！大噶好！我是python练习时长一个月的Yhen.很高兴能在这里和大家分享我的学习经验。作为小白，我在写代码的时候可能会遇到各种各样的BUG，我把我的一些经验分享给大家，希望对大家能有所帮助！

User-Agent的获取和常用的User-Agent

yigehunzibale的博客

10-31

1万+

2..开发者工具：在大多数现代浏览器中，打开开发者工具（一般按F12键或右键点击页面选择"检查"）后，切换到"网络"或"网络请求"选项卡，然后刷新页面或加载新页面。在请求头的"User-Agent"字段中，可以找到当前浏览器的User-Agent信息。JavaScript：在前端使用 JavaScript，可以通过。获取User-Agent。

【Python】常用的User-Agent信息汇总

时光不老的博客

11-03

557

灵活的使用UA头信息，在做网络请求或爬虫中是必不可少的。

一只爬虫带你看世界【4】

py_tamir的博客

10-25

435

7.模拟浏览器访问，隐藏python自身信息原理：当浏览器访问服务器上的内容时，服务器会抓取访问信息中 header 中的 User-Agent 信息，若User-Agent中显示有python信息等，则视为爬虫程序, 此时服务器会阻止它进行信息爬取。为了隐藏爬虫程序，此时使用模拟浏览器访问的方式来进行信息获取，模拟浏览器方法是添加浏览器的User-Agent，目前有两种方法添加。

python爬虫之反爬虫User_Agent篇

m0_61057457的博客

12-26

943

快速获取User-Agent的方法：打开浏览器，按下F12，出现开发界面，然后点击Console，输入navigator.userAgent。下面是我设置User-Agent以应对反爬虫机制的。

Python爬虫壁纸软件：新手学习与算法实践

根据提供的文件信息，本知识点将围绕一个以Python...通过以上的知识点梳理，希望对学习者编写一个自用的Python爬虫壁纸软件提供全面的指导和帮助。在实践中学习和掌握编程技能，是成为一个专业IT行业大师的有效途径。