python爬虫踩坑记录

最新推荐文章于 2025-12-19 16:26:43 发布

原创最新推荐文章于 2025-12-19 16:26:43 发布 · 161 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

python 专栏收录该内容

1 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

课程作业需要用到爬虫，记录一下自己踩过的坑

1、使用requests.get()响应内容调用text方法中文出现乱码

爬虫抓取到的网页响应调用text方法，网页中的中文出现乱码

问题原因：获取到的响应的编码方式与原网页不同，因此需要先修改响应的编码方式，要正确显示内容有一下两种方法

方法（一）仍然想要通过调用text方法返回网页的文本格式

更改网页的encoding属性，改为与网页对应的编码方式（网页的编码方式可以在网页的response headers - content type中查看）

response = requests.get(url=url, headers=Header) #header是用于UA伪装的字典
# 发生乱码可以通过print(response.encoding)来查看错误的编码
response.encoding = "utf-8" # 这里的uft-8为网页正确的编码格式， 可以通过浏览器分析网页，在response header中找到content type中查看网页实际的编码方式
response = response.text # 此时就可以得到中文没有发生乱码的网页

方法（二）调用.content方法

调用content方法返回的是二进制格式的网页内容

此时只要在content方法的返回内容之后调用decode方法，并且将编码方式设置为网页正确的编码格式即可

response = requests.get(url=url, headers=Header).content.decode("utf-8")

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zjw23333

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python爬的csv文件在哪里_Python爬虫之踩坑记录--csv文件新增列

weixin_39627751的博客

12-28

809

起因：爬取拉勾网职位信息模块的技术栈，实现把技术栈爬回之前的csv文件(以新增列的方式)具体实现过程如下：使用Pandas的read_csv方法读取csv文件里面的PositionId，访问对应的网址设置headers、cookies、time.sleep、try-except，防止反爬机制利用BeautifulSoup方法爬取对应源码并用html.parser实现转化成Html5格式使用正则表达...

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

Timemachine0628的博客

07-02

1681

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/ 踩坑: Spark分析文件rent_analyse.py 改变Spark读取csv文件的写法 sparkContext = SparkContext("local","rent_analyse") sqlContext = SQLContext(sparkContext) df = sqlCon

参与评论您还未登录，请先登录后发表或查看评论

python爬虫踩坑教程

weishuo110的博客

01-28

353

前言：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。什么？没看懂？没关系，我来给你解释一下打开一个网页，里面有网页内容吧，想象一下，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是我们今天的主角：爬虫。 (来...

爬虫踩过的坑！！！

summer6364的博客

08-07

531

case：爬取10万数量级的英文新闻。目标站点：卫报（是英国的全国性综合内容日报）看我细数那些坑： xpath路径容易搞错。google网页自带的copy.xpath得到的路径一不留神就会出错，而且他给的路径有时灰常复杂，这就需要机智的你找到规律，略微修改，利用ctrl+f ,检查修改的路径能否如愿以偿。 scrapy.Request 前面常常会丢掉yield，然后就会发生callback函数打死都

python爬虫填坑

故沉的博客

06-23

612

正式开始填坑了。昨天上了一上午的课，加上期末复习，计划要每天减半。看完，并实现理解了Python爬虫（3）：爬取豆瓣电影TOP250文章中用地应该是python2地语言，自己用的是python3.6版本，中间运行的时候出现一些小问题，百度解决了，不一一详述，仅贴上代码。# 爬取豆瓣电影TOP250 # coding:utf-8 import requests from lxml import ht...

爬虫遇到的一些坑

xifeng_free的博客

04-09

464

爬虫遇到的坑 python爬虫新手，记录一下学习scrapy爬虫时遇到的一些坑，在学习过程中会不断更新。 1、使用cmd运行scrapy代码时出现error downloading(爬取的链接)：看看是否伪装成浏览器，若有，则看看setting.py里的user-agent是否除掉注释，并改为伪装的浏览器的user-agent. ...

python3 爬虫https的坑 -- 已解决

热门推荐

金柱的博客

10-19

4万+

以下代码在ipython执行无报错，且有正确结果，但在pycharm执行就报错，错误代码见第二段# coding=utf-8 import re import urllib.request def getHtml(url): page = urllib.request.urlopen(url) html = page.read() html = html.decode('ut

Python爬虫-爬取福利图片&踩坑

12-22

根据博客的分类，分成四类来爬取，其中最多的一类照片有2886张，这也是这次爬取中踩坑最多的一类。共爬取4513张，耗时 117min 37sec 以最多的一类为例子记录一下。过程分为：获取每篇博客的链接获取博客中每张的...

不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据 (2).pdf

06-07

Python爬虫技术是数据收集和分析的关键工具，尤其在当今大数据时代，其重要性日益凸显。Python语言以其简洁明了的语法和丰富的第三方库，使得爬虫开发变得相对容易，适合初学者入门。以下是一些关于如何在一个月内...

Mac系统配置python爬虫Scrapy框架之踩坑记录但完美解决

qq_27693621的博客

05-10

691

真的真的真的遇到了很多很多问题，一直搜索，一直更改，最后完美解决。这个问题在mac系统当中真的属于很纠结的问题了，会遇到各种各样的问题，在这里，我把我遇到的问题以及解决方法分享给大家，希望有所帮助。参考文章：1.https://blog.youkuaiyun.com/weixin_42681866/article/details/82800492 2.https://blog.youkuaiyun.com/u010028869/article/details/86666830 前提...

记录所有的爬虫的坑

joanna_ance的博客

10-15

525

python 语言及python 爬虫的各种bug

写爬虫遇到坑和总结

04-17

1409

最近一直在使用scrapy编写各种爬虫，遇到一些坑，下面来总结一下，以免下次遇到又花费很多时间 (1) 我们在请求前拼接headers时，并不需要把所有request headers都拼接上，可以使用在线http请求，如http://coolaf.com/去测试比如下面refer只要截取前面就可以，后面参数可能是动态生成的，对每次请求都一一对应的，只能适用一次请求，所以一次要爬取很多页面就...

【爬虫】爬虫过程遇到的坑

晓峰博客笔记

11-13

1473

1、报错：HTTP Error 403: Forbidden 问题之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫. 有些网站为了防止这种非正常的访问,会验证请求信息中的U...

爬虫踩坑系列——etree.HTML解析异常

jack的博客

08-13

3万+

在爬虫的过程中，难免会遇到各种各样的问题。在这里，为大家分享一个关于etree.HTML解析异常的问题。 1.问题描述：爬虫过程中，一般会使用requests.get()方法获取一个网页上的HTML内容，然后通过lxml库中的etree.HTML来解析这个网页的结构，最后通过xpath获取自己所需的内容。本人爬虫的具体代码可简单抽象如下： res = requests.get(url) h...

python3爬虫踩坑记录篇（一）

wc199422的博客

08-25

1025

最近在写代码的时候经常报错，能力有限，再此只提供解决办法，如有错误请及时纠正 1：scrapy做post提交data键值都是字符串，如有汉字或数值类型先转字符串 yield scrapy.FormRequest(url=start_url,headers=headers,method = 'POST',formdata=data,callback=self.parse,dont_filter=...

Python 爬虫踩坑总结

辞树

12-31

548

坑一： requests 库的安装与导入 IDE : Pycharm 需要安装requests库。解决方法： win+r 输入 cmd。在命令行输入 : pip install requests。导入Pycharm（！坑）。之前安装好了requests库，但是在Pycharm中依旧无法运行，报错显示没有requests库。解决方法：可能是没有导入该库。在File - Setting ...

python __init__.py的意义与使用