python爬虫新技能（反爬虫机制）

最新推荐文章于 2024-04-27 16:14:52 发布

Lollipop66

最新推荐文章于 2024-04-27 16:14:52 发布

阅读量708

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Lollipop66/article/details/101362660

版权

Python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种绕过反爬虫机制的方法，利用Chrome浏览器的开发者工具找到目标数据的实际请求URL，通过curl命令获取JSON数据，并使用Python解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做nlp，然后需要一些语料作为字典，所以就进行了一些爬虫，但是很多网站会有反爬虫机制

其实维基百科也是很好的中文语料库，但是问题是现在国内需要翻墙才可以访问维基百科

在我进行爬虫的过程中，遇到的问题是网页中有<input type="hidden">所以导致我用python的requests去请求之后，在用html.xpath()得不到我所需要的内容。

于是请教大神，得出一种新方法：(对一部分网站好用，可以试下)

1.打开你所要爬虫的网页（chrome浏览器），点击F12，进入开发者模式

2.点击network->XHR->右键->copy->copy as cURL

3.打开jupyter notebook

粘贴就可以了

然后发现粘贴内容为：

curl https：................（省略一大片）

我们用的是juoyter notebook，所以不可以直接执行linux命令，但是只需要在前面加！即可

json = ！curl -s 'https:.........................'

4.json处理

这样json得到了网页的内容，但是打印出来会发现是一些很乱的字符，我们也看不懂，所以需要将json进行转为python的数据结构

import json as j

data = j.loads(json[0])

这样就可以将json的字符串转为我们可以看得懂的字符串了（通过type（data）查看类型，在进行相应的处理或者存储）

然后可以进行之后的一系列处理！

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。