python爬虫新技能(反爬虫机制)

本文介绍了一种绕过反爬虫机制的方法,利用Chrome浏览器的开发者工具找到目标数据的实际请求URL,通过curl命令获取JSON数据,并使用Python解析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在做nlp,然后需要一些语料作为字典,所以就进行了一些爬虫,但是很多网站会有反爬虫机制

其实维基百科也是很好的中文语料库,但是问题是现在国内需要翻墙才可以访问维基百科

在我进行爬虫的过程中,遇到的问题是网页中有<input type="hidden">所以导致我用python的requests去请求之后,在用html.xpath()得不到我所需要的内容。

 

于是请教大神,得出一种新方法:(对一部分网站好用,可以试下)

1.打开你所要爬虫的网页(chrome浏览器),点击F12,进入开发者模式

2.点击network->XHR->右键->copy->copy as cURL

3.打开jupyter notebook

粘贴就可以了

然后发现粘贴内容为:

curl https:................(省略一大片)

我们用的是juoyter notebook,所以不可以直接执行linux命令,但是只需要在前面加!即可

json = !curl -s 'https:.........................'

4.json处理

这样json得到了网页的内容,但是打印出来会发现是一些很乱的字符,我们也看不懂,所以需要将json进行转为python的数据结构

import json as j

data = j.loads(json[0])

这样就可以将json的字符串转为我们可以看得懂的字符串了(通过type(data)查看类型,在进行相应的处理或者存储)

然后可以进行之后的一系列处理!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值