Python 爬虫心得

本文讲述了作者在进行Python爬虫时遇到‘Request unsuccessful’的问题,通过研究发现是网页<head>中的robots属性导致的。了解到NAME=ROBOTS和content=“noidex,nofollow”会屏蔽爬虫后,作者模拟浏览器行为,通过添加headers,特别是User-Agent和Referer,甚至在某些情况下使用cookie,成功解决了爬虫被限制的问题。然而,固定cookie的解决方案并不通用,作者计划后续改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近我写的爬虫在爬取数据的时候变得不太好用了,两三天前还是可以正常爬取数据的,今天运行的时候返回了空值。我打开源代码,将抓取的网页内容print出来看了一下,发现返回了这样一个网页:

<html style="height:100%">
	<head>
		<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
		<meta name="format-detection" content="telephone=no">
		<meta name="viewport" content="initial-scale=1.0">
		<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
	</head>
	<body style="margin:0px;height:100%">
		<iframe src="/_Incapsula_Resource?SWUDNSAI=9&xinfo=14-73717949-0%202CNN%20RT%281531788981588%200%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%288%2c881023%2c0%29&incident_id=810000430074365444-466505767058014910&edet=12&cinfo=08000000" frameborder=0 width="
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值