【无标题】爬取网页有反扒不能全部返回代码怎么办？

最新推荐文章于 2025-10-22 23:33:35 发布

原创最新推荐文章于 2025-10-22 23:33:35 发布 · 197 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

今天学习一个爬虫python 程序，需要爬取网页的源代码，结果怎么尝试都是失败，研究了几天还有一样没有进展
#使用爬虫到网上去爬一些数据
import requests
from lxml import etree
import os
#获取地址
url='https://baijiahao.baidu.com/s?'

data={
    'wd':'id=1761874515754793087'
}

headers={"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"}
#发送请求
resp=requests.get(url,params=data,headers=headers,proxies=proxy)
#使用utf-8解码
resp.encoding="utf-8"
输出
print(resp.text)

结果返回的只有是网络不给力：

<div class="timeout hide-callback">
<div class="timeout-img"></div>
<div class="timeout-title">网络不给力，请稍后重试</div>
<button type="button" class="timeout-button">返回首页</button>

还有什么方法能够绕过反扒呢？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pandas_math

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

爬虫 - Scrapy 爬取某招聘网站

AI工程化、开源分享、文档翻译、代码笔记

03-19

2914

文章目录项目简介一、创建项目1、终端创建项目2、修改配置二、爬取列表数据1、数据分析2、模型建立3、存储为 json 数据4、存储为 mysql 数据三、爬取列表下一页及所有数据1、特征分析2、编写方法四、图片1、添加图片保存地址2、添加图片请求3、添加图片管道五、爬取详情六、添加下载中间件1、代理 USER_AGENT2、IP 池 PROXIES七、设置日志1、设置日志级别2、设置日志保存地址项目简介 eleduck 电鸭是一款远程工作的招聘交流网站。一、创建项目 1、终端创建项目 $ scra

带有反爬虫机制下进行爬取数据方案，这里以阿里拍卖为例

guiplan

03-15

4611

介绍最近接到一个2万多的小项目，需求是这样的。需要将一个大型网站上的数据爬下来保存到本地。具体项目不方便透漏，这里的演示就以阿里拍卖网站为例。反爬虫机制有那些？解决反爬虫之前，我们首先得了解反爬虫机制。 ip限制反爬虫：免登录反爬虫一般用访问ip来判断你是否在爬虫获取网站信息，这里百度亲测过。当初写了一个脚本自动爬取百度搜索的结果信息，结果前面试了几次还好。而到后面数据再用脚本爬取结果人家百度不再返回数据了。动态网页与加密混淆网页反爬虫：在有的网页中直接查看源码看到的数据如下图，源码要么被加密混

参与评论您还未登录，请先登录后发表或查看评论

写python爬虫的第一天，拿百度练手遇到 “ 被反爬遇到＜title＞百度安全验证＜/title＞ ” 的解决方案

qq_33769308的博客

09-15

1万+

博主第一次写博文，第一次学爬虫，就是想分享，大家见怪不怪，首先我设置了一个自定义UA代理池并没有采用插件pip install fake-useragent形式进行随机获取print(ua.ie) ua_list = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11

爬虫百度返回“百度安全验证”终极解决方案

最新发布

2503_91057718的博客

10-22

1598

摘要：本文介绍了基于Python的爬虫技术在马蜂窝旅游攻略数据采集中的应用。通过requests库发送请求、BeautifulSoup解析HTML页面，实现了热门景点和行程推荐信息的自动化提取。文章详细讲解了页面结构分析、CSS选择器定位、数据清洗等关键步骤，并提供了随机User-Agent、请求延迟等反爬策略。最终将结构化数据存储为CSV格式，为旅游数据分析和个性化推荐提供数据支持。该方案可扩展至多线程爬取和定时更新，具有较高的实用价值。

2024年最全python爬取优快云博客文章并制作成PDF文件(1)

2401_84688608的博客

05-01

218

python爬取优快云博客文章并制作成PDF文件

m0_61068088的博客

04-30

646

当然了，还是不建议这样去写，不过可以，这样的方法可以检测你提取数据时，是否有错误实现代码这样就获取了每一篇文章的url地址2、获取每一篇文章内容提取解析方法同上。

Python网络爬虫(四)——urllib

止步听风的博客

05-16

931

Python-Requests库网络爬取实战

小程博客

11-22

2578

目录 1.京东商品页面的爬取 2.亚马逊商品页面的爬取 3.百度/360搜索关键词提交 4.网络图片的爬取和存储 5. IP地址归属地的自动查询 1.京东商品页面的爬取 >>> import requests >>> url = "https://item.jd.com/57150995672.html" >>> try: r...

求助爬虫大佬

qq_43620157的博客

03-25

666

在一次心血来潮下,随便写了个脚本访问了下百度.

python爬虫学习笔记（1）

dofy_的博客

06-21

449

python爬虫学习笔记（1）环境配置urllib简单使用1.request模块urlopen()Request()2.parse模块urlencode()quote（）遇到了问题html打开出现乱码进行百度搜索时，出现安全验证网页无法打开情况环境配置本人使用了anaconda3中的python3环境，进行爬虫的环境为anaconda中的spyder，使用anaconda具体详细原因及安装教程可见 Anaconda3详细安装使用教程及问题总结 urllib简单使用 1.request模块 request

使用requests爬取url带参数的网页源码，报“网络不给力，请稍后重试”错误的解决方法

m0_49155898的博客

11-09

1646

使用requests爬取url带参数的网页源码，报“网络不给力，请稍后重试”错误的解决方法

爬虫解析网页发现返回内容不全

roc_ever的博客

04-23

5084

最近爬一个论文网站，使用beautifulsoup和xpath，根据结点的指向一步步写最后发现返回的response对象的text内容不全。。。最后发现这个网站的网页是动态的，网页中的内容有些是js异步加载的。解决方法：selenium ...

爬虫实战学习----基础

tiantizzz的博客

03-21

869

今天在学习爬虫入门的过程中，遇到了百度的反爬（发送请求无法得到内容，出现“网络不给力，稍后重试”或者“百度安全验证”）。写一下当时的解决方案. 最基础的导入，发送请求和打印数据如下。 #导入模块 import requests # 发送get请求 response = requests.get('https://www.baidu.com') #从响应中获得数据 print(response.text) 一开始的时候headers 里面只写了User-Agent，但可能这样太容易被识别出来，后..

CrawlSpider爬虫中间件处理页面反扒验证码代码

05-24

CrawlSpider是Scrapy框架中的一个爬虫类，用于爬取网站的链接并按照规则进行递归爬取。在爬取过程中，有些网站可能会设置反扒措施，如验证码、IP封禁等，这些问题需要在爬虫中进行处理。下面是一个处理验证码的中间件示例代码： ```python from scrapy import signals from scrapy.http import HtmlResponse from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class CaptchaMiddleware(object): def __init__(self, driver_path): self.driver = webdriver.Chrome(executable_path=driver_path) self.wait = WebDriverWait(self.driver, 10) @classmethod def from_crawler(cls, crawler): middleware = cls(crawler.settings.get('DRIVER_PATH')) crawler.signals.connect(middleware.spider_closed, signal=signals.spider_closed) return middleware def process_request(self, request, spider): self.driver.get(request.url) try: captcha = self.wait.until(EC.presence_of_element_located((By.XPATH, '//input[@name="captcha"]'))) captcha_input = input('请输入验证码：') submit_button = self.driver.find_element_by_xpath('//button[@type="submit"]') captcha.send_keys(captcha_input) submit_button.click() return HtmlResponse(url=request.url, body=self.driver.page_source, request=request, encoding='utf-8', status=200) except: return HtmlResponse(url=request.url, request=request, status=500) def spider_closed(self, spider): self.driver.quit() ``` 这个中间件使用了Selenium来模拟浏览器操作，当遇到反扒验证码时，会弹出提示框要求输入验证码，输入正确后点击提交按钮，返回处理后的响应。需要注意的是，Selenium的使用需要安装对应的浏览器驱动，这里使用了Chrome浏览器驱动。