Python爬虫突然提取不出信息了，返回的是空列表的解决办法

最新推荐文章于 2024-07-15 10:36:04 发布

原创最新推荐文章于 2024-07-15 10:36:04 发布 · 5.3k 阅读

12 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了解决网站认为爬虫请求过于频繁的问题方法，通过使用Python的time库中的sleep函数来控制请求频率，避免触发网站的反爬机制。

部署运行你感兴趣的模型镜像

一般这种情况，往往是因为网站觉得你操作太频繁了，需要手动验证一下，这个时候手动打开一个网页，根据网页提示进行操作一个，即可继续进行信息提取。

可以用time库里面的sleep操作：

# 生成随机数的函数randint
from random import randint
# 设置睡眠时间，即多久运行一次
from time import sleep
# 放到函数里即可，程序执行到这里会进行停顿
sleep(randint(2, 5))

感兴趣的可以看我的另一篇博客：一次完整的爬虫

利用requests和xpath爬取网页内容过程

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JdiLfc

关注关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

为什么用python扒取出来的数据为空列表_如何解决python xpath爬取页面得到空列表（语法都对的情况下）...

weixin_39703982的博客

12-21

3340

引言：很多网页呈现给我们的静态页面，但是实际上是由服务器端的动态页面生成的。再加上网站设有反爬虫机制，所以抓取到的页面不一定和源码相同。所以！！从源码里copy xpath，不一定能取到数据！实例：非常的简单，从百度首页上，抓取“新闻”这两个字。import requestsfrom lxml import etreeurl="http://www.baidu.com"ua={'User-Agen...

【爬虫实例】从B站和某论文网站分析python爬虫的一般编写思路———To someone

weixin_50593821的博客

04-18

3118

① B站爬取的数据和实时页面有一定出入，比如我爬取的第一个数据标题是【这也太不合理了吧】，但是按照那个网页解析出来的第一个应该是【AI一眼就看透了我的本质】，我目前有两个怀疑方向：一是这个热门榜是不停在变的，每隔一段时间就会变化；今天课上我玩了一下ChatGPT，要他写一个B站热门的爬取代码，因为GPT数据库的问题，他写出来的代码确实能解决20年左右的B站爬取问题，但如今因为网站加密方式改进，代码已经运行不出效果了，还有其他许多网站也是如此。隐藏，当时没有往后翻，导致浪费大量时间，这种操作是如何实现的？

2 条评论您还未登录，请先登录后发表或查看评论

Python爬虫返还内容为空列表

m0_73892503的博客

11-06

1661

实验室老师给了我们一个爬虫题目，需要我将新闻获取实时最新消息，并发送到微信上。在我完成老师题目的途中，我发现我的爬虫爬取的内容是很多个空列表，并且因此卡在这里无法运作。经过查询资料我得知，像是新闻，资讯这种动态更新的网址，用普通的检查获取源代码的方法，是无法获取到你想要获取的内容的。解决方法： 1.按F12调出开发者工具。 2.点击“network”或者“网络”(可能在元素和控制栏的右边，需要滑动滑动条才可发现） 3.点击下

爬虫爬一些网站是总是得到一个空的列表

sharkman5的博客

01-29

6633

爬虫爬一些网站是总是得到一个空的列表 #抓取PTT八卦版的网页原始码（HTML） import urllib.request as req url="https://www.ptt.cc/bbs/Gossiping/index.html" #建立一个Request物件，附加Request Headers 的资讯 request=req.Request(url,headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) App

Python用xpath爬取数据返回空列表解决

热门推荐

SL_World的博客

12-08

4万+

笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段 ①tbody问题 URL:2018AAAI的第一篇论文元数据页面页面如下：笔者通过谷歌浏览器选取上图红框内容的xpath如下： from lxml import etree import requests url = 'https://aaai.org/ocs/index....

爬虫中xpath的返回空列表，xpath的长短和匹配问题

python_neophyte的博客

09-09

5966

在爬某网站的用户地址的过程中发现， /html/body/div[3]/div/div[3]/div[2]/ul/li[4] #这是Chrome上直接对应地址条目，右键复制下来的xpath路径然而以上代码匹配出来是空列表， //div[3]/div[2]/ul/li[4] #这是最后测试能正确匹配到地址的xpath路径，在后面加个/text()就可以返回地址现在还不知道为啥xpa...

python爬取数据返回空列表_Xpath在选择器中正确，在代码中返回的是空列表问题...

weixin_39712865的博客

11-29

2242

一、问题：在进行爬虫的时候我们会用到xpath解析html文件，但是会有一种情况就是在xpath选择器中可以使用，但是在代码中就无法使用的情况。二、原因：1.是元素中有tbody的原因，这个元素是html生成时产生的，在使用xpath解析的时候无法解析，因此返回的列表为空值。2.是因为没有写入获取的内容。比如在xpath选择其中可以使用但是在解析中没有带入//text()三、解决办法：1.因此解决...

【python爬虫笔记】scrapy

m0_51933492的博客

11-14

578

下载 scrapy该命令先依据创建一个文件夹，然后再文件夹下创建于个scrpy项目，这一步是后续所有代码的起点。创建新项目创建第一个scrapy爬虫文件 pm如果想要运行项目命令，则必须先进入红色下划线my_scrapy文件夹，在项目目录中才能控制项目。此时在spiders文件夹中，出现pm.py文件，该文件内容如下所示：使用命令，spider是上文生成的爬虫文件名，出现如下内容，表示爬虫正确加载。

【Python学习笔记】：Python爬取音频

bailichen800的博客

07-15

3980

于是就去搜索页面这种有大量id的网页，通过检查HTML代码的方法，找到了要薅羊毛的这个大集合目标网址的HTML代码，然后写爬虫获取网页源代码，通过CSS解析出当中隐藏的一大堆歌名、id等信息，最后再拿这一大堆id组合成完整歌曲链接，去爬想要的一大堆歌曲并且保存到本地。这块是有一点绕，一会是文字一会是属性的，对HTML比较熟的看起来要容易一些，或者对着老师的教程多看几遍，自己多尝试，不懂的问问Kimi。前面我们根据链接直接下载歌曲文件的时候，就用的content方法，直接获取歌曲的二进制文件并保存。

Python爬取豆瓣排名报错参考——关键词：换行符|中文乱码|返回空值|正则问题

m0_66400013的博客

01-30

1580

一、完整代码成功运行的代码（暂未加入爬取完整250条的循环，待更新）供参考： ''' step1 数据获取_requests 用开发者工具F12调出页面源代码，观察所需要的数据储存位置如果储存在http页面中（服务器加载数据），可直接抓取如果储存在其它地方，用抓包工具发送请求，获得text版源码用print检查无误后,将text版源码赋值存入a step2

Python爬虫：为什么你爬取不到网页数据

坚持不懈的大白的博客

08-09

3万+

之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.youkuaiyun.com/article/details/105965562），但是当时小编也是胡乱编写的，其实里面有很多问题的，现在小编重新发布一篇关于爬虫爬取不到数据文章，希望各位读者更加了解爬虫。......

python爬虫正则表达式匹配为空的问题

Justinboy的博客

10-21

7229

在用正则表达式匹配网址信息的时候，经常会匹配到空的列表。还在这个地方卡了两三天的时间。最后通过问朋友的方式得以解决。 正则表达式匹配的会经常有隐含符的情况，所以在所选标签匹配不到的情况下，应该先匹配大标签，匹配出所有的内容来，然后再所有的内容里找到隐含的字符，通过字符可以匹配到自己想要的数据。 ...

爬虫总是返回空值

啥都不懂

04-24

8852

为什么我的啊各位大哥帮我看看吧代码描述：这是一个爬取猫眼电影top100的爬虫 import requests import re def get_html(url): kv = { ‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74....

爬虫爬出来的数据是空的_【SEO教程】#1.3.2筑基篇爬虫可理解：爬虫可见

weixin_39949954的博客

12-15

1892

内容简介：1)存在时效性内容的站点，容易出现机器不可见的情况。如：电商网站，商户下线了某个不再售卖的产品团购网站，商户下线了某个不再优惠的活动招聘网站，公司下线了某个不再招聘的职位B2B网站，厂商下线了某个不再批发的产品...............当用户下线的某个产品/职位/活动，对应的前端页面，一般会有3种状态：a、产品下线后，对应页面立马40...

爬虫剑谱第九页（关于爬取好看视频链接返回空列表的问题＜已解决＞）

weixin_53328988的博客

11-16

1917

爬虫思路：在网站首页通过开发者选项选中视频详情页的链接，进入后需要再次进行网页解析并获取视频链接，将最终的视频链接网页进行二进制转码，下载到本地进行永久化保存遇到的问题：在进入视频详情页后，通过Xpath获取视频链接的时候一直返回的是空列表，无论是通过在headers中添加Cookie还是Referer，又或者是在requests.get()中添加代理IP等等，都无法解决解决。问题原因：通过Xpath获取视频的视频链接是虚假的，在源码中...

爬取数据第一次没问题第二次出现报错，至今无法解决！！求解

Elvis926542的博客

01-28

655

a = {'种类': i['name'], '期号': i['code'], '日期': i['date'], '红球': i['red'], '蓝球': i['blue']}# print(f"正在抓取{i}")

爬虫使用xpath解析网页出现空列表的终极解决方案！

termiliter的博客

09-15

2772

点击检查页面的网络，可以看见不同的url传输的数据，来进行异步加载，这种技术在视频网站应用更广。，此时就需要读取不同的url较为复杂，本文不赘述，以后有空发文深刻探讨。一. 查看自己的xpath是否正确：可以通过网页检查（f12）然后右键复制xpath,最好两个都试试也就是完整的xpath又是会犯病，注意一点就是：当xpath出现。我知道这是一个很小的问题，从一开始就知道，但还是解决了一天，为了避免有别人也踩坑，给出。通俗说也就是一个网页可以分开加载，造就不同的连接，其实是不存在的，例如。

Python爬虫返回空值的问题

weixin_48235030的博客

10-31

2412

个人在爬虫时遇到的问题，在此记录一下看看请求时携带 cookie 了没在这里插入图片描述具体cookie，根据具体网页分析 import requests cookies = {…} headers = {…} resp = requests.get(url=url, headers=headers, cookies=cookies) 1 import requests 2 cookies = {…} 3 headers = {…} 4 resp = requests.get(url=url, hea

python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决

weixin_39918043的博客

11-29

1374

笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图红框内容的xpath如下：from lxml import etreeimport requestsurl = 'https://aaai.org/ocs/...

python爬虫xpath抓取， shop_url = extract_details.xpath('//a[contain(@class,"ant-btn-sm") and @data-trace="SHOP_HOME_PAGE"]/@href') 为什么取不出链接只有一个[]

最新发布

03-22

<think>好的，我现在需要解决用户关于XPath表达式无法正确提取链接的问题。用户的XPath是'//a[contains(@class,"ant-btn-sm") and @data-trace="SHOP_HOME_PAGE"]/@href'，返回空列表。首先，我得分析可能的原因，然后逐一排查。首先，检查XPath语法是否正确。contains函数和属性选择器的使用看起来没问题，但可能存在隐藏的拼写错误，比如类名是否正确，或者属性名是否正确，比如data-trace是否确实存在。用户需要注意大小写是否匹配，比如"ant-btn-sm"是否在class中正确，或者是否有其他类名干扰。其次，考虑网页结构是否动态加载。如果页面内容是通过JavaScript动态生成的，使用普通的requests库可能无法获取到动态内容，这时候需要用Selenium或Scrapy的中间件来处理。用户是否确认已经获取到了包含目标元素的HTML？可能需要检查实际获取的HTML内容，确认元素是否存在。另外，可能元素所在的路径有变化，比如被包裹在某个特定的div或iframe中，这时候需要调整XPath路径，添加父级节点的选择。例如，可能需要指定完整的路径，或者使用相对路径更灵活的方式。属性值是否严格匹配？比如data-trace的值是否是"SHOP_HOME_PAGE"，或者是否有额外的空格或其他字符。这时候可能需要使用contains函数代替精确匹配，或者检查是否有空格，比如使用normalize-space函数处理。还有，XPath表达式是否正确指向了href属性？用户使用了@href，但如果元素没有href属性，或者属性名有误，也会导致空列表。可能需要检查元素是否确实有href属性，或者是否使用了正确的属性名。另外，是否因为页面结构复杂，导致XPath无法定位到元素？可能需要使用更精确的选择器，比如结合其他属性或层级关系，或者使用通配符来增强适应性。例如，添加祖先节点的某些特征来缩小范围。总结下来，可能的解决步骤包括：1. 检查网页源码确认元素存在；2. 验证XPath语法和逻辑；3. 处理动态加载内容；4. 调整XPath路径和属性匹配方式；5. 使用工具如浏览器开发者工具测试XPath。用户可能需要逐一尝试这些方法，找到问题所在并进行调整。</think>### XPath表达式无法提取链接的常见原因及解决方案 #### 1. 元素属性值匹配不精确 - **问题分析**：`contains(@class,"ant-btn-sm")`可能匹配到多个类名组合的情况，例如`class="ant-btn-sm disabled"`会导致匹配失败[^3]。 - **解决方案**：改用精确匹配或调整类名判断逻辑： ```xpath //a[@class="ant-btn-sm" and @data-trace="SHOP_HOME_PAGE"]/@href ``` 或使用空格分隔符判断完整类名： ```xpath //a[contains(concat(' ', @class, ' '), ' ant-btn-sm ') and @data-trace="SHOP_HOME_PAGE"]/@href ``` #### 2. 动态内容未加载 - **问题分析**：若目标元素通过JavaScript动态生成，直接请求页面源码时可能无法获取该元素[^2]。 - **解决方案**： - 使用Selenium或Playwright渲染动态页面 - 在Scrapy中启用中间件`scrapy-selenium` - 检查网络请求，直接调用数据接口 #### 3. 层级路径缺失 - **问题分析**：元素可能嵌套在特定容器中，直接使用`//a`可能跳过关键父节点。 - **解决方案**：添加父节点限制： ```xpath //div[@class="container"]//a[contains(@class,"ant-btn-sm") and @data-trace="SHOP_HOME_PAGE"]/@href ``` #### 4. 属性值存在隐藏字符 - **问题分析**：`@data-trace`的值可能包含不可见字符（如空格）。 - **解决方案**：使用`normalize-space()`函数处理： ```xpath //a[contains(@class,"ant-btn-sm") and normalize-space(@data-trace)="SHOP_HOME_PAGE"]/@href ``` #### 5. XPath调试技巧 - **验证方法**：在浏览器开发者工具中按`Ctrl+F`测试XPath： ```javascript $x('//a[contains(@class,"ant-btn-sm")]') // 检查是否能找到元素 ``` - **分步验证**：先单独测试每个条件： ```xpath //a[contains(@class,"ant-btn-sm")] // 检查类名匹配 //a[@data-trace="SHOP_HOME_PAGE"] // 检查属性匹配 ``` #### 6. 元素在iframe中 - **问题分析**：若目标元素位于`<iframe>`内，需先切换到iframe上下文。 - **解决方案**（以Selenium为例）： ```python driver.switch_to.frame(driver.find_element(By.TAG_NAME, "iframe")) elements = driver.find_elements(By.XPATH, '//a[...]') ``` #### 完整代码示例 ```python from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get("目标URL") # 处理iframe情况 iframes = driver.find_elements(By.TAG_NAME, "iframe") if iframes: driver.switch_to.frame(iframes[0]) # 使用改良后的XPath links = driver.find_elements(By.XPATH, '//a[contains(concat(" ", @class, " "), " ant-btn-sm ") and normalize-space(@data-trace)="SHOP_HOME_PAGE"]/@href' ) print([link.get_attribute("href") for link in links]) ```