python遇到错误跳过_使用BeautifulSoup跳过错误404

最新推荐文章于 2024-05-18 21:10:15 发布

weixin_39933508

最新推荐文章于 2024-05-18 21:10:15 发布

阅读量458

点赞数

文章标签： python遇到错误跳过

我想用beauthulsoup删除一些网址。我正在抓取的URL来自googleanalytics API调用，其中一些不能正常工作，所以我需要找到一种方法跳过它们。在

我试着补充一下：except urllib2.HTTPError:

continue

但我遇到了以下语法错误：

^{pr2}$

以下是我的完整代码：rawdata = []

urllist = []

sharelist = []

mystring = 'http://www.konbini.com'

def print_results(results):

# Print data nicely for the user.

if results:

for row in results.get('rows'):

rawdata.append(row[0])

else:

print 'No results found'

urllist = [mystring + x for x in rawdata]

for row in urllist:

# query the website and return the html to the variable 'page'

page = urllib2.urlopen(row)

except urllib2.HTTPError:

continue

soup = BeautifulSoup(page, 'html.parser')

# Take out the

of name and get its value

name_box = soup.find(attrs={'class': 'nb-shares'})

if name_box is None:

continue

share = name_box.text.strip() # strip() is used to remove starting and trailing

# save the data in tuple

sharelist.append((row,share))

print(sharelist)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39933508

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

用 Python BeautifulSoup 实现网页链接的提取与分析

Python编程之道的博客

04-04

1772

本文旨在提供一个全面的指南，介绍如何使用Python的BeautifulSoup库进行网页链接的提取与分析。HTML解析基础链接提取技术链接过滤与清洗链接统计分析实际应用案例首先介绍BeautifulSoup和HTML解析的基础知识然后详细讲解链接提取的技术细节接着介绍链接分析和数据处理方法最后提供实际应用案例和高级技巧HTML: 超文本标记语言，用于创建网页的标准标记语言DOM: 文档对象模型，表示HTML文档结构的树状模型。

python反爬-图像验证码与滑块验证码的跳过、反selenium检测，动态ip

最新发布

九七的博客

07-06

3314

以某网站为例，要查看每条信息，需要点击查看后完成滑块验证码的跳过本文主要selenium模拟浏览器的方式，模拟网页操作，要获取所有信息就需要翻页，因此打开F12检查总页数对应的xpath节点，由下图可以观察到总页数的信息已经包含在了html网页上，因此先使用获取该网页信息，获取总页数，以便执行翻页的循环.先通过BeautifulSoup获取总页码，需要观察上图页码所在位置对应的节点，页码参数对应的位置是text位置找到总页码后，就可以开始执行循环，每次循环获取当前页面所有信息，然后就点击翻页。

参与评论您还未登录，请先登录后发表或查看评论

python怎么判断url是否正确,python3判断url链接是否为404的方法

weixin_42518453的博客

03-26

929

本文实例为大家分享了python3判断url链接是否为404的具体代码，供大家参考，具体内容如下import pymysqlimport threadingimport timeimport urllibimport requests# 打开数据库连接db = pymysql.connect("192.168.0.*", "username", "password", "databasename"...

python调用接口404_tornado捕获和处理404错误的方法

weixin_35691715的博客

02-11

812

Tornado 文档中提到但是这样只能捕获到handlers中列出的路径请求中的错误。如果只定义了(r"/hello", HelloHandler) 一条规则，那么只能捕获到 /hello/other，这样的未定义路径请求，而像/he、/helloworld、/he/other这样的会直接显示Tornado默认的404错误页面，而不会显示自定义的错误页面。解决方法很简单只需要在路由规则的最后加一条...

python 404_用Python抓取全站中的404错误

weixin_39630880的博客

12-09

338

链接是SEO的一个重要因素。为了在搜索引擎中获取更好的排名，一定要定期检查下网站中的链接是否依然有效。特别是由于一些巨大的改动可能会导致坏链接的出现。要检测这些站内的链接问题，可以通过一些在线的工具。比如Google Analytics，Bing Webmaster Tools，brokenlinkcheck.com等。尽管有现成的工具，我们也可以自己来编写一个。使用Python会非常容易。翻译：...

使用BeautifulSoup的soup.find()时出现错误AttributeError NoneType object has no attribute

a_cherry_blossoms的博客

06-04

6945

报错：AttributeError: 'NoneType' object has no attribute1.问题2.原因及分析2.1原因2.2分析我琢磨着可能是因为class值中的最后那个“空格”有问题。所以我就将我代码中的class值中的空格去掉了。3.总结就是你使用的find没有找到你需要的那个标签。问题的原因之一可能就是我上面所说的，然后动动脑筋，这里改改，那里改改，兴许就能像我这样把问题给改没了呢！ 1.问题使用BeautifulSoup的soup.find(“div”,class_="***"

soup.find找不到内容

2201_75349812的博客

05-18

239

调用soup.find时没有报错但是找不到相应的内容。

python爬虫代码没有结果_beautifulsoup - python爬虫获取不到标签内容

weixin_39595430的博客

11-23

1170

问题链接如下：http://aaxxy.com/vod-detail-i...使用requests请求此连接，然后用BeautifulSoup解析获取 dl > dd > a 标签的内容，其中：上图所示的4个 a 标签的内容只能获取到第一个“电影”，后面三个“动作”“喜剧”“剧情”获取不到，输出结果为None：使用pyquery解析的话连None都不显示，直接跳过这三个标签了：请问为什么会这样？...

python apply_async函数_进程池未执行apply_async中添加的函数就直接结束了

weixin_39922147的博客

12-16

1477

代码没有执行apply_async中添加的函数就直接结束了from bs4 import BeautifulSoupimport randomimport requestsimport pymongoimport datetimeimport randomimport timefrom multiprocessing import Pooluser_agents = ['Mozilla/5.0 (...

Python网络爬虫-BeautifulSoup使用

徐先森的博客

07-20

1105

BeautifulSoup是一个强大的网页解析工具，它借助网页的结构和属性等特性来解析网页。有了它就不用再去写一些复杂的正则表达式来匹配我们想要的信息，只需要简单的几条语句就能完成网页中某个元素的提取。一、简介简单来说，BeautifulSoup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。官网的介绍如下： Beautiful Soup提供了一些简单的...

python 访问网页排除500 404_Django自定义全局403、404、500错误页面的示例代码

weixin_39788703的博客

12-16

248

自定义模板403403-禁止访问HTTP 403 - 禁止访问404404-无法找到文件HTTP 404- 无法找到文件500500-服务器错误HTTP 500 - 内部服务器错误编写视图# 全局403、404、500错误自定义页面显示def page_not_found(request):return render(request, '404.html')def page_error(reque...

chatgpt赋能python：Python中如何跳过报错？

findyi123的博客

06-28

1443

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

用Python抓取全站中的404错误

weixin_33736832的博客

08-06

1177

2019独角兽企业重金招聘Python工程师标准>>> ...

Python爬虫响应码为404错误

weixin_44991673的博客

12-13

6466

# 引用requests库 import requests # 引用BeautifulSoup库 from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36', } url ='http

Python爬虫包 BeautifulSoup 学习（二）异常处理

Mr.Phoebe的专栏

12-22

4127

面对网络不稳定，页面更新等问题，很可能出现程序异常的问题，所以我们要对程序进行一些异常处理。大家可能觉得处理异常是一个比较麻烦的活，但在面对复杂网页和任务的时候，无疑成为一个很好的代码习惯。网页‘404’、‘500’等问题try: html = urlopen('http://www.pmcaff.com/2221') except HTTPError as e:

python报错跳过继续执行_python如何设置报错跳过