python爬取网页的通用代码框架

最新推荐文章于 2024-07-15 10:36:04 发布

转载最新推荐文章于 2024-07-15 10:36:04 发布 · 235 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/wyhluckdog/p/10753193.html

本文介绍了一个Python网页爬虫的基础代码框架，核心部分是使用requests库获取网页内容，并通过检查HTTP状态码确保数据正常获取。文章详细解释了如何设置URL、处理超时、检查状态码及编码，适用于初学者理解爬虫工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬取网页的通用代码框架：

def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式)
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200,也就是返回的内容不是正常的数据，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text   #返回网页的内容
    except:
        return '产生异常'   #如果网页有问题，则触发异常，并返回产生异常

其中的核心代码是：r.raise_for_status()。它用于判断请求返回的状态信息时候是200，如果是200，则不会触发异常；如果不是200，也就是返回的内容不是正常的数据或者没有得到请求的数据，内会触发异常。

转载于:https://www.cnblogs.com/wyhluckdog/p/10753193.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30633949

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python爬取jsp网页_python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】

weixin_39851457的博客

12-03

800

-Modest_Proud-一、爬取网页的通用代码框架首先，我们使用Requests库进行网页访问的时候，经常用get()，获得url的相关内容。由于网络连接是有风险的，所以异常处理语句很重要。理解爬取网页的通用代码框架import requests ##加载Requests库def getHTMLText(url):##定义getHTMLTexl函数try:r=requests.get(ur...

爬取网页的通用代码框架（自用）

xiaochenishere的博客

08-09

262

爬取网页的通用代码框架： import requests def gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200，引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常" if __nam

参与评论您还未登录，请先登录后发表或查看评论

人生苦短之爬虫爬取网页的通用代码框架

weixin_33918114的博客

06-14

199

2019独角兽企业重金招聘Python工程师标准>>> ...

Python网页爬取的通用代码框架

loongkingwhat的博客

07-16

1516

有效处理和避免访问和爬取网页过程中可能出现的错误

python 爬取网页的通用代码框架

k_koris的博客

10-06

5067

爬取网页的通用代码框架就是一组代码它可以准确的可靠的爬取网页上的内容。但是这样的语句不是一定成立的，因为网络连接有风险。常见的异常有：而raise_for_status方法可以返回所引发的httperror异常。爬取网页的框架代码如下： import requests def getHTMLText(url): try: r = request...

Python-爬取网页的通用代码框架

小程博客

10-31

714

爬取网页的通用代码框架 import requests def getHTMLText(url): try: r = requests.get(url, timeout=30); r.raise_for_status();#如果状态不是200，引发HTTPError异常 r.encoding = r.apparent_e...

爬取网页的通用代码框架

weixin_48111384的博客

01-28

2391

爬虫基本框架

爬虫爬取网页的通用代码框架（附实例）

Jarrodche的博客

08-05

6948

通过一个爬虫网页的通用代码框架来实现一个网页的爬取，附实例：京东商品页面的爬取，百度搜索关键字提交，ip地址自动查询。

【Python学习笔记】：Python爬取音频

最新发布

bailichen800的博客

07-15

3770

于是就去搜索页面这种有大量id的网页，通过检查HTML代码的方法，找到了要薅羊毛的这个大集合目标网址的HTML代码，然后写爬虫获取网页源代码，通过CSS解析出当中隐藏的一大堆歌名、id等信息，最后再拿这一大堆id组合成完整歌曲链接，去爬想要的一大堆歌曲并且保存到本地。这块是有一点绕，一会是文字一会是属性的，对HTML比较熟的看起来要容易一些，或者对着老师的教程多看几遍，自己多尝试，不懂的问问Kimi。前面我们根据链接直接下载歌曲文件的时候，就用的content方法，直接获取歌曲的二进制文件并保存。

python爬取网页json数据_python爬取json数据库

weixin_39621794的博客

12-22

4228

手把手教你使用Python抓取QQ音乐数据(第一弹)【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。【二、需要的库】主要涉及的库有：requests、json、openpyxl【三、项目实现】1.了解 QQ 音乐网站的 robots 协议只禁止...文章python进阶者2020-04-25968浏览量数据挖掘敲...

网络爬虫之Requests库及爬取网页的通用代码框架

JarlenJohn

04-23

1089

Requests库 7个主要方法方法说明 requests.request() 构造一个请求，支撑以下方法的基础 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD requests.post() 向HTM...

python requests 爬取网页通用框架

YmeBtc的博客

07-10

647

#每天一点点，记录工作中实际可行操作# python requests 爬取网页通用框架 import requests #调用库 def getHTMLText(url):#定义 try: r = requests.get(url,timeout = 30) #请求url链接,限时30秒 r.raise_for_status()#判断返回的内容是否正常...

使用python脚本监控weblogic

weixin_30786657的博客

07-06

1229

1.python的脚本如下： 1 ############################################################################### 2 #created on 2013-07-09 3 #author : zhaolijun 4 #used to get weblogic server runtime ...

【Requests库】{2} ——爬取网页的通用代码框架

Giyn

03-10

313

网络连接有风险，异常处理很重要理解 Requests库的异常：异常说明 requests.ConnectionError 网络连接错误异常，如DNS查询失败、拒绝连接等 requests.HTTPError HTTP错误异常 requests.URLRequired URL缺失异常 requests.TooManyRedirects 超过最大重定向次数，产生重定向...

ｐｙｔｈｏｎ爬取网页代码框架

qq_24693405的博客

03-12

1582

ｐｙｔｈｏｎ爬取网页代码框架import requestsdef getHTMLText(url): try: r = request.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text excep

使用Python爬取网页数据

03-26

以下是使用Python爬取网页数据的基本步骤： 1. 安装所需的库和框架，如Requests和BeautifulSoup。 ``` pip install requests pip install beautifulsoup4 ``` 2. 发送HTTP请求获取网页内容。 ``` import ...