爬虫入门之自我理解

该博客介绍了如何使用Python的requests库进行网页爬取。通过try-except结构处理异常,利用requests.get()方法获取指定URL(如京东商品页面)的网页内容,并检查状态码确保爬取成功。接着,使用r.encoding转换为'utf-8'避免内容乱码,从而能正确读取和展示爬取的网页前1000个字符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import requests
第一句首先调用requests库

然后使用try和except的框架,进行异常处理

然后就是用reques.get(url)来爬取内容

url通俗来讲就指的是你要爬取的网页链接

并且将其用一个变量r把其存储起来

r=requests.get("https://item.jd.com/100016960357.html")

(这个链接是某东的一个商品链接,你可以自我更换)

警戒值再用r.status_code,来查看爬取内容是否成功

 print(r.status_code)

结果为200时,则爬取成功

如果结果为404或其他某些原因将会产生异常

 紧接着我们又要让爬取的内容不乱码,能够被我们程序员认识

我们就要用r.encoding进行编码的转换

通常r.encoding后面转换为'utf-8'

也就是  r.encoding='utf-8'

转码之后

我们就可以正常查看所爬取的内容了

import requests
try:
    r=requests.get("https://item.jd.com/100016960357.html")
    print(r.status_code)
    r.encoding='utf-8'
    print(r.text[:1000])
except:
    print('爬取错误')

爬出来的内容既然已经可以正常的读取了

我们可以=选择将其保存到文件内,方便我们对文件内容的使用

加一个f.write()函数,就可以了

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值