爬虫入门之自我理解

言不由衷994

于 2022-07-10 14:36:14 发布

阅读量212

点赞数

分类专栏：爬虫学习文章标签：爬虫 python

本文链接：https://blog.youkuaiyun.com/qq_62083622/article/details/125705046

版权

爬虫学习专栏收录该内容

1 篇文章

订阅专栏

该博客介绍了如何使用Python的requests库进行网页爬取。通过try-except结构处理异常，利用requests.get()方法获取指定URL（如京东商品页面）的网页内容，并检查状态码确保爬取成功。接着，使用r.encoding转换为'utf-8'避免内容乱码，从而能正确读取和展示爬取的网页前1000个字符。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
第一句首先调用requests库

然后使用try和except的框架，进行异常处理

然后就是用reques.get(url)来爬取内容

url通俗来讲就指的是你要爬取的网页链接

并且将其用一个变量r把其存储起来

r=requests.get("https://item.jd.com/100016960357.html")

（这个链接是某东的一个商品链接，你可以自我更换）

警戒值再用r.status_code,来查看爬取内容是否成功

print(r.status_code)

结果为200时，则爬取成功

如果结果为404或其他某些原因将会产生异常

紧接着我们又要让爬取的内容不乱码，能够被我们程序员认识

我们就要用r.encoding进行编码的转换

通常r.encoding后面转换为'utf-8'

也就是 r.encoding='utf-8'

转码之后

我们就可以正常查看所爬取的内容了

import requests
try:
    r=requests.get("https://item.jd.com/100016960357.html")
    print(r.status_code)
    r.encoding='utf-8'
    print(r.text[:1000])
except:
    print('爬取错误')

爬出来的内容既然已经可以正常的读取了

我们可以=选择将其保存到文件内，方便我们对文件内容的使用

加一个f.write()函数，就可以了