Python小白自学第一天:获取网站(实例代码)

这篇博客介绍了Python小白如何开始学习网络爬虫。通过使用requests模块,展示了获取网页内容的基本步骤。文中强调了正确设置encoding参数以避免乱码问题,以'http://www.chinastor.com/si/hub/list_239_2.html'为例,演示了获取并打印网页文本的代码。

Python小白自学第一天:获取网站(实例代码)

import requests
res = requests.get(‘http://www.chinastor.com/si/hub/list_239_2.html’)
res.encoding = ‘utf-8’
print(res.text)

代码解释:
1、import 命令
import语句用来导入其他python文件(称为模块module),使用该模块里定义的类、方法或者变量,从而达到代码复用的目的;

2、requests 模块
requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习python爬虫的较好的http请求模块。

3、encoding 参数
以指定的编码格式编码字符串,默认编码为 ‘utf-8’
encoding 参数可选,即要使用的编码,默认编码为 ‘utf-8’。字符串编码常用类型有:utf-8,gb2312,cp936,gbk等
参数不对,会导致乱码。

4、text参数

上述获取网站的编码是gb2312,替换了就不会出现乱码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值