Python小白自学第一天:获取网站(实例代码)
import requests
res = requests.get(‘http://www.chinastor.com/si/hub/list_239_2.html’)
res.encoding = ‘utf-8’
print(res.text)
代码解释:
1、import 命令
import语句用来导入其他python文件(称为模块module),使用该模块里定义的类、方法或者变量,从而达到代码复用的目的;
2、requests 模块
requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习python爬虫的较好的http请求模块。
3、encoding 参数
以指定的编码格式编码字符串,默认编码为 ‘utf-8’
encoding 参数可选,即要使用的编码,默认编码为 ‘utf-8’。字符串编码常用类型有:utf-8,gb2312,cp936,gbk等
参数不对,会导致乱码。
4、text参数
上述获取网站的编码是gb2312,替换了就不会出现乱码。
这篇博客介绍了Python小白如何开始学习网络爬虫。通过使用requests模块,展示了获取网页内容的基本步骤。文中强调了正确设置encoding参数以避免乱码问题,以'http://www.chinastor.com/si/hub/list_239_2.html'为例,演示了获取并打印网页文本的代码。
2207

被折叠的 条评论
为什么被折叠?



