一个模块就是一个py文件,里面有别人已经写好的类、方法、属性、函数、变量……
把模块分类存储,放进不同的文件夹。这种文件夹我们把它叫做包(package)
上网冲浪 使用各种软件,从网络上下载和上传数据。
网络爬虫的意思,就是这活我们不要自己干啦,让程序去做。web抓取
爬虫工作分为两个阶段:
第0,获取数据;
第1,解析数据。
获取数据。它涉及到的模块是requests。
怎么使用模块
1、下载需要地模块
方法是打开终端软件(windows电脑里叫命令提示符),输入pip install requests(苹果电脑输入:pip3 install requests),然后点击enter即可。
需要预装python解释器和pip
pip install + 你想安装的模块名。苹果电脑用户则需要使用pip3
2、调用模块
import 你想调用的模块
#比如: import requests,就是调用requests模块。
调用多个模块,在模块之间用英文逗号分隔
3、给模块输入参数,得到一个对象
4、借助这个对象的属性或方法完成项目。
request模块
1、有什么函数可用 get 下载东西
2、需要输入什么 网址
3、有什么属性或方法可用 text content
.text,提取文本
.content 下载图片和音频 . 以2进制获取内容,这样做赋值是内容全保留的
*文本
import requests
#引用requests模块
sanguo = requests.get('https://static.pandateacher.com/sanguo.md')
#下载《三国演义》第一回,我们得到一个对象,它被命名为sanguo
print(sanguo.text[:800])
#sanguo.text是对象sanguo的一个用法。字数太多,只打印前800字。
*图片
import requests
response = requests.get('https://gratisography.com/thumbnails/gratisography-318-thumbnail.jpg')
pic = open('photo.jpg','wb')
#图片内容,需要以二进制wb读写。你在学习open()函数时接触过它。
#你看到这里的文件没加路径,它会被保存在程序运行的当前目录下。
pic.write(response.content)
#不同于.text是获取文本内容,.content是获取二进制内容,不会产生数据丢失或乱码。
#这行代码,是将response写入pic内。
*音频
import requests
response = requests.get('https://static.pandateacher.com/py_1.mp3')
music = open('music.mp3','wb')
#音频内容,需要以二进制wb读写。你在学习open()函数时接触过它。
#你看到这里的文件没加路径,它会被保存在程序运行的当前目录下。
music.write(response.content)
#不同于.text是获取文本内容,.content是获取二进制内容,不会产生数据丢失或乱码。
#这行代码,是将response写入music内。