爬虫的四个步骤:
0 | 获取数据 requests |
1 | 解析数据 BeautifulSoup |
2 | 提取数据 BeautifulSoup |
3 | 存储数据
|
爬虫库:
0 | requests | res=requests.get(url) |
BeautifulSoup | bs对象=BeautifulSoup(要解析的文本,‘解析器’) 被解析的文本必须是字符串 | |
find(),find_all() | ||
response=requests.get(url)
response对象的常用属性
属性 | 对象 |
response.status_code | 状态码,检查请求是否成功 |
response.text | 把response对象转化为字符串数据 |
response.content | 把response对象转化为二进制数据 |
response.encoding | 定义response对象的编码 |
最常见的几个html属性
属性 | 用法 |
class | 类名 |
id | 定义元素的唯一id |
href | 定义链接 |
style | 规定元素的行内样式 |
find()和find_all()是BeautifulSoup的两个常用方法,
方法 | 作用 | 用法 | 示例 |
find() | 提取满足要求的首个数据 | BeautifulSoup.find(标签,属性) | soup.find('div',class_='books') |
find_all() | 提取满足要求的所有数据 | BeautifulSoup.find_all(标签,属性) | soup.find_all('div',class_='books') |