爬虫

爬虫的四个步骤:

0获取数据           requests
1解析数据           BeautifulSoup
2提取数据           BeautifulSoup
3

存储数据

 

 

 

爬虫库:

0requestsres=requests.get(url)
 BeautifulSoupbs对象=BeautifulSoup(要解析的文本,‘解析器’) 被解析的文本必须是字符串
  find(),find_all()
   
   

 

response=requests.get(url)

response对象的常用属性

属性对象
response.status_code状态码,检查请求是否成功
response.text把response对象转化为字符串数据
response.content把response对象转化为二进制数据
response.encoding定义response对象的编码

最常见的几个html属性

属性用法
class类名
id定义元素的唯一id
href定义链接
style规定元素的行内样式

 

find()和find_all()是BeautifulSoup的两个常用方法,

方法作用用法示例
find()提取满足要求的首个数据BeautifulSoup.find(标签,属性)soup.find('div',class_='books')
find_all()提取满足要求的所有数据BeautifulSoup.find_all(标签,属性)soup.find_all('div',class_='books')

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值