爬虫小练习1~(附加:strip函数扩展)

本文通过实例演示了如何使用Python的requests和BeautifulSoup库从下厨房网站抓取菜品信息,包括菜名、URL和食材,并介绍了strip函数的用法。

爬虫实操1—下厨房练习

代码:

import requests
from bs4 import BeautifulSoup
headers = {‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36’}
#添加请求头,防止被防爬
res_foods = requests.get(‘https://www.xiachufang.com/explore/’,headers = headers)
bs_foods = BeautifulSoup(res_foods.text,‘html.parser’)
list_foods = bs_foods.find_all(‘div’,class_ = ‘info pure-u’)
#此处注意标签的寻找方法
list_all = []
for food in list_foods:
tag_a = food.find(‘a’)
name = tag_a.text.strip()
#strip函数用来去掉多余空格,使数据好看。
url = ‘https://www.xiachufang.com/explore/’+tag_a[‘href’]
#注:这里的网址是 浏览器上方网址加上标签中组合一起的
tag_p = food.find(‘p’,class_ = ‘ing ellipsis’)
ingredients = tag_p.text
list_all.append([name,url,ingredients])
#使菜名,url,食材封装成一个列表

print(list_all)

总结:

text获取到的是该标签内的纯文本信息,即便是在它的子标签内,也能拿得到。但提取属性的值,只能提取该标签本身的。

strip函数扩展

这里是引用本文讲述的是string.split(s[, sep[, maxsplit]]),针对string类型的split()函数。它主要是切割字符串,结果返回由字符串元素组成的一个列表,具体怎么使用看下面的代码。

  1. 无参数的情况

a=“my name is zhangkang”
b=“my\nname\nis\nzhangkang”
c=“my\tname\tis\tzhangkang”

a=a.split()
b=b.split()
c=c.split()

print(a)
print(b)
print©

输出:
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]

当没有参数的情况下,函数默认会以空格,回车符,空格符等作为分割条件。

  1. 有参数的情况

d=“my,name,is,zhangkang”
e=“my;name;is;zhangkang”
f=“my-name-is-zhangkang”

d=d.split(",")
e=e.split(";")
f=f.split("-")

print(d)
print(e)
print(f)

输出:
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]

函数会以参数为分割条件,把字符串进行分割,得到的每个分割段作为列表的元素返回。

  1. 当具有两个参数的情况

a=“My,name,is,zhangkang,and,I,am,a,student”
b1=a.split(",",1)
b2=a.split(",",2)
b8=a.split(",",8)
b9=a.split(",",9)

print(b1)
print(b2)
print(b8)
print(b9)

输出:
[‘My’, ‘name,is,zhangkang,and,I,am,a,student’]
[‘My’, ‘name’, ‘is,zhangkang,and,I,am,a,student’]
[‘My’, ‘name’, ‘is’, ‘zhangkang’, ‘and’, ‘I’, ‘am’, ‘a’, ‘student’]
[‘My’, ‘name’, ‘is’, ‘zhangkang’, ‘and’, ‘I’, ‘am’, ‘a’, ‘student’]

第二个参数的意思是你想分多少次,b1,b2,b8都好理解。有人可能会问b9那个是怎么回事,最大只能分成9段呀,分8次就行了。没错,但是当分第8次的时候,最后一个分割段是”student”,再对“student”进行条件为“,”分割的时候是分不了的,也就是说还是原来的字符串不动。意思就是第二个参数值超过最大分割次数其实是没有意思的,不过程序不会报错!
————————————————
版权声明:本文为优快云博主「neu_张康」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/csdn15698845876/article/details/74012511

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值