爬虫实操1—下厨房练习
代码:
import requests
from bs4 import BeautifulSoup
headers = {‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36’}
#添加请求头,防止被防爬
res_foods = requests.get(‘https://www.xiachufang.com/explore/’,headers = headers)
bs_foods = BeautifulSoup(res_foods.text,‘html.parser’)
list_foods = bs_foods.find_all(‘div’,class_ = ‘info pure-u’)
#此处注意标签的寻找方法
list_all = []
for food in list_foods:
tag_a = food.find(‘a’)
name = tag_a.text.strip()
#strip函数用来去掉多余空格,使数据好看。
url = ‘https://www.xiachufang.com/explore/’+tag_a[‘href’]
#注:这里的网址是 浏览器上方网址加上标签中组合一起的
tag_p = food.find(‘p’,class_ = ‘ing ellipsis’)
ingredients = tag_p.text
list_all.append([name,url,ingredients])
#使菜名,url,食材封装成一个列表
print(list_all)
总结:
text获取到的是该标签内的纯文本信息,即便是在它的子标签内,也能拿得到。但提取属性的值,只能提取该标签本身的。
strip函数扩展
这里是引用本文讲述的是string.split(s[, sep[, maxsplit]]),针对string类型的split()函数。它主要是切割字符串,结果返回由字符串元素组成的一个列表,具体怎么使用看下面的代码。
- 无参数的情况
a=“my name is zhangkang”
b=“my\nname\nis\nzhangkang”
c=“my\tname\tis\tzhangkang”
a=a.split()
b=b.split()
c=c.split()
print(a)
print(b)
print©
输出:
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
当没有参数的情况下,函数默认会以空格,回车符,空格符等作为分割条件。
- 有参数的情况
d=“my,name,is,zhangkang”
e=“my;name;is;zhangkang”
f=“my-name-is-zhangkang”
d=d.split(",")
e=e.split(";")
f=f.split("-")
print(d)
print(e)
print(f)
输出:
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
[‘my’, ‘name’, ‘is’, ‘zhangkang’]
函数会以参数为分割条件,把字符串进行分割,得到的每个分割段作为列表的元素返回。
- 当具有两个参数的情况
a=“My,name,is,zhangkang,and,I,am,a,student”
b1=a.split(",",1)
b2=a.split(",",2)
b8=a.split(",",8)
b9=a.split(",",9)
print(b1)
print(b2)
print(b8)
print(b9)
输出:
[‘My’, ‘name,is,zhangkang,and,I,am,a,student’]
[‘My’, ‘name’, ‘is,zhangkang,and,I,am,a,student’]
[‘My’, ‘name’, ‘is’, ‘zhangkang’, ‘and’, ‘I’, ‘am’, ‘a’, ‘student’]
[‘My’, ‘name’, ‘is’, ‘zhangkang’, ‘and’, ‘I’, ‘am’, ‘a’, ‘student’]
第二个参数的意思是你想分多少次,b1,b2,b8都好理解。有人可能会问b9那个是怎么回事,最大只能分成9段呀,分8次就行了。没错,但是当分第8次的时候,最后一个分割段是”student”,再对“student”进行条件为“,”分割的时候是分不了的,也就是说还是原来的字符串不动。意思就是第二个参数值超过最大分割次数其实是没有意思的,不过程序不会报错!
————————————————
版权声明:本文为优快云博主「neu_张康」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/csdn15698845876/article/details/74012511
本文通过实例演示了如何使用Python的requests和BeautifulSoup库从下厨房网站抓取菜品信息,包括菜名、URL和食材,并介绍了strip函数的用法。
1549

被折叠的 条评论
为什么被折叠?



