主要涉及到的知识点
这里针对的是数据以HTML返回的形式
beautifulsoup、lxml的使用
首先这里需要请求到一个网页地址,之后用beautifulsoup解析网页
requestsAPI = request.get(url)
bs = BeautifulSoup(requestsAPI.content,'lxml')
获取的是多个元素find_all
many = bs.find_all('div',class_ = 'pcb')
获取一个元素find
one = bs[0].find('td')
找到p id = 'number’下面的所有td
findTd = bs.find('p',id = 'number').find_all('td')
找到一个标签下的属性
find = bs[0].find('img')['file']
查看标签内包含的内容
bs[0].find_all('strong')[3].text
Beautiful Soup 4.2.0 文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
本文介绍如何使用Python的requests和BeautifulSoup库从HTML页面中抓取数据,包括解析网页、查找多个元素、定位特定标签及属性,适用于网络爬虫初学者。
525

被折叠的 条评论
为什么被折叠?



