beautiful soup 4
basic
from bs4 import BeautifulSoup
from pprint import pprint
import re
......
soup = BeautifulSoup(html_doc, features='lxml')
print(soup.prettify())
find
pprint(soup.find('a').contents)
pprint(soup.find('a').string)
pprint(soup.find('a').get_text())
find_all
print(soup.find_all(id='link3'))
pprint(soup.find_all('a',limit=1))
print(soup.find_all(href=re.compile('.*elsie')))
pprint(soup.find_all(attrs={'class':'sister','id':'link3'}))
本文介绍了如何使用Python的BeautifulSoup4库解析HTML文档。通过实例演示了如何查找特定元素,如'a'标签,以及如何使用正则表达式匹配属性。此外,还展示了如何获取元素的文本内容和限制搜索结果的数量。
56万+

被折叠的 条评论
为什么被折叠?



