这是一个功能强大的库,可以代替很多需要写正则的地方
这是一个第三方解析库,常规安装方法:
调出cmd:pip install bs4
简单了解:
html = """ <html lang="en"><head> <meta charset="UTF-8"> <title>TITLE</title> </head> <body> <table border="1"> <tr>/ <td>第一行,第1列</td> <td>第一行,第2列</td> <td>第一行,第3列</td> </tr> </table> </body> </html>""" from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'lxml') #自动补全修正html文本 print(soup.prettify()) #获得html的标题 print(soup.title.string)
标签选择器:
html = """ <html lang="en"><head> <meta charset="UTF-8"> <title>TITLE</title> </head> <body> <table border="1"> <tr>/ <td>第一行,第1列</td> <td>第一行,第2列</td> <td>第一行,第3列</td> </tr> </table> </body> </html>""" from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'lxml') print(soup.title) #<title>TITLE</title> print(soup.head) ''' <head> <meta charset="utf-8"/> <title>TITLE</title> </head> ''' print(soup.td) #只能获取第一个,所以打印:<td>第一行,第1列</td>
获取属性:
html = """ <html lang="en"><head> <meta charset="UTF-8"> <title>666</title> </head> <body> <table border="1"> <tr>/ <td>第一行,第1列</td> <td>第一行,第2列</t