Python中BeautifulSoup库的用法

最新推荐文章于 2024-03-29 00:20:16 发布

原创最新推荐文章于 2024-03-29 00:20:16 发布 · 197 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

313 篇文章

订阅专栏

Python中BeautifulSoup库的用法

https://blog.youkuaiyun.com/qq_21933615/article/details/81171951

参考例子代码

#!/usr/bin/python
# coding: utf-8

import requests
from bs4 import BeautifulSoup     #从bs4这个库中导入BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>
"""


soup = BeautifulSoup(html, "html.parser")  #使用BeautifulSoup解析这段代码
#找到第一篇文章标题，定位到class是"post-title"的h1元素，提取a，提取里面的字符串，strip()去除左右空格
title = soup.find("h1", class_="post-title")
print (title.a.text)

结果：
第四章 – 4.3 通过selenium 模拟浏览器抓取

用 notepad++
建立一个 123.html 文件
里面的内容是:

<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>

然后双击，会用浏览器打开，
效果如下：

在这里插入图片描述