Python中BeautifulSoup库的用法
https://blog.youkuaiyun.com/qq_21933615/article/details/81171951
参考例子代码
#!/usr/bin/python
# coding: utf-8
import requests
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>
"""
soup = BeautifulSoup(html, "html.parser") #使用BeautifulSoup解析这段代码
#找到第一篇文章标题,定位到class是"post-title"的h1元素,提取a,提取里面的字符串,strip()去除左右空格
title = soup.find("h1", class_="post-title")
print (title.a.text)
结果:
第四章 – 4.3 通过selenium 模拟浏览器抓取
用 notepad++
建立一个 123.html 文件
里面的内容是:
<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>
然后双击 ,会用浏览器打开,
效果如下: