Python中BeautifulSoup库的用法

Python中BeautifulSoup库的用法

https://blog.youkuaiyun.com/qq_21933615/article/details/81171951

参考例子代码

#!/usr/bin/python
# coding: utf-8

import requests
from bs4 import BeautifulSoup     #从bs4这个库中导入BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>
"""


soup = BeautifulSoup(html, "html.parser")  #使用BeautifulSoup解析这段代码
#找到第一篇文章标题,定位到class是"post-title"的h1元素,提取a,提取里面的字符串,strip()去除左右空格
title = soup.find("h1", class_="post-title")
print (title.a.text)

结果:
第四章 – 4.3 通过selenium 模拟浏览器抓取

用 notepad++
建立一个 123.html 文件
里面的内容是:

<h1 class="post-title">
<a href="http://www.santostang.com/2018/07/15/4-3-%e9%80%9a%e8%bf%87selenium-%e6%a8%a1%e6%8b%9f%e6%b5%8f%e8%a7%88%e5%99%a8%e6%8a%93%e5%8f%96/">
第四章 – 4.3 通过selenium 模拟浏览器抓取
</a>
</h1>

然后双击 ,会用浏览器打开,
效果如下:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值