bs4获取html文档,如何使用BeautifulSoup bs4获取HTML标记的内部文本值?

该博客介绍了如何利用Python的BeautifulSoup库来抓取网页上的标题信息。通过发送HTTP请求获取网页内容,然后解析HTML,提取<title>标签内的文本。示例代码展示了从StackOverflow网站获取页面标题,并演示了如何将提取到的文本用于文件命名。

使用.text从标记中获取文本.

oname = soup.find("title")

oname.text

或者只是soup.title.text

In [4]: from bs4 import BeautifulSoup

In [5]: import requests

In [6]: r = requests.get("https://stackoverflow.com/questions/27934387/how-to-retrieve-information-inside-a-tag-with-python/27934403#27934387")

In [7]: BeautifulSoup(r.content).title.text

Out[7]: u'html - How to Retrieve information inside a tag with python - Stack Overflow'

要打开文件并使用文本作为名称,请像使用任何其他字符串一样使用它:

with open(oname.text, 'w') as f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值