python爬虫-实现小说<战争与和平>中人物出场顺序显示所有人名

开发工具

  • python版本: python-3.8.1-amd64

  • python开发工具: JetBrains PyCharm 2018.3.6 x64

  • 安装BeautifulSoup库(指定阿里镜像安装会很快)
    pip install beautifulsoup4 -i http://mirrors.aliyun.com/pypi/simple/

  • 战争与和平小说网页地址http://www.pythonscraping.com/pages/warandpeace.html

爬虫分析

  • 打开网页源代码,人名都是有span标签并且class的属性值都是green
 <span class="green">Prince Vasili Kuragin</span>

爬虫代码

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html, 'html.parser')
namelist = bsObj.findAll('span',{'class':'green'}) # 获取页面中所有指定的标签
for name in namelist:
    print(name.get_text())

运行效果

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince

总结

这里主要使用到了findAll函数来实现获取所有指定属性的标签,还有利用了get_text函数清除所有标签只保含文字信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值