Python爬虫实战(一)疫情数据

本文介绍了使用Python进行爬虫实战,聚焦疫情数据的抓取。讲解了BeautifulSoup库中find方法的使用,Tag对象的属性,如name、attrs和text。还涉及正则表达式的应用,以及如何将json字符串和文件转换为Python数据结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

github地址:
https://github.com/ZhengLin-Li/leaning-spider-COVID19Situation

1. BeautifulSoup的find方法

# for example

soup.find('a') # 根据标签名查找

soup.find(id='link1') # 根据属性查找

soup.find(attrs={
   'id':'link1'}) # 根据属性查找

soup.find(test='aaa') # 根据标签文本内容查找

2. Tag对象

find方法返回的是Tag对象,有如下属性

Tag对象对应于原始文档中的html标签

name:标签名称

attrs:标签属性的键和值

text:标签的字符串文本

3. 正则表达式

. \d

+*?

()

[]

\

r原串

import re

rs = re.findall('\d','123')
rs = re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值