python的应用小例子-------网页数据抓取与分析

阅白

于 2020-07-19 19:43:22 发布

阅读量381

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vicky_white/article/details/107449459

版权

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍使用Python进行网页数据抓取的实用技巧，通过实例演示如何利用requests和BeautifulSoup库抓取和分析PM2.5空气质量指数。详细展示了正则表达式的使用方法，包括match(), search()和findall()，并实现了一个从网站抓取北京PM2.5实时数据的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python的一些应用小例子---网页数据抓取与分析

网页数据抓取与分析

先来看一些方法

match():

在string中查找符合正则表达式规则的字符串，遇到第一个不符合的结束

import re

pat = re.compile('[a-z]+' )

m = pat.match('tedhh23jdksj') //m = re.match(r ' [a-z]+'，'tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;span=(0,5),match='tedhh'>

search()

在string中查找第一组符合的表达式字符串，找到后结束。

import re

pat = re.compile('[a-z]+' )

m = pat.search('3333tedhh23jdksj') //m = re.match(r ' [a-z]+'，'tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;span=(4,9),match='tedhh'>

findall()

在string中查找所有符合规则的字符串返回一个列表

import re

pat = re.compile('[a-z]+' )

m = pat.findall('2tedhh23jdksj') //m = re.match(r ' [a-z]+'，'tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;match='tedhh','jdksj'>

例子---抓取PM2.5的实时数据

import requests

from bs4 import BeautifulSoup//导入解析包

url1 = 'http://www.pm25x.com/'

html = requests.get(url1)//抓取数据

sp1= BeautifulSoup(html.text ，'html.parser')//把数据进行解析

city = sql.find("a",{"title":"北京 PM2.5"})//查找标签为北京 PM2.5

citylink = city.get("href")

printf(citylink)

url2 = url1+citylink //生成二级页面链接

printf(url2)

html2 = requests.get(url2)

sp2 = BeautifulSoup(html2.text，"html.parser")

data1 = sp2.select(".aqivalue")

pm25 = data[0].text

printf("pm2.5为"+pm25)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。