python的应用小例子-------网页数据抓取与分析

本文介绍使用Python进行网页数据抓取的实用技巧,通过实例演示如何利用requests和BeautifulSoup库抓取和分析PM2.5空气质量指数。详细展示了正则表达式的使用方法,包括match(), search()和findall(),并实现了一个从网站抓取北京PM2.5实时数据的完整流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python的一些应用小例子---网页数据抓取与分析

网页数据抓取与分析

先来看一些方法

match():

在string中查找符合正则表达式规则的字符串,遇到第一个不符合的结束

import re

pat = re.compile('[a-z]+' )

m = pat.match('tedhh23jdksj')      //m = re.match(r ' [a-z]+','tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;span=(0,5),match='tedhh'>

search()

在string中查找第一组符合的表达式字符串,找到后结束。

import re

pat = re.compile('[a-z]+' )

m = pat.search('3333tedhh23jdksj')      //m = re.match(r ' [a-z]+','tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;span=(4,9),match='tedhh'>

findall()

在string中查找所有符合规则的字符串返回一个列表

import re

pat = re.compile('[a-z]+' )

m = pat.findall('2tedhh23jdksj')      //m = re.match(r ' [a-z]+','tedhh23jdksj')

printf(m)

--------<_sre.SRE_Match object;match='tedhh','jdksj'>

例子---抓取PM2.5的实时数据

import requests

from bs4 import BeautifulSoup//导入解析包

url1 = 'http://www.pm25x.com/'

html = requests.get(url1)//抓取数据

sp1= BeautifulSoup(html.text ,'html.parser')//把数据进行解析

city = sql.find("a",{"title":"北京 PM2.5"})//查找标签为北京 PM2.5

citylink = city.get("href")

printf(citylink)

url2 = url1+citylink //生成二级页面链接

printf(url2)

html2 = requests.get(url2)

sp2 = BeautifulSoup(html2.text,"html.parser")

data1 = sp2.select(".aqivalue")

pm25 = data[0].text

printf("pm2.5为"+pm25)

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值