【Python爬虫】解析网页

本文介绍了Python中解析网页的三种方法:利用正则表达式的match、search和findall,深入讲解了BeautifulSoup如何提取HTML内容,包括遍历、搜索和CSS选择器的使用,以及lxml库通过XPath获取信息。还提供了BeautifulSoup在爬取房屋价格数据上的应用实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

解析网页


1.使用正则表达式解析网页

Python正则表达式的3种方法,分别是match、search和findall.

re.match是从字符串起始位置匹配一个模式,如果从起始位置匹配不了,match()就返回none。

问题:为什么要在match的模式前面加上r呢?

答:r的意思是raw string,代表纯粹的字符串,使用它就不会对引号里面的反斜杠'\'进行特殊处理。因为在正则表达式中有一些类似的'\d'(匹配任何数字)的模式,所以模式中的单个反斜杠'\'符合都要进行转译。

re.match只能从字符串的起始位置进行匹配,而re.search扫描整个字符串并返回第一个成功的匹配。

re.findall可以找到所有的匹配,并且以列表的形式返回。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : Parsing01.py
@Author: Xinzhe.Pang
@Date  : 2019/7/6 11:45
@Desc  : 
"""
import re
import requests

link = "ht
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值