【Python爬虫】解析网页

镰刀韭菜

于 2019-07-07 00:21:37 发布

阅读量414

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签： Python 爬虫网络爬虫 Spyder

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/94876996

深度学习与机器学习专栏收录该内容

103 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python中解析网页的三种方法：利用正则表达式的match、search和findall，深入讲解了BeautifulSoup如何提取HTML内容，包括遍历、搜索和CSS选择器的使用，以及lxml库通过XPath获取信息。还提供了BeautifulSoup在爬取房屋价格数据上的应用实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

解析网页

1.使用正则表达式解析网页

Python正则表达式的3种方法，分别是match、search和findall.

re.match是从字符串起始位置匹配一个模式，如果从起始位置匹配不了，match()就返回none。

问题：为什么要在match的模式前面加上r呢？

答：r的意思是raw string，代表纯粹的字符串，使用它就不会对引号里面的反斜杠'\'进行特殊处理。因为在正则表达式中有一些类似的'\d'（匹配任何数字）的模式，所以模式中的单个反斜杠'\'符合都要进行转译。

re.match只能从字符串的起始位置进行匹配，而re.search扫描整个字符串并返回第一个成功的匹配。

re.findall可以找到所有的匹配，并且以列表的形式返回。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : Parsing01.py
@Author: Xinzhe.Pang
@Date  : 2019/7/6 11:45
@Desc  : 
"""
import re
import requests

link = "ht