解析网页
1.使用正则表达式解析网页
Python正则表达式的3种方法,分别是match、search和findall.
re.match是从字符串起始位置匹配一个模式,如果从起始位置匹配不了,match()就返回none。
问题:为什么要在match的模式前面加上r呢?
答:r的意思是raw string,代表纯粹的字符串,使用它就不会对引号里面的反斜杠'\'进行特殊处理。因为在正则表达式中有一些类似的'\d'(匹配任何数字)的模式,所以模式中的单个反斜杠'\'符合都要进行转译。
re.match只能从字符串的起始位置进行匹配,而re.search扫描整个字符串并返回第一个成功的匹配。
re.findall可以找到所有的匹配,并且以列表的形式返回。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File : Parsing01.py
@Author: Xinzhe.Pang
@Date : 2019/7/6 11:45
@Desc :
"""
import re
import requests
link = "ht