前言
通过实例来学习数据解析中的正则表达式解析方法,在实操的过程中也会扩展一些知识点的分享
一、正则表达式的基本用法
正则表达式描述了一种字符串匹配的模式(pattern),可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
通俗理解:就是使用一种规则性的表达式来寻找文本字符串中通用的数据。
我们在解析数据时一般会用到几个常用的函数:
re.find(),re.findall() :一个是找到一个便返回值,另一个是找到所有符合条件的值,里边的参数都是“pattern”,“字符串文本”。
re.match(),re.search() : 一个是从头开始匹配,一个是从任意位置开始匹配
re.complie() ,re.finder() 返回迭代器 re.sub() :替换
以及我们在获取数据时的贪婪模式 .*?
二、实例分析
1.获取我们想要的数据
代码如下(示例):
import requests
from bs4 import BeautifulSoup
import re
import csv
url = "https://www.mi.com/p/1915.html"
requ = requests.get(url)
data = requ.text.replace(" ","").replace("\n",