用正则表达式提取信息

部署运行你感兴趣的模型镜像

这里写图片描述

正则表达式,说白了就是用来匹配字符的,正则表达式是用来简洁表达一组字符串的表达式.
正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
很多编程语言都支持正则表达式进行字符串操作。在代码中常简写为regex、regexp或RE。
比如Pythonz中就有一个叫:re 的正则表达式库,这是Python的标准库,安装Python后自带,使用时只需要

import re

我们可以通过requests获取网页的页面信息,但是其中的信息太过于杂乱,我们需要从中提取我们需要的信息,那么我们可以用Python的正则表达式库来提取我们需要的信息,比如说,我们想要从中提取”百度一下,你就知道”的中文字符,我们这样操作

这里写图片描述

这样我们就可以把html页面中的”百度一下,你就知道”的标签从复杂凌乱的信息中提取出来了,再经过一些处理就可以拿出来了

语法

那我们开始学习正则表达式的语法了  以下是正则表达式的常用操作符:

.     表示任何单个字符
[ ]    字符集,对单个字符给出取值范围      [abc]表示a、b、c,[a‐z]表示a到z单个字符
[^ ]   非字符集,对单个字符给出排除范围     [^abc]表示非a或b或c的单个字符
*     前一个字符0次或无限次扩展        abc* 表示 ab、abc、abcc、abccc等
+     前一个字符1次或无限次扩展        abc+ 表示 abc、abcc、abccc等
?     前一个字符0次或1次扩展         abc? 表示 ab、abc
|     左右表达式任意一个            abc|def 表示 abc、def
{m}    扩展前一个字符m次            ab{2}c表示abbc
{m,n}   扩展前一个字符m至n次(含n)       ab{1,2}c表示abc、abbc
^     匹配字符串开头             ^abc表示abc且在一个字符串的开头
$     匹配字符串结尾              abc$表示abc且在一个字符串的结尾
( )    分组标记,内部只能使用 | 操作符     (abc)表示abc,(abc|def)表示abcdef
\d    数字,等价于[09] 
\w    单词字符,等价于[AZa‐z09_]

这些都是非常常见的正则表达式操作符,记住了,大部分都能用了。

我们接下来看一下经典的正则表达式匹配实例

^[A‐Za‐z]+$          由26个字母组成的字符串
^[A‐Za‐z0‐9]+$        由26个字母和数字组成的字符串
^‐?\d+$            整数形式的字符串
^[0‐9]*[1‐9][0‐9]*$     正整数形式的字符串
[1‐9]\d{5}          中国境内邮政编码,6位
[\u4e00‐\u9fa5]       匹配中文字符
\d{3}‐\d{8}|\d{4}‐\d{7}   国内电话号码,010‐68913536

正则表达式库

上面我们说过,re是Python的内置库,不需要安装,直接导入即可

raw string类型(原生字符串类型),也就是不包含对转义符再次转义的字符串
re库采用raw string类型表示正则表达式,表示为:     r’text’

re库的主要函数共有6个,分别是

re.search()     在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()      从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()     搜索字符串,以列表类型返回全部能匹配的子串
re.split()      将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer()    搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub()       在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

re.findall( )这个比较简单常用,用法如下:
这个函数共有三个参数,pattern, string , flags

re.findall(pattern, string, flags=0)
搜索字符串,以列表类型返回全部能匹配的子串

∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string  : 待匹配字符串
∙ flags 正则表达式使用时的控制标记

比如我们要从一堆字符中,把数字提取出来:

这里写图片描述

其他函数的使用实例

这里写图片描述

定向爬虫

爬取豆瓣电影,上海热映的电影:

url = https://movie.douban.com/cinema/nowplaying/shanghai/

我们需要定义一个函数,用于获取豆瓣热映的电影信息:

import requests   //导入需要用到的库
import re

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("Erro_get")

我们还需要定义一个函数,用于提取所需要的电影信息:

def parsePage(ilt,html):

    tlt = re.findall(r'data-title\=\".*?\"',html)
    for i in range(len(tlt)):
        plt = eval(tlt[i].split('=')[1])
        if plt in ilt:
            pass
        else:
            ilt.append(plt)

然后第三个函数用于输出电影列表:

def printInfo(ilt):
    print("上 海 热 映")
    for i in ilt:
        print(i)

再定义一个主函数去调用这些功能函数:

def main():
    url = 'https://movie.douban.com/cinema/nowplaying/shanghai/'
    kv = {'User-Agent' : 'Mozilla/5.0'}
    list = []
    html = getHTMLText(url)
    parsePage(list,html)
    printInfo(list)

main()

运行即可看到以下画面:

这里写图片描述

总结

re库的功能非常强大,这些只是一些非常浅显的内容。
大家可以多实战,掌握正则表达式的用法。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 如何在 JMeter 中使用正则表达式提取器及其引用方法 #### 什么是正则表达式提取器? 正则表达式提取器是 JMeter 提供的一个功能强大的组件,主要用于从服务器返回的响应中提取所需的数据[^1]。通过定义特定的正则表达式模式,可以精确匹配目标数据并将其存储到变量中以便后续使用。 --- #### 配置正则表达式提取器的关键参数 以下是配置正则表达式提取器时需要设置的主要字段: 1. **名称 (Name)** 给提取器指定一个易于识别的名字,方便管理测试计划中的多个提取器[^3]。 2. **应用范围 (Apply to)** 定义正则表达式作用于哪个部分的内容,默认情况下可以选择 `Body` 或其他选项(如 Headers)。如果仅需处理响应体,则保持默认值即可[^4]。 3. **正则表达式 (Regular Expression)** 输入用于匹配目标数据的具体正则表达式。例如,在 HTML 响应中查找 `<input>` 标签内的属性值可采用如下形式: ```regex <name=(.+?)\svalue=(.+?)> ``` 4. **模板 (Template)** 指定如何解析匹配结果。通常格式为 `$n$`,其中 n 表示捕获组编号。对于上述例子,若希望分别保存 name 和 value 的值,则模板设为 `$1$$;$2$`[^2]。 5. **匹配序号 (Match No.)** 如果存在多个符合条件的结果,可以通过此参数选择具体哪一项作为最终输出。负数表示随机选取其中之一;0 则意味着返回所有可能的匹配项列表[^1]。 6. **默认值 (Default Value)** 当没有任何满足条件的数据被找到时所使用的替代字符串。这有助于防止因缺失预期信息而导致脚本失败[^3]。 --- #### 实际操作案例分析 假设我们正在开发一款登录页面的功能测试场景,并希望通过正则表达式提取 CSRF Token 来完成安全校验流程。已知该令牌嵌套在一个隐藏输入框内,形似下面这段代码片段: ```html <input type="hidden" id="_csrf_token" name="token" value="abcde12345"> ``` 此时可以根据实际需求设计相应的正则表达式与模板组合实现自动化抓取过程: - 正则表达式:`<input.*?id="_csrf_token".*?value="(.*?)">` - 模板:`$1$` 随后将提取出来的 token 存储至自定义变量 `${CSRF_TOKEN}` 下面,从而允许在整个线程组范围内重复调用它参与动态交互逻辑构建工作流[^4]。 --- #### 调试技巧推荐 为了提高效率减少错误发生概率建议遵循以下几个原则来进行前期准备工作: - 将完整的 HTTP 请求单独运行一遍并将完整结果复制粘贴下来; - 运用第三方网站或者插件辅助验证初步构思好的规则准确性; - 只有当确认无误之后才正式集成回原项目文件当中去执行下一步骤动作[^3]。 --- ```python import re # 示例 Python 代码展示简单的正则匹配原理 response_text = '<input type="hidden" id="_csrf_token" name="token" value="abcde12345">' pattern = r'<input.*?id="_csrf_token".*?value="(.*?)">' # 对应前面提到过的正则表达式 match_result = re.search(pattern, response_text) if match_result: csrf_token_value = match_result.group(1) print(f'Extracted CSRF Token: {csrf_token_value}') else: print('No matching pattern found.') ``` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值