不要对正则表达式进行频繁重复预编译

背景

在频繁调用场景,如方法体内或者循环语句中,新定义Pattern会导致重复预编译正则表达式,降低程序执行效率。另外,在 JDK 中部分 入参为正则表达式格式的 API,如 String.replaceAll, String.split 等,也需要关注性能问题。

验证

正例:

将 Pattern 对象预编译,并在常量中声明。

    private static final String IP_V4 = "^(((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))\\.){3}((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))$";
    // Pattern 常量
    private static final Pattern IP_V4_PATTERN = Pattern.compile(IP_V4);
    public static boolean isValidIpv4V2(String input) {
        if (input == null) {
            return false;
        }
        return IP_V4_PATTERN.matcher(input).matches();
    }

反例:

每次调用时才声明 Pattern。

    private static final String IP_V4 = "^(((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))\\.){3}((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))$";
    public static boolean isValidIpv4V1(String input) {
        if (input == null) {
            return false;
        }
        Pattern pattern = Pattern.compile(IP_V4);
        return pattern.matcher(input).matches();
    }

测试代码:

package com.ysx.utils.pattern.performance;

import org.junit.jupiter.api.Test;

import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;
import java.util.concurrent.TimeUnit;
import java.util.regex.Pattern;

/**
 * @author youngbear
 * @email youngbear@aliyun.com
 * @date 2023-09-17 8:31
 * @blog <a href="https://blog.youkuaiyun.com/next_second">...</a>
 * @github <a href="https://github.com/YoungBear">...</a>
 * @description 正则表达式性能测试
 */
public class PrecompilePerformanceTest {

    private static final String IP_V4 = "^(((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))\\.){3}((\\d)|([1-9]\\d)|(1\\d{2})|(2[0-4]\\d)|(25[0-5]))$";
    // Pattern 常量
    private static final Pattern IP_V4_PATTERN = Pattern.compile(IP_V4);

    // 缓存
    private static final Map<String, Pattern> cacheCompilePatternMap = new ConcurrentHashMap<>();

    public static boolean isValidIpv4V1(String input) {
        if (input == null) {
            return false;
        }
        Pattern pattern = Pattern.compile(IP_V4);
        return pattern.matcher(input).matches();
    }

    public static boolean isValidIpv4V2(String input) {
        if (input == null) {
            return false;
        }
        return IP_V4_PATTERN.matcher(input).matches();
    }

    public static boolean isValidIpv4V3(String input) {
        if (input == null) {
            return false;
        }
        if (!cacheCompilePatternMap.containsKey(IP_V4)) {
            cacheCompilePatternMap.put(IP_V4, Pattern.compile(IP_V4));
        }
        Pattern pattern = cacheCompilePatternMap.get(IP_V4);
        return pattern.matcher(input).matches();
    }

    @Test
    public void performanceTest() {
        String input1 = "192.168.12.13";
        long start = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V1(input1);
        }
        long stop = System.currentTimeMillis();
        System.out.println("isValidIpv4V1, input1, consume: " + (stop - start) + "ms");

        String input2 = "192.168.12.13";
        long start2 = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V1(input2);
        }
        long stop2 = System.currentTimeMillis();
        System.out.println("isValidIpv4V1, input2, consume: " + (stop2 - start2) + "ms");
    }

    @Test
    public void performanceV2Test() {
        String input1 = "192.168.12.13";
        long start = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V2(input1);
        }
        long stop = System.currentTimeMillis();
        System.out.println("isValidIpv4V2, input1, consume: " + (stop - start) + "ms");

        String input2 = "192.168.12.13";
        long start2 = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V2(input2);
        }
        long stop2 = System.currentTimeMillis();
        System.out.println("isValidIpv4V2, input2, consume: " + (stop2 - start2) + "ms");
    }

    @Test
    public void performanceV3Test() {
        String input1 = "192.168.12.13";
        long start = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V3(input1);
        }
        long stop = System.currentTimeMillis();
        System.out.println("isValidIpv4V3, input1, consume: " + (stop - start) + "ms");

        String input2 = "192.168.12.13";
        long start2 = System.currentTimeMillis();
        for (int i = 0; i < 10000; i++) {
            isValidIpv4V3(input2);
        }
        long stop2 = System.currentTimeMillis();
        System.out.println("isValidIpv4V3, input2, consume: " + (stop2 - start2) + "ms");
    }

}

执行结果:

isValidIpv4V1, input1, consume: 232ms
isValidIpv4V1, input2, consume: 74ms
isValidIpv4V2, input1, consume: 24ms
isValidIpv4V2, input2, consume: 19ms
isValidIpv4V3, input1, consume: 20ms
isValidIpv4V3, input2, consume: 12ms

根据执行结果,可以明显看到,预编译正则表达式可以提升性能。

总结

  • 通常情况下,正则表达式为常量,所以可以将其作为常量量,在类编译时预编译。 private static final Pattern xxx_PATTERN = Pattern.compile("xxx");
  • 对于动态的正则表达式,可以将其缓存,即缓存其 Pattern 结果。(参考 isValidIpv4V3 )。
  • 另外,对于外部收入的正则表达式,一定要校验其安全性,防止 ReDos 攻击。
### 预编译正则表达式与普通正则表达式的区别 #### 定义上的差异 预编译正则表达式是指先将正则模式编译成一个可重用的对象,之后再对该对象进行匹配操作。这种方式通常会提高性能,因为编译过程只发生一次[^3]。而普通的正则表达式每次调用时都会重新编译正则模式,这可能导致不必要的重复工作。 #### 性能比较 当频繁使用同一个正则表达式时,预编译版本的性能明显优于普通版。这是因为普通正则表达式在每次执行前都需要经历完整的编译流程,包括解析字符序列并将其转换为内部表示形式。相比之下,预编译后的正则表达式已经完成了这一阶段的工作,因此可以直接进入匹配环节[^3]。 下面是一个简单的 Java 示例来展示两者的差别: ```java import java.util.regex.Pattern; import java.util.regex.Matcher; public class RegexExample { private static final String PATTERN_STRING = "^[a-zA-Z0-9_-]+@[a-zA-Z0-9.-]+$"; // 使用预编译的方式 private static final Pattern PRE_COMPILED_PATTERN = Pattern.compile(PATTERN_STRING); public static void main(String[] args) { testPreCompiledRegex(); testNormalRegex(); } public static void testPreCompiledRegex() { long startTime = System.currentTimeMillis(); for (int i = 0; i < 100000; i++) { Matcher matcher = PRE_COMPILED_PATTERN.matcher("test@example.com"); matcher.matches(); } long endTime = System.currentTimeMillis(); System.out.println("Precompiled regex took: " + (endTime - startTime) + " ms."); } public static void testNormalRegex() { long startTime = System.currentTimeMillis(); for (int i = 0; i < 100000; i++) { Pattern pattern = Pattern.compile(PATTERN_STRING); Matcher matcher = pattern.matcher("test@example.com"); matcher.matches(); } long endTime = System.currentTimeMillis(); System.out.println("Non-precompiled regex took: " + (endTime - startTime) + " ms."); } } ``` 在这个例子中,`testPreCompiledRegex()` 方法展示了如何利用预先编译好的 `Pattern` 对象来进行高效的匹配操作;而 `testNormalRegex()` 则代表了一种低效的做法——即每次都临时创建一个新的 `Pattern` 实例。 #### 结论 对于那些需要被多次使用的复杂或者较长的正则表达式来说,采用预编译的形式能够带来明显的性能提升。然而如果某个特定的正则仅需一次性应用,则可能无需考虑提前编译所带来的额外开销。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值