善用Pattern提高你的应用处理正则表达式的效率（Java）

最新推荐文章于 2024-08-31 21:02:15 发布

原创最新推荐文章于 2024-08-31 21:02:15 发布 · 8.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #java #regex #string #jvm #input

JavaEE 同时被 2 个专栏收录

10 篇文章

订阅专栏

JavaSE

5 篇文章

订阅专栏

本文通过对比String.matches()方法和Pattern类在不同运行次数下验证邮箱格式的效率，发现使用Pattern类预编译正则表达式能有效提升性能。

举个简单了例子，在一个需要用于注册登录的b/s模式的应用中，在浏览器验证用户注册表单的合法性是必须的，但你为了防止hacker，在服务器再验证一次肯定也是必须的。

题目：在服务器端验证邮箱是否合法：通常你可能会这样写：

public boolean checkEmailLegal(String temp)
{
    //temp = "ddenfj#@fe_dw.comw";
    return temp.matches("^([\\.a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+((\\.[a-zA-Z0-9_-]{2,3}){1,2})$");
}

当然这样写可以满足你的需求，但是，今天要和大家分享我使用Pattern提高效率的使用心得，首先，先看一下我对小面代码进行的简单的测试：

import java.util.regex.Pattern;

public class SimpleTest {
	public static void main(String[] args)
	{
		String temp = "ddenfj#@fe_dw.comw";
		int count = 1;
		long a = System.currentTimeMillis();
		for(int i=0;i<count;i++)
		{
			temp.matches("^([\\.a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+((\\.[a-zA-Z0-9_-]{2,3}){1,2})$");
		}
		long b = System.currentTimeMillis();
		System.out.println(b-a);
		a = System.currentTimeMillis();
		Pattern emailPattern = Pattern.compile("^([\\.a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+((\\.[a-zA-Z0-9_-]{2,3}){1,2})$");
		for(int i=0;i<count;i++)
		{
			emailPattern.matcher(temp).matches();
		}
		b = System.currentTimeMillis();
		System.out.println(b-a);
	}
}

运行次数为 1 时，运行结果：

运行次数为 100 时，运行结果：

运行次数为1000时，运行结果：

111

运行次数为10000时，运行结果：

343

运行次数为100000时，运行结果：

841

运行次数为一千万时，运行结果：

8205

我们知道，匹配正则表达式首先创建有穷自动机

我的结论：从测试记过可以看出String.matches()方法的时间并不是想想中的线性增长的，可以得出的结论是jvm一定对String.matches()方法进行了缓存的处理，也就是说调用这个方法产生的一切中间对象并未被jvm清理，如果运用到你的应用上，可能效率体现得会很明显

----------------------------------------------------------------------------------------------------------

写完以上内容，还在我洋洋自得的时候，我想看一下String.matches()的源代码：

public boolean matches(String regex) {
        return Pattern.matches(regex, this);
    }

public static boolean matches(String regex, CharSequence input) {
        Pattern p = Pattern.compile(regex);
        Matcher m = p.matcher(input);
        return m.matches();
    }

看来我对jvm的上方理解是错误的，

不过从他们的源码我们可以看出来，如果把Pattern写成一个静态（static）属性，并用spring管理对象，那效率还是会提高很多的！

望共勉！