正则表达式

推荐大家一个正则表达式速成网址:http://deerchao.net/tutorials/regex/regex.htm

下面是我的学习笔记

在网页抓取中,我们经常需要分析html内容,而其内容庞大,节点多,如何高效识别呢?推荐大家使用正组表达式:

(1)常用元字符

常用的元字符

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束


下面例子源文件

hello world
583930459
480558839@qq.com
jfdkfjaif@gmail.com
jkdjfsj@qq.com
232324qq.com
34343434qq@.com
<html>
<body>
hello world
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">google</a>
</html>
https://www.sina.com
ftp://mit.edu.us
http://www.hello.cn
pic1.jpg
pic2.png
pic3.gif
23.43.2.23
192.168.1.2
333.33.33.3
192.12.1234.2
342.23.45.5
23.23.3.4.3
256.255.255.255
255.255.255.255
0.0.0.0
234.255.256.2
bye bye
sbsb
dancing
going
beinghere coming here

(1)例如:查找qq邮箱

public class Main {
	
	static String regex = "\\d{5,12}@qq\\.com";
	static Pattern pattern = Pattern.compile(regex);
	
	public static void main(String[] args) throws Exception {
		FileInputStream fin = new FileInputStream(new File("data"));
		BufferedReader br = new BufferedReader(new InputStreamReader(fin));
		String line = "";
		while((line=br.readLine()) != null){
			process(line);
		}
	}
	
	static void process(String line){
		Matcher matcher = pattern.matcher(line);
		if(matcher.find()){
			System.out.println(matcher.group(0));
		}
	}
		
}
结果如下:(随便打的qq号,如有雷同,纯属巧合)

480558839@qq.com


例2:以某个字符开头的

regex = "^he.*";

或者以某个字符结尾

String regex = ".*com$";


(2)常用的限定符

代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次


这种次数的限制非常有用


(3)分支

可是,我们经常会遇到多种可能的字符,这时候就需要用到分支条件

例如我们要找出所有图片,可是图片格式多种,有jpg,bmp,png,gif等等,我们应该使用分支条件,就是给出多种可能

可以是使用

regex = "\\w*.(jpg|png|gif|bmp)";

找出

NickGirl.jpg
pic1.jpg
pic2.png
pic3.gif


(4)分组

经常我们需要局部操作,例如某个组合会出现多次,而前面的几种方法似乎都是针对单字符次数的操作,这里可以采用分组操作:

就是用()前面也有用到一些,比如我们想找Ip地址我们知道他们都是符合同一个规律的

static String regex = "^(((\\d)|(1?\\d{2})|(2(([0-4]\\d)|(5[0-5]))))\\.){3}(((\\d)|(1?\\d{2})|(2(([0-4]\\d)|(5[0-5])))))$";

我表示写完之后自己都糊涂了。。。

23.43.2.23
192.168.1.2
255.255.255.255
0.0.0.0
稍微解释下把:

首先ip可能是1位 2位 3位 1位和2位的时候对数字大小没有限制,所以没问题,可是三位的时候1XX还好,对XX也没限制,可是2XX就有限制了,2【0-4】X这种X是无限制,25【0-5】这就是分支,其实就是分类啦

(1)所以前面1位写成: (\d)

(2)2位和1XX合并:(1?\d{2})

(3)三位 2[0-4]X :    (2[0-4]\d)

(4)三位25[0-5] :    (25[0-5])

把(3)(4)合并 : (2(([0-4]\d)|(5[0-5])))

然后在和(1)(2)合并就可以了,最后加上点\.  记得转义字符

结果就出来了


(5)反义字符

常用的反义代码
代码/语法 说明
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

比如说,找出所有标签

static String regex = "<[^>]*>";

这里就是找出<>这种格式的东西

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">
</html>

(6)后向引用

使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志第一个出现的分组的组号为1,第二个为2,以此类推。

如果想要找重复的,可以利用后向应用,例如找bye bye这种类型的

String regex = "(\\w+)\\s\\1";

或者网页标签往往我们想找一个完整的<a></a>

这种引用方式就能够准确进行匹配

static String regex = "<([a-zA-Z]+).*[^>]>.*[^<]</\\1>";

仅仅输出这种模式配的上的:

<a href="http://www.google.com">google</a>


(7)贪婪与懒惰匹配

懒惰限定符
代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

这个也是我们在网页查找标签中经常用到的例如想找出与<匹配的第一个>如果我们使用

static String regex = "<.+>";

默认下会贪婪匹配得到:

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">google</a>
</html>

那个<a>标签似乎不是我们想要的

static String regex = "<.+?>";

用这句

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">
</html>
就是我们需要的啦


(8)正则表达式的选项

常用的处理选项
名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改.的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值