软件构造实验问题(二)Pattern类和Matcher类

本文深入探讨Java正则表达式应用,介绍Pattern与Matcher类的使用方法,包括matches、lookingAt、find等核心功能,及start、end、group等辅助方法,助你掌握高效文本处理技巧。

在做实验二时,我遇到了读入数据的问题,那个问题要求读入一段文字并进行处理,将之变成一个有向图。
我写出的方案:

	    Scanner s = new Scanner(new BufferedReader(new FileReader(corpus))) 
	    while (s.hasNext()) {
	          words.add(s.next().toLowerCase());
	     }       

这是满足那个试验要求的,但是,随着课程的推进,我了解到了正则表达式这一知识点,明白了它也可以满足程序员按照特定的模式进行读值,从而更加符合编程的要求,在经过查阅相关资料后,发现了java的正则表达式是需要Pattern类和Matcher类来实现的。

首先,java与正则表达式相关的工具主要在java.util.regex包中;这个包中主要有两个类:Pattern类、Matcher类。

Pattern:
Pattern类用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法只能通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式, 这也是我们所学到过得工厂方法,这代表它的构造方法是私有的。
例如:

Pattern p = Pattern.compile("[\\w']+");
p.pattern();

p.pattern() 返回得失正则表达式的字符串形式,就是regex的形式。

Matcher
Matcher类的构造方法和Pattern类一样,也是私有的,不能随意创建,只能通过Pattern.matcher(CharSequence input)方法获得一个Matcher对象。
例如:

Matcher m = p.matcher(textFromFile);

Matcher类提供了对正则表达式的分组方法,以及对正则表达式多次匹配的方法,这就弥补了Pattern类的不足之处,这样就使得正则匹配操作边的更加强大。

Matcher对于匹配提供了三个方法:分别是Matcher.matches()、 Matcher.lookingAt()、 Matcher.find()。这三个方法均返回boolean类型,当匹配时返回true,若不匹配到则返回false。

(一)Matcher.matches()
Matcher.matches()是对整个字符串进行匹配,只有整个字符串都匹配成功,才能返回true 。
例如:

		Pattern p=Pattern.compile("\\d+");
		Matcher m1=p.matcher("369258");
		boolean a = m1.matches();
		Matcher m2=p.matcher("157aa571");
		boolean b = m2.matches();
		System.out.println(a+","+b);

结果为:

(二)Matcher.lookingAt()
Matcher.lookingAt()对整个字符串最前面的字符进行匹配,只有满足的的字符串部分在最前面才返回true ,否则就返回false。
例如:

		Pattern p=Pattern.compile("\\d+");
		Matcher m1=p.matcher("369258qwer");
		boolean a = m1.lookingAt();
		Matcher m2=p.matcher("qwer157aa571");
		boolean b = m2.lookingAt();
		System.out.println(a+","+b);

结果为:

(三)Matcher.find()
Matcher.find()是对字符串各个部分进行匹配,只要整个字符串中能匹配到的满足条件的字符串就可以返回true,否则就要false。
例如:

		Pattern p=Pattern.compile("\\d+");
		Matcher m1=p.matcher("369258qwer");
		boolean a = m1.find();
		Matcher m2=p.matcher("qwer157aa");
		boolean b = m2.find();
		Matcher m3=p.matcher("qwer159");
		boolean c = m3.find();
		Matcher m4=p.matcher("qwer");
		boolean d = m4.find();
		Matcher m5=p.matcher("=====");
		boolean e = m5.find();
		System.out.println(a+","+b+","+c+","+d+","+e);

结果为:

在这里插入图片描述

Matcher类除了上面的三种匹配方法外,还有其他的一些方法对字符串进行处理,例如:Mathcer.start()、Matcher.end()、Matcher.group()。
(四)Mathcer.start()
Mathcer.start()返回的是匹配到的子字符串在字符串中的索引位置。(从0开始)
例如:

		Pattern p=Pattern.compile("\\d+");
		Matcher m1=p.matcher("369258qwer");
		Matcher m2=p.matcher("qwer157aa");
		m1.find();
		m2.find();
		System.out.println(m1.start()+","+m2.start());

结果为:
在这里插入图片描述
(五)Mathcer.end()
Mathcer.end()与Mathcer.start()相反,它返回的是匹配到的子字符串的最后一个字符在字符串中的索引位置.。
例如:

		Pattern p=Pattern.compile("\\d+");
		Matcher m1=p.matcher("369258qwer");
		Matcher m2=p.matcher("qwer157aa");
		m1.find();
		m2.find();
		System.out.println(m1.end()+","+m2.end());

结果为:
在这里插入图片描述
(六)Mathcer.group()
Mathcer.group()返回的是匹配到的子字符串,并且它没有参数时默认返回的是第一个满足要求的子字符串的全部部分。但如果添加参数就可以返回你想要的次序的字符子串部分。如:group(0)就是指的整个串,group(1) 指的是第一个括号里的东西,group(2)指的第二个括号里的东西。
例如 :

		Pattern p=Pattern.compile("(\\d+)([a-z]+)");
		Matcher m1=p.matcher("369258qwer");
		Matcher m2=p.matcher("qwer157aa");
		Matcher m3=p.matcher("369258qwer15788");
		m1.find();
		m2.find();
		m3.find();
		System.out.println(m1.group()+","+m2.group()+","+m3.group()+","+m3.group(2));

结果为:
在这里插入图片描述
这样,Pattern类和Matcher类的主要运用方法就学习完了,对于实验二的那个句子可以改为:

		String textFromFile = String.join("", lines);
		Pattern p = Pattern.compile("[\\w']+");
		Matcher m = p.matcher(textFromFile);
		while (m.find()) {
			words.add(textFromFile.substring(m.start(), m.end()).toLowerCase());
		}

这样就可以完成用正则表达式来进行信息读入的步骤。

### 使用正则表达式从文本中提取E-mail地址的实验流程图 #### 实验概述 该实验旨在通过正则表达式提取指定文本中的E-mail地址。以下内容详细描述了实验的流程,并结合代码示例相关引用进行说明。 #### 1. 数据准备 在开始实验之前,需要准备包含E-mail地址的文本数据。这些数据可以存储在文件中或直接作为字符串提供。例如,创建一个名为`mail.txt`的文件,其中包含多行文本,部分文本包含E-mail地址[^2]。 #### 2. 正则表达式定义 定义用于匹配E-mail地址的正则表达式。根据标准E-mail格式,正则表达式应包括用户名、域名顶级域的部分。以下是一个常用的正则表达式: ```regex \w+@\w+(\.\w+)+ ``` 此正则表达式解释如下: - `\w+`:匹配一个或多个字母、数字或下划线,表示E-mail的用户名部分。 - `@`:匹配E-mail地址中的“@”符号。 - `\w+`:匹配域名的第一部分。 - `(\.\w+)+`:匹配域名的后续部分,例如“.com”或“.edu.cn”。 #### 3. 编写代码实现 使用Java语言编写代码以读取文件并提取E-mail地址。以下是一个示例代码片段: ```java import java.io.*; import java.util.regex.*; public class EmailExtractor { public static void getMails() throws Exception { BufferedReader bufr = new BufferedReader(new FileReader("mail.txt")); String line = null; String mailreg = "\\w+@\\w+(\\.\\w+)+"; Pattern p = Pattern.compile(mailreg); while ((line = bufr.readLine()) != null) { Matcher m = p.matcher(line); while (m.find()) { System.out.println(m.group()); } } } } ``` 上述代码实现了从`mail.txt`文件中逐行读取文本,并通过正则表达式匹配提取E-mail地址的功能[^2]。 #### 4. 测试与验证 运行上述代码,确保能够正确提取出所有符合正则表达式的E-mail地址。如果某些E-mail地址未能正确匹配,则需要调整正则表达式以适应更广泛的格式。 #### 5. 结果输出 将提取到的E-mail地址输出到控制台或保存到新文件中。对于大规模数据处理任务,可以考虑将结果存储在数据库中以便后续分析。 --- ### 实验流程图 以下是实验的流程图描述: 1. **输入数据**:加载包含潜在E-mail地址的文本数据。 2. **正则表达式定义**:构造匹配E-mail地址的正则表达式。 3. **匹配操作**:应用正则表达式对文本数据进行扫描,提取符合条件的E-mail地址。 4. **输出结果**:将提取到的E-mail地址输出或保存。 由于无法直接绘制图形,请参考以下伪代码形式的流程描述: ```plaintext Start | V Load Text Data from File or String | V Define Regular Expression for E-mail Matching | V Apply Regex to Scan and Extract E-mails | V Output Extracted E-mails to Console or Save to File | V End ``` --- ### 示例代码扩展 如果需要使用Python实现似功能,可以参考以下代码: ```python import re def extract_emails(text): email_regex = r'\w+@\w+(\.\w+)+' emails = re.findall(email_regex, text) return emails # 示例文本 text = "Contact us at support@example.com or sales@example.org." emails = extract_emails(text) print(emails) ``` --- ### 注意事项 在实际应用中,可能遇到不符合标准格式的E-mail地址。因此,建议根据具体需求调整正则表达式,确保覆盖尽可能多的合法格式[^1]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值