正则表达式（五）-网页爬虫

最新推荐文章于 2025-04-26 09:45:00 发布

原创最新推荐文章于 2025-04-26 09:45:00 发布 · 393 阅读

0 ·

CC 4.0 BY-SA版权

Java正则表达式专栏收录该内容

5 篇文章

订阅专栏

网络爬虫:(蜘蛛)

所谓的网络爬虫就是一段小程序,从网络中把特定的字段爬取下来
你比如说爬邮箱地址.先把整个网页的所有的程序都下载下来放在一个str中.然后按照邮箱的正则表达式规则,对这个str进行提取.将所有的邮箱地址都提取出来

开发过程:

要想进行信息的爬虫,你首先得有数据源啊.图1,所示,就是毕老师使用的数据源
方法1,已经把网页中的内容存到文件中了

package zhengze;

import java.io.BufferedReader;
import java.io.FileReader;
import java.util.TreeSet;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class str2 {

	//-----------------------------1
	/*
	 * 获取指定文档中的邮件地址
	 * 使用获取功能
	 * */
	public static void getMail(){

		//----------------------------------2
		BufferedReader buf=new BufferedReader(new FileReader("mail.txt"));   //将文件mail.txt 中的内容都提取出来放在缓冲区buf当中

		String line =null;

		//------------------------------4
		String mailReg = "[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+)+";     //这是邮件地址的正则表达式

		//--------------------------5
		/*
		 * 将匹配器与正则表达式相绑定
		 * */
		Pattern p=Pattern.compile(mailReg);

		//----------------------------------3
		/*
		 * 分别将文件mail.txt 中的每一行提取出来,保存在字符串line中. 然后把每一行使用邮件的正则表达式来进行匹配.将匹配上的邮箱提取出来,
		 * */
		while((line=buf.readLine())!=null){

			//-----------------------------6
			/*
			 * 将一行中的所有的邮件都提取出来,图2,所示
			 * */
			Matcher m=p.matcher(line);
			while(m.find()){

			//-----------------------7
			/*
			 * 接下来就可以把提取出来的信息放在集合当中或者放到数据库当中
			 * */
				System.out.println(m.group());
			}
		}


	}
	public static void main(String[] args) {




	}
}