抓取网页上的邮箱信息

本文介绍了一个使用Java编写的简单邮件地址爬虫程序,它可以从指定的网络页面(如新浪网)或本地文件中抓取邮件地址。程序利用正则表达式匹配邮件地址,并通过Java标准库中的URL和BufferedReader类实现网络资源访问和本地文件读取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;


import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


import org.junit.Test;


public class SpiderDemo {



//爬网页上的邮箱信息
@Test
public void getMailsByNet() throws IOException{
URL url = new URL("http://www.sina.com");//这里以新浪网为例
BufferedReader br= new BufferedReader(new InputStreamReader(url.openStream()));//打开到此 URL 的连接并返回一个用于从该连接读入的 InputStream
String str = null;
String reg="\\w+@\\w+(\\.\\w+)+";//正则表达式
Pattern p=Pattern.compile(reg);     //将给定的正则表达式编译到模式中。
while((str=br.readLine())!=null){
Matcher m = p.matcher(str);
while(m.find()){// 尝试查找与该模式匹配的输入序列的下一个子序列。
System.out.println(m.group());
}
}
}




//爬取本地的邮箱信息
@Test
public void getMails() throws IOException  {
BufferedReader br = new BufferedReader(new FileReader("file2//cc.txt"));
String str = null;
String reg="\\w+@\\w+(\\.\\w+)+";//正则表达式
Pattern p = Pattern.compile(reg);
while((str=br.readLine())!=null){
Matcher m= p.matcher(str);
while(m.find()){
System.out.println(m.group());
}
}
}
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值