抓取网页上的邮箱信息

最新推荐文章于 2024-05-08 17:36:46 发布

大z小z

最新推荐文章于 2024-05-08 17:36:46 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：网络模型与通信要素文章标签： java 网络

本文链接：https://blog.youkuaiyun.com/qq_36171618/article/details/70161938

网络模型与通信要素专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一个使用Java编写的简单邮件地址爬虫程序，它可以从指定的网络页面（如新浪网）或本地文件中抓取邮件地址。程序利用正则表达式匹配邮件地址，并通过Java标准库中的URL和BufferedReader类实现网络资源访问和本地文件读取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;

import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.junit.Test;

public class SpiderDemo {

//爬网页上的邮箱信息
@Test
public void getMailsByNet() throws IOException{
URL url = new URL("http://www.sina.com");//这里以新浪网为例
BufferedReader br= new BufferedReader(new InputStreamReader(url.openStream()));//打开到此 URL 的连接并返回一个用于从该连接读入的 InputStream。
String str = null;
String reg="\\w+@\\w+(\\.\\w+)+";//正则表达式
Pattern p=Pattern.compile(reg); //将给定的正则表达式编译到模式中。
while((str=br.readLine())!=null){
Matcher m = p.matcher(str);
while(m.find()){// 尝试查找与该模式匹配的输入序列的下一个子序列。
System.out.println(m.group());
}
}
}

//爬取本地的邮箱信息
@Test
public void getMails() throws IOException {
BufferedReader br = new BufferedReader(new FileReader("file2//cc.txt"));
String str = null;
String reg="\\w+@\\w+(\\.\\w+)+";//正则表达式
Pattern p = Pattern.compile(reg);
while((str=br.readLine())!=null){
Matcher m= p.matcher(str);
while(m.find()){
System.out.println(m.group());
}
}
}
}