从网上收集EMail（正则表达式，C#源码）

最新推荐文章于 2023-03-30 10:31:50 发布

weixin_30609331

最新推荐文章于 2023-03-30 10:31:50 发布

阅读量363

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yuanbao/archive/2007/10/19/929914.html

本文介绍了一种使用.NET框架编写网络蜘蛛程序的方法，重点介绍了如何利用正则表达式从网页中高效地提取电子邮件地址，并提供了完整的代码示例。

最近一直琢磨着写一个网络蜘蛛程序，专门负责收集一些自己感兴趣的东西。用.net写程序从网上取得网页源码比较容易实现，蜘蛛程序的难点在于两个方面，一是如何多线程的自动化处理（即从一个地址跳到另一个地址），另一个是从网页中提取指定的信息。自动化处理方面正在研究，从网页中提取信息，我觉得网上某些网友用String/StringBuilder来处理的方法不可取，用“正则表达式”无疑是最好的。尽管“正则表达式”不容易书写，但查一查资料，还是不难的。
以下是我写的一个从网页中抓取EMail的方法，可以处理带分页的link。用这个程序，我一下子从一个网页中提取到3000多个EMail（哈哈，发垃圾邮件的人是不是也这样做的？？）

1

//CAll
2

private void GetAllURL(string urlStr)
3

{
4

            new Thread(new ParameterizedThreadStart(GetEmailAddress)).Start(urlStr);
                 ...    //处理页面中的Link
                }

5

/**//// <summary>
6

/// 提取网页中的Eamil
7

/// </summary>
8

/// <param name="urlStr">网页地址</param>
9

private void GetEmailAddress(object urlStr)
10

{
11

ArrayList EmailStrs = GetWebInfo((string)urlStr, @"(?<EmailStr>\b[A-Z0-9._%-]+@[A-Z0-9._%-]+\.[A-Z]{2,4}\b)"); //得到Email
12

foreach (object tmp in EmailStrs)
13

{
14

Invoke(new AppendTextDelegate(AppendText), new object[]

{ tmp + "\r\n" });
15

}
16

}
17

18

private ArrayList GetWebInfo(string URlStr,string RegExpress)
19

{
20

//打开指定页
21

HttpWebRequest webRequest1 = (HttpWebRequest)WebRequest.Create(new Uri(URlStr));
22

webRequest1.Method = "GET";
23

HttpWebResponse response = (HttpWebResponse)webRequest1.GetResponse();
24

String textData = new StreamReader(response.GetResponseStream(), Encoding.Default).ReadToEnd();
25

26

27

//用正则表达式，提取指定内容，带一个变量
28

Regex r;
29

Match m;
30

r = new Regex(RegExpress, //@"copyTitle.\'(?<AdInfo>.*)\'",
31

RegexOptions.IgnoreCase | RegexOptions.Compiled);
32

int pos1=RegExpress.IndexOf("(?<");
33

int pos2=RegExpress.IndexOf(">",pos1);
34

string DestionKey = RegExpress.Substring(pos1 + 3, pos2 - pos1 - 3);
35

string AdStr = "";
36

ArrayList Result = new ArrayList();
37

for (m = r.Match(textData); m.Success; m = m.NextMatch())
38

{
39

AdStr = m.Result("${" + DestionKey + "}").Trim(); //地址
40

Result.Add(AdStr);
41

}
42

return Result;
43

}
44

上述代码中的关键是书写提取EMail的表达式：
@"(?<EmailStr>\b[A-Z0-9._%-]+@[A-Z0-9._%-]+\.[A-Z]{2,4}\b)"
以下是我写的一个程序界面及运行结果：

转载于:https://www.cnblogs.com/yuanbao/archive/2007/10/19/929914.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。