下面链接就是一个c#写的网络爬虫,上面是翻译版 ,下面是英文原版
http://blog.youkuaiyun.com/wangkun9999/archive/2007/05/02/1594496.aspx
http://www.codeproject.com/cs/internet/Crawler.asp
另外,爬虫抓下来的东西要进行分析是必然的了,但c#中好像没有HTML解析器,特别是对那种不太规范的HTML,这里是一些c#解析HTML的资料。
http://www.codeproject.com/csharp/html2xhtmlcleaner.asp
http://www.pcxy.net/Article/netprogramme/xml/Article_36767.html
http://www.cnblogs.com/dragon/archive/2006/12/06/174946.html
http://blog.youkuaiyun.com/wangkun9999/archive/2007/05/02/1594496.aspx
http://www.codeproject.com/cs/internet/Crawler.asp
另外,爬虫抓下来的东西要进行分析是必然的了,但c#中好像没有HTML解析器,特别是对那种不太规范的HTML,这里是一些c#解析HTML的资料。
http://www.codeproject.com/csharp/html2xhtmlcleaner.asp
http://www.pcxy.net/Article/netprogramme/xml/Article_36767.html
http://www.cnblogs.com/dragon/archive/2006/12/06/174946.html
本文介绍了一个使用C#编写的网络爬虫实例,并提供了相关资源链接。此外还探讨了C#中HTML解析的方法及工具,对于不规范HTML的处理也给出了建议。
2456

被折叠的 条评论
为什么被折叠?



