在用c#进行HTML网络编程的时候,需要用到一个现成的库,来对HTML源代码进行处理、分析从而获得我们自己需要的信息,于是在CodePlex上找到一个开源的项目HtmlAgilityPack。
下载链接是:http://htmlagilitypack.codeplex.com/downloads/get/437941
贴一段实例代码
/// <summary>
/// 将网页HTML源代码过滤获取 <TD>下面的中文信息
/// </summary>
/// <param name="html">网页HTML源代码</param>
/// <returns>中文信息</returns>
private String HTML2Text(String html)
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
StringBuilder sb = new StringBuilder();
foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//td"))
{
if (!link.HasChildNodes)
sb.Append(link.InnerText);
else
foreach (HtmlNode child in link.ChildNodes)
{
sb.Append(child.InnerText.Replace(" ", "").Replace(" ",""));
}
}
return sb.ToString();
}