在用c#进行HTML网络编程的时候,需要用到一个现成的库,来对HTML源代码进行处理、分析从而获得我们自己需要的信息,于是在CodePlex上找到一个开源的项目HtmlAgilityPack。
下载链接是:http://htmlagilitypack.codeplex.com/downloads/get/437941
贴一段实例代码
/// <summary>
/// 将网页HTML源代码过滤获取 <TD>下面的中文信息
/// </summary>
/// <param name="html">网页HTML源代码</param>
/// <returns>中文信息</returns>
private String HTML2Text(String html)
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
StringBuilder sb = new StringBuilder();
foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//td"))
{
if (!link.HasChildNodes)
sb.Append(link.InnerText);
else
foreach (HtmlNode child in link.ChildNodes)
{
sb.Append(child.InnerText.Replace(" ", "").Replace(" ",""));
}
}
return sb.ToString();
}
本文介绍如何利用HtmlAgilityPack库解析HTML文档并提取其中的文本信息。通过简单的示例代码展示了如何加载HTML内容,并遍历指定的<TD>元素及其子节点,最终获取所需的中文文本。
1079

被折叠的 条评论
为什么被折叠?



