C#下对HTML源代码进行分析处理第三方库HtmlAgilityPack

最新推荐文章于 2025-11-25 15:30:00 发布

原创最新推荐文章于 2025-11-25 15:30:00 发布 · 498 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#html #c# #string #编程 #网络

.NET 技术专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何利用HtmlAgilityPack库解析HTML文档并提取其中的文本信息。通过简单的示例代码展示了如何加载HTML内容，并遍历指定的<TD>元素及其子节点，最终获取所需的中文文本。

在用c#进行HTML网络编程的时候，需要用到一个现成的库，来对HTML源代码进行处理、分析从而获得我们自己需要的信息，于是在CodePlex上找到一个开源的项目 HtmlAgilityPack。

操作起来真的很方便，所有这里记录一下。

下载链接是：http://htmlagilitypack.codeplex.com/downloads/get/437941

贴一段实例代码

 /// <summary>
        /// 将网页HTML源代码过滤获取 <TD>下面的中文信息
        /// </summary>
        /// <param name="html">网页HTML源代码</param>
        /// <returns>中文信息</returns>
        private String HTML2Text(String html)
        {
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(html);
            StringBuilder sb = new StringBuilder();
            
            foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//td"))
             {
                 if (!link.HasChildNodes)
                     sb.Append(link.InnerText);
                 else
                    foreach (HtmlNode child in link.ChildNodes)
                     {
                         sb.Append(child.InnerText.Replace(" ", "").Replace(" ",""));
                     }
             }
            return sb.ToString();
        }