C#下对HTML源代码进行分析处理第三方库HtmlAgilityPack

本文介绍如何利用HtmlAgilityPack库解析HTML文档并提取其中的文本信息。通过简单的示例代码展示了如何加载HTML内容,并遍历指定的<TD>元素及其子节点,最终获取所需的中文文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在用c#进行HTML网络编程的时候,需要用到一个现成的库,来对HTML源代码进行处理、分析从而获得我们自己需要的信息,于是在CodePlex上找到一个开源的项目HtmlAgilityPack

操作起来真的很方便,所有这里记录一下。

下载链接是:http://htmlagilitypack.codeplex.com/downloads/get/437941

贴一段实例代码

 /// <summary>
        /// 将网页HTML源代码过滤获取 <TD>下面的中文信息
        /// </summary>
        /// <param name="html">网页HTML源代码</param>
        /// <returns>中文信息</returns>
        private String HTML2Text(String html)
        {
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(html);
            StringBuilder sb = new StringBuilder();
            
            foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//td"))
             {
                 if (!link.HasChildNodes)
                     sb.Append(link.InnerText);
                 else
                    foreach (HtmlNode child in link.ChildNodes)
                     {
                         sb.Append(child.InnerText.Replace(" ", "").Replace(" ",""));
                     }
             }
            return sb.ToString();
        }



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值