Asp.net解析HTML并利用XPATH分析提取内容

本文介绍如何使用ASP.NET结合HtmlAgilityPack库与XPath表达式来解析和提取HTML内容。提供了具体的代码示例,包括如何加载HTML文档、选择节点及提取所需文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


======================================================
注:本文源代码点此下载
======================================================

asp.net解析html并利用xpath分析提取内容

html解析器有很多种,最常用的是htmlagilitypack和sgmlreader(http://sourceforge.net/projects/dekiwiki/files/sgmlreader/)。

这里使用的是htmlagilitypack:

下载地址:http://htmlagilitypack.codeplex.com

同时官网提供了一个自动生成xpath路径的工具hap explorer。

关于xpath表达式以及相关教程参见:xpath表达式精选[更新中...]

获取html的方式有很多种:

1.通过httpwebrequest类可实现模拟登录并获取页面信息

2.用第三方控件模拟登录,参见:正在做简历搬家功能。
       分享一下研究过程

使用方法:

首先引用htmlagilitypack的dll文件 using htmlagilitypack;

根据xpath提取内容的函数:

///

/// 根据xpath获取筛选的字符串

///

///

需要提取html的内容

///

xpath表达式

///

分隔符

/// 提取后的内容

public static string getstrbyxpath(string content, string xpath, string separ)

{

htmldocument doc1 = new htmldocument();

doc1.loadhtml(content);

htmlnodecollection repeatnodes = doc1.documentnode.selectnodes(xpath);

string text = "";

//循环节点

foreach (htmlnode node in repeatnodes)

{

text += node.innertext + separ;

}

return text;

}

绿色通道:好文要顶关注我收藏该文与我联系

posted @ 2011-05-24 15:25 潇客的技术博客 阅读(434) 评论(0)编辑 收藏


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值