记一些采集器相关的工具类

本文推荐了两款用于解析HTML的开源库:Jumony 和 HtmlAgilityPack。Jumony 是国人开发的项目,源代码托管在GitHub上。HtmlAgilityPack则是一款功能强大的解析库,支持XPath语法,适用于熟悉XML操作的开发者。

近日在构想一个采集器的小程序

主要是用来采集文章的

由于文章图片都有防盗链的措施

不得不采用一些手段(不想下载到本地暂时)

这里在对html的解析上没有什么好的解决方法

百度了一下发现两个html解析类

这里发出来推荐一下

先上个国人的:

Jumony

 

Jumony 是开源项目,目前源代码存放在GitHub ,源码地址: https://github.com/Ivony/Jumony  。

效果嘛、、自行测试

 

然后是个老外的:HtmlAgility

HtmlAgilityPack也是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手的

http://htmlagilitypack.codeplex.com/

转载于:https://www.cnblogs.com/ixysy/p/4984687.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值