获取HTML网页内容SgmlReader

最新推荐文章于 2025-09-07 22:29:54 发布

weixin_34327761

最新推荐文章于 2025-09-07 22:29:54 发布

阅读量93

点赞数

CC 4.0 BY-SA版权

文章标签： javascript ViewUI

原文链接：http://blog.51cto.com/116833/743346

Microsoft的XML大师Chris Lovett发布了一个新的SGML解析器（应该是2008年的版本），叫做SgmlReader（早期的SgmlReader在2006年以前就出了），它可以解析HTML文件，甚至将它们转换成一个格式规范的结构。SgmlReader派生于XmlReader，这就是说，你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文件。

说明+最新源码： http://developer.mindtouch.com/en/docs/SgmlReader

备用源码地址：http://archive.msdn.microsoft.com/SgmlReader

也可参考：http://www.xmlforasp.net/codeSection.aspx?csID=94

将其实际应用的结果如图：

1. 示例网页（我们需要获取的）：

2. 获取<body>内所有标签的值

3. 获取<html>内所有alt属性值（图片提示信息）

4. 获取<body>内<div>标签属性id为"frame"下，<div>标签属性id为"bodyArea"，层内所有标签值

5. 以上示例都是获取远端HTML页面（http://172.16.1.5/menu_en.html）源码内容的示例，以下是获取本地HTML内标签值示例。

初步总结：

可以比较方便地根据指定url地址获取我们想要的页面内容，或者获取本地html文件的指定内容。

可以说已经初步解决基本HTML格式的EnjoyTR 字数统计问题（早期通过正则表达式删除标签的方式不可靠，而且无法将Unit区分），

EnjoyTR翻译由于没有还原的方法，我现在能想到的，就是原文替换的方式进行翻译（缺点，无法定位，当1个原文有多个译文的时候，无法一一对应）。

还需要研究的是：

根据图5，

我们可以看出，当javascript或者vbscript出现在我们需要的标签内时，从语法上是正确的，此时会将其一并获取，因此需要我们对标签进行筛选；

但，当script中出现实际要显示在页面的内容时，我们可能要对script的内容进行字符串筛选，

例如：

<script text='javascript'>

****.innerHtml='需要显示在页面上';

</script>

或者

<script text='javascript'>

var strDisplay='需要显示在页面上'; //变量

****.innerHtml=strDisplay;

</script>

字符串：“需要显示在页面上”，也是我们需要获取和翻译的内容。

XPath语法学习：

http://www.w3school.com.cn/xpath/

相关参考：

http://developer.mindtouch.com/en/docs/SgmlReader

http://www.cnblogs.com/Realh/archive/2011/01/21/1941707.html

转载于:https://blog.51cto.com/116833/743346

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。