tidy是用来规范HTML的,其功能还是比较强大的。软件设计得很不错。
tidy.sourceforge.net
tidy其实应该有一些更新的用途,面对这些新的用途应该提供一些新的接口。譬如说用于web页面的信息分析,信息挖掘。它没有增删节点的功能,也没有提供提取节点内容(只输出本节点内容,不输出子节点内容)的功能。这个功能xmlite能够提供。xmlite是一个轻量级的网页dom树生产器。同时用这两套软件,显得比较冗余,如果tidy也能够提供这个功能就好了。
目前没有提供这个功能,仍需要xmlite的帮忙,因为xmlite没有在linux下版本,我稍微修改了一下他的代码,使它能够在linux下使用。
源文件 http://download1.youkuaiyun.com/down3/20070516/16201303544.cpp
头文件 http://download1.youkuaiyun.com/down3/20070516/16201322922.h
可能还存在一些没有发现的bug.
tidy.sourceforge.net
tidy其实应该有一些更新的用途,面对这些新的用途应该提供一些新的接口。譬如说用于web页面的信息分析,信息挖掘。它没有增删节点的功能,也没有提供提取节点内容(只输出本节点内容,不输出子节点内容)的功能。这个功能xmlite能够提供。xmlite是一个轻量级的网页dom树生产器。同时用这两套软件,显得比较冗余,如果tidy也能够提供这个功能就好了。
目前没有提供这个功能,仍需要xmlite的帮忙,因为xmlite没有在linux下版本,我稍微修改了一下他的代码,使它能够在linux下使用。
源文件 http://download1.youkuaiyun.com/down3/20070516/16201303544.cpp
头文件 http://download1.youkuaiyun.com/down3/20070516/16201322922.h
可能还存在一些没有发现的bug.
本文探讨了Tidy在HTML规范化处理中的强大功能,并提出了将其应用于网页信息分析和挖掘的可能性。同时指出了Tidy缺乏节点操作功能的问题,并介绍了Xmlite作为补充工具的角色,用于生成DOM树并提取特定节点内容。
1576

被折叠的 条评论
为什么被折叠?



