
Parser_html
iteye_1029
这个作者很懒,什么都没留下…
展开
-
获取meta里的keywords及description的方法
通过jericho包获取meta里的keywords及description的方法一:[code="java"] // 获取meta里的keywords和description List segments = source.findAllElements(Tag.META); getKeywordsDesc(segments); if (null ...2009-02-26 10:11:12 · 1083 阅读 · 0 评论 -
htmlparser使用例子(全)
[code="java"]import java.net.URL;import junit.framework.TestCase;import org.apache.log4j.Logger;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser...原创 2009-09-22 11:24:50 · 117 阅读 · 0 评论 -
nekohtml经典小例子一个
[code="java"]public class Demo {public static String TextExtractor(Node root){ //若是文本节点的话,直接返回 if (root.getNodeType() == Node.TEXT_NODE) { return root.getNodeValue().trim(); } ...原创 2009-09-22 10:45:20 · 119 阅读 · 0 评论 -
nekohtml的2个小例子
[code="java"]//获取网页里面的keywords和description public static void main(String[] argv) throws Exception { BufferedReader in = new BufferedReader(new FileReader("d:/163.html")); DOMParser pars...2009-09-22 10:10:52 · 86 阅读 · 0 评论 -
htmlparser提取正文
htmlparser提取正文,提取新浪等门户首页是不太干净[code="java"]mport org.htmlparser.Parser; import org.htmlparser.beans.StringBean; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.parserap...原创 2009-09-21 16:34:11 · 151 阅读 · 0 评论 -
通过百度获取天气预报
通过百度获取天气预报http://htmlparser.com.cn/post/20090917323.html[code="java"]public class Getweather { /** * @param args * @throws ParserException */ public ...原创 2009-09-21 16:13:43 · 211 阅读 · 0 评论 -
一个很好的htmlparser的学习blog
[url]http://htmlparser.com.cn/[/url],里面的文章很好,很不错,研究htmlparser的朋友可以去看看!里面有好多博主的实际使用的例子!2009-09-21 16:03:10 · 125 阅读 · 0 评论 -
httpclient htmlparser来查询手机号相关信息
httpclient htmlparser来查询手机号相关信息http://htmlparser.com.cn/post/20090816119.html[code="java"]public class GetMobile { /** * @author rrong_m 51jsp.cn * @throws IOException ...原创 2009-09-21 15:58:32 · 220 阅读 · 0 评论 -
nekohtml 用法
[code="java"]//nekohtml结合xpath用法DOMParser parser = new DOMParser(); try { //设置网页的默认编码 parser.setProperty("http://cyberneko.org/html/properties/default-encodin...2009-09-21 15:02:06 · 233 阅读 · 0 评论 -
htmlparser 精确提取的一些代码
一、[code="java"]ConnectionManager manager = Page.getConnectionManager(); Parser parser = new Parser(manager .openConnection("http://www.verycd.com/topics/2760827/")); parser.setEncoding(...2009-08-07 18:59:31 · 113 阅读 · 0 评论 -
HtmlCleanner结合xpath用法
[code="java"] HtmlCleaner cleaner = new HtmlCleaner(); TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml")); ...2009-12-09 20:36:19 · 149 阅读 · 0 评论 -
java 正则表达式
\\ 反斜杠\t 间隔 ('\u0009')\n 换行 ('\u000A')\r 回车 ('\u000D')\d 数字 等价于[0-9]\D 非数字 等价于[^0-9]\s 空白符号 [\t\n\x0B\f\r]\S 非空白符号 [^\t\n\x0B\f\r]\w 单独字符 [a-zA-Z_0-9]\W 非单独字符 [^a-zA-Z_0-9]\f 换页符...原创 2009-11-24 16:01:06 · 106 阅读 · 0 评论 -
htmlparser获取网页上所有有用链接的方法
[code="java"] public static void getAllLink(String html, String parentUrl) { Parser parser = new Parser(); try { parser.setInputHTML(html); NodeFilter filter = new NodeClassFilter(Link...2009-10-30 14:01:43 · 158 阅读 · 0 评论 -
htmlparser解析自定义标签功能
[code="java"]import org.htmlparser.tags.CompositeTag; public class StrongTag extends CompositeTag { private static final String mIds[] = { "strong" }; private sta...2009-10-19 09:13:28 · 172 阅读 · 0 评论 -
nekohtml使用笔记
1、透明地创建HTML解析器 利用Xerces2.0为基础,应用程序通过JAXP实例化解析器对象时,可以透明地创建HTML解析器,此时只需要将NekoHTML的jar文件,在CLASSPATH中放在Xerces的jar文件之前即可。nekohtmlXni.jar中的META-INF/services/org.apache.xerces.xni.parser.XMLParserConfigur...原创 2009-09-22 11:32:41 · 376 阅读 · 0 评论