
htmlparser
lzj0470
这个作者很懒,什么都没留下…
展开
-
htmlparser 文件不存在
今天用htmlparser分析了一些网页,在过程中,有一个网页不能分析,htmlparser内部抛出异常,终止了程序。这个时候,必须在自个写得程序再一次抛出异常,这样就不会出现程序被终止的现象啦。一般情况下,它会抛出ParserException,IOException异常。所以在外壳加上: try{ //自个程序...... }catch(ParserException e){ }c...2008-12-12 16:11:29 · 249 阅读 · 0 评论 -
htmlparser 假死问题
前几天,在用htmlparser分析页面时,遇到一个郁闷的问题,在爬取得时候,htmlparser停住啦,当时没报任何的错误。我以为多等一会它就会报一个异常啦,结果,等了一个上午,还是停在那里不动。实在等不下去啦,直接看它的源代码,原来是获取数据的时候,获取到一半,停在那里,我找不到在哪里修改它的代码,结果是我不用htmlparser进行连接下载数据,而htmlparser单纯是用于分析页面。我链...2008-12-18 10:10:46 · 189 阅读 · 0 评论 -
htmlparser如何连接网络
今天,有个人问我,前几天已经可以抓取,今天不知道为什么就不可以抓取。 String url = "http://company.zhaopin.com/P2/CC1202/0271/CC120202712.htm?f=sa&DYWE=1223885821046.175835.1223890656.1223891112.9"; 他用的办法是 URL url = new URL(url); U...2008-12-18 16:26:38 · 81 阅读 · 0 评论 -
htmlparser 编码问题
有时候,在抓取网站的时候,网站的编码方式可能不统一,这样的情况,可能有些网页编码不成功,而htmlparser报了错,不能正常的读取。抛出来的异常为:org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old: [0xd6?]) for encoding change f...2008-12-19 18:52:23 · 315 阅读 · 0 评论 -
org.htmlparser.util.ParserException: Error in open
使用HTMLparser时碰到一个错误 org.htmlparser.util.ParserException: Error in opening a connection to java.io.IOException: Invalid argument at java.io.WinNTFileSystem.canonicalize0(Native Method) at java.io...原创 2009-06-11 11:03:03 · 153 阅读 · 0 评论 -
htmlparser获取A标签内容,既然是空
形式是: [供] 河北邢台广宗蝎子养殖合作社(常年出售待产蝎)河北省广宗县昆 这个是非常简单的一个A标签或者,但是,获取打印出来,结果是: 解决办法是: 过滤之前,先替换。 ...原创 2011-09-22 15:39:34 · 450 阅读 · 0 评论