本文原创:http://blog.youkuaiyun.com/adroitly/article/details/25655367
转载请添加声明!
jsoup这个东西对于java解析html很有帮助
例如你要解析http://blog.youkuaiyun.com/adroitly/这个网址!
这个网址有很多信息!包括我的一些博文!
首先要设置地址
String url = "http://blog.youkuaiyun.com/adroitly";
然后解析成String类型
String str = Jsoup.connect(url).execute().body();
这样你就可以得到那个网页代码了!
如果此时你出现了错误
HTTP error fetching URL. Status=403, URL=http://blog.youkuaiyun.com/adroitly
这样你就设置一下userAgent,伪装成浏览器就好了!
代码就是:
String html = Jsoup.connect(url).userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21").timeout(10000).execute().body();
那个浏览器可以自己选择!
之后你需要输出文档还是怎么样你就直接把html保存就信了!或者抓取其中的数据也可以!
jsoup需要导入jar包!jsoup的jar包在这可以下载: