Java爬虫Crawler

本文介绍了如何在Eclipse中快速添加外部jar包到项目库的方法,并分享了使用jsoup进行网络爬虫的具体实践,包括解决中文乱码及URL转换等问题。

http://blog.youkuaiyun.com/pipisorry/article/details/42913569

Eclipse添加jar包到库中

缺少某个库,找到之后,需要将该库,jar包,加入到当前项目,使得代码中的import xxx得以正常导入。

通过 Add External Achieves…的方式导入的。

具体操作起来两种方式:

(1)最快捷的是:

右键项目->Build Path -> Add External Achieves

然后选择,单个或多个的,对应的库(jar包)

 

(2)稍微麻烦的一种是:

右击项目->Properties ->Java Build Path -> Libraries -> Add External JARs

然后同样的,选择对应的,单个或多个的jar包,然后确定,即可加入进来.


Java中用jsoup进行爬虫方法

【使用JSOUP实现网络爬虫】从一个URL加载一个Document

Note:

1. toString()  

jsoup中 Element.getElementsByTag("***").toString()返回字符串中原来的 ' 都自动替换成了"

<TD><SPAN class=f14black>  市委副书记、市长:刘忻</SPAN></TD></TR>中的class中的字符串 会变成 class="f14black"

src="/ 会自动转变为 src="./

3.elementId.getElementsByTag("img")中的img不区分大小写



jsoup网络爬虫中文乱码

http://www.laibin.gov.cn/LBFront/zwgk/20150113/003001005_4a9f2617-0da0-4829-8af4-8ad88bd13232.htm

这个网站为什么爬虫时总是爬的乱码嘛?
Document doc = Jsoup.connect(resumeLink).timeout(30000).get();
System.err.println(doc.html());

网络爬虫的乱码处理

处理URLs

你有一个包含相对URLs路径的HTML文档,需要将这些相对路径转换成绝对路径的URLs。

Jsoup抓取网页信息】

jsoup select 选择器】



from:http://blog.youkuaiyun.com/pipisorry/article/details/42913569

ref:http://www.crifan.com/tutorial_eclipse_add_external_jar_library/

Jsoup抓取网页信息

jsoup 使用详解


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值