学习Jsoup(一)

听同学说Jsoup用来做爬虫非常好用,而且它的selector几乎能够代替正则,对于苦苦学习爬虫技术的我,简直就像天上掉下的馅饼。

我现在想解决的第一个问题是,提取文章所在的地址。需要用到的技术有:

一、用正则抽取符合条件的html语句;

二、在语句中筛选出地址;

三、在语句中筛选出文章的标题。

 

解决办法:

一、使用Jsoup的selector

http://jsoup.org/apidocs/中的selector

其中这句能够解决问题

语句                                                                                                  解释                                                                                       例子

[attr~=regex]elements with an attribute named "attr", and value matching the regular expressionimg[src~=(?i)\\.(png|jpe?g)]
 The above may be combined in any orderdiv.header[title]

我的例子:select("a[title~=讲话]")意思是a标签后面包括了“讲话”的title。

 

二、在语句中筛选出地址

我用的是attr("href"),把href后的链接地址抓出来,用attr(abs : href )就能够得出绝对地址。

参考http://www.open-open.com/jsoup/attributes-text-html.htm

三、在语句中抓文本

用text()方法,参考如上。

今天先写到这里,大家一起讨论吧。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值