网站显示内容基本上都是通过分页来显示,我们用jsoup简单爬取页面仅能获取本页的内容,对于其他页面的内容该如何爬取?其实很简单,就是通过检查下一页的链接地址,基本上下一页的超链接地址都是有规律的,基本上都是*****/1或者*****/2等等,所以我们可以按照这个规律,循环访问页面,抓取信息即可;当然,通过选择器直接将下一页的url获取出来也可以,不过我觉得直接分析还是比较简单。
上代码:
public int startSpiderFullHandler(String url) {
int resultCode = 0;
Document document = null;
List<String> titleList = new ArrayList<>();
for (int i = 0; i < 7; i++) {
document = getDocument(url + "/page/" + (i + 1));
//全部标题
Elements elements2 = document.getElementsByClass("meta-title");
for (Element element : elements2) {
logger.info("全部标题" + element.text());
titleList.add(element.text());
}
logger.info("本页文章:" + elements2.size());
}
logger.info("文章总数:" + titleList.size());
return resultCode;
}
如果需要其他代码,我上传到我的资源里,可以直接下载
http://download.youkuaiyun.com/download/bbs_baibisen/10156414