原文:【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
源代码下载地址:http://www.zuidaima.com/share/1581523414404096.htm
如果要使用注解方式实现,也是支持的。
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog {
@ExtractBy("//title")
private String title;
@ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
private String content;
@ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
private List<String> tags;
public static void main(String[] args) {
OOSpider.create(
Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"),
new ConsolePageModelPipeline(), OschinaBlog.class).run();
}
}

本文介绍如何利用WebMagic框架搭建一个可根据自定义规则直接抓取网页信息的爬虫,提供了详细的实现步骤及注解方式,并通过一个实际的Demo部署展示了其使用效果。

816

被折叠的 条评论
为什么被折叠?



