暑假在学习ssm框架之余,想探探爬虫的神秘面纱,刚好看到 这篇博客,点击打开链接
就想学一下java爬虫,也算是入门爬虫吧,利用Java爬虫框架WebMagic来爬去一个优快云博客账号的所有文章,这里用我自己的账号为例来爬。先看一下官方教程,里面写得很详细,也有不少参考案例。也可以到github下载源码
https://github.com/oldbig-carry/webmagic
小爬虫能抓取指定用户的所有文章的关键信息,包括文章id,标题,标签,分类,阅读人数,评论人数,是否原创。并且把数据保存到数据库中。
首先创建库和