
Java爬虫(Webmagic)
Ada5899
这个作者很懒,什么都没留下…
展开
-
基于Webmagic的Java爬虫(一)配置WebMagic
基于Webmagic的Java爬虫(一)配置Webmagic(基于Maven)在创建的Maven项目的 pom.xml 文件中添加如下依赖: <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId>...原创 2019-03-24 21:49:46 · 1774 阅读 · 0 评论 -
基于Webmagic的Java爬虫(二)爬取当前页内容
基于Webmagic的Java爬虫(二)一、目标:获取(电影天堂)电影详情页链接,再获取电影名字和下载地址,并在控制台输出。二、步骤:爬取(电影天堂:https://mp.youkuaiyun.com) 首页电影详情的所有链接。要爬取的内容:按 F12 查看页面的源码,写出电影详情页正则://div[@class=‘co_content4’]/ul/a[@href]点击电影详情链接,观察地...原创 2019-03-24 22:40:30 · 1205 阅读 · 0 评论 -
基于Webmagic的Java爬虫(五)将爬取的数据保存到mysql数据库中(jdbc)
一、目的:爬取博客园的网站,将所有的标题和内容爬取下来并通过 bean+jdbc 保存到 mysql 数据库中。二、步骤:在 pom.xml 文件中添加 mysql 数据连接依赖。结构在 mysql 数据库中创建数据库 test ,并创建表 t_cnblogs。添加MySQL的工具类package ang.util;/** * MySQL的工具类 * @author A...原创 2019-03-27 22:57:39 · 3976 阅读 · 0 评论 -
基于Webmagic的Java爬虫(四)爬取动态列表页内容
一、目标:爬取博客园上的所有文章的标题,爬取不同页码的文章,将其在控制台输出。二、要点:模拟POST请求。JSONPath语法。实际请求地址。三、步骤:按F12查看源码,发现翻页处链接没有具体链接而是动态的地址,即在此页面不能直接取到所有的网页链接。点击翻页后按 F12 查看源码可发现实际请求地址。模拟POST请求。 //模拟POST请求 Requ...原创 2019-03-27 22:10:58 · 3086 阅读 · 1 评论 -
基于Webmagic的Java爬虫(三)爬取静态列表页
一、目标:抓取虎扑网的列表页和文章页页面文章标题及内容二、步骤:点击文章页面观察文章页的 URL 特点,写出:文章页面的 xpath :“https:// voice\.hupu\.com/nba/[0-9]{7}\.html”列表页文章链接的 xpath :/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a列表页面翻页的URL:...原创 2019-03-27 22:25:12 · 1061 阅读 · 0 评论 -
基于Webmagic的Java爬虫(六)爬取静态列表页上的图片并保存到本地
一、目标:爬取美食杰上的粤菜菜谱的图片,并保存到本地。URL:https://www.meishij.net/china-food/caixi/yuecai/.二、思路:观察要爬取图片的详情页的URL,写出详情页的正则表达式:“https:// www\.meishij\.net/zuofa/\S+\.html”列表页上详情页链接的xpath:"//div[@class=“listty...原创 2019-04-01 21:27:55 · 1292 阅读 · 0 评论