基于Webmagic的Java爬虫（二）爬取当前页内容

使用Webmagic爬取电影天堂详情页

最新推荐文章于 2022-12-16 11:16:07 发布

原创

最新推荐文章于 2022-12-16 11:16:07 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Webmagic #Java爬虫 #Java

本文介绍如何利用Webmagic Java爬虫框架，爬取电影天堂网站的电影详情页，包括电影名称和下载链接。首先确定目标，然后解析首页获取电影详情页链接，接着分析电影详情页正则表达式，最后展示实现代码和运行结果。

基于Webmagic的Java爬虫（二）

一、目标：
获取（电影天堂）电影详情页链接，再获取电影名字和下载地址，并在控制台输出。

二、步骤：

爬取(电影天堂：https://mp.youkuaiyun.com) 首页电影详情的所有链接。
要爬取的内容：
按 F12 查看页面的源码，写出电影详情页正则：//div[@class=‘co_content4’]/ul/a[@href]
点击电影详情链接，观察地址栏，写出电影详情页的正则，作为判断的依据。正则为：http://www.dytt8.net/html/gndy/\w{4}/\d{8}/\d{5}.html
查看电影详情页网页源码，写出电影名称和电影下载链接的正则：
电影名称正则：//div[@class=‘title_all’]/h1/font/text()
电影下载链接正则：//a[starts-with(@href,‘ftp’)]/text()

三、代码：

package ang.one;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ada5899

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于Webmagic的Java爬虫（四）爬取动态列表页内容

Ada5899的博客

03-27

3151

一、目标：爬取博客园上的所有文章的标题，爬取不同页码的文章，将其在控制台输出。二、要点：模拟POST请求。JSONPath语法。实际请求地址。三、步骤：按F12查看源码，发现翻页处链接没有具体链接而是动态的地址，即在此页面不能直接取到所有的网页链接。点击翻页后按 F12 查看源码可发现实际请求地址。模拟POST请求。 //模拟POST请求 Requ...

Java 使用WebMagic爬取网页（简单示例）

深夜无眠的博客

05-20

1778

WebMagic是一个基于Java的开源网络爬虫框架，它提供了很多简单易用的API接口，可以帮助使用者快速构建出高效、可扩展的网络爬虫程序，WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成，核心代码非常简单，主要是将这些组件结合并完成多线程的任务WebMagic的结构分为。

参与评论您还未登录，请先登录后发表或查看评论

Java 基于webmagic框架进行爬取页面数据

如漩涡的博客

02-12

2364

爬虫框架网络上一搜一大把，看个人觉得哪款爬虫框架比较适用自己，刚开始我接触使用的是xxl-crawler，经过几次测试实现，虽然这个框架不错，功能丰富，但跟我当时的需求来说并不满足，或许是我还没研究深，不太会用，时间有限，我选择了去找其他框架，后来接触了webmagic，操作简单方便，可以多次深入爬取，以及css，$，xpath都支持，还有获取单条数据或者多条数据的选择，正好符合我想要的，就着手研...

Java的WebMagic爬虫

m0_59463643的博客

12-16

538

Java爬虫,WebMagic使用

如何用java中的webmagic爬取网页

林老师带你学编程

12-20

753

说到爬虫，大家第一个想到的肯定是python的scrapyd爬虫。但是大家不知道吧，我们的java也有相应的爬虫工具。今天就给大家介绍一下我们java的爬虫工具。我们今天要介绍的爬虫工具，名字叫做webmagic，webmagic的架构图如下所示：如图所示，它主要分为四个部分： Downloader(页面下载) PageProcessor(页面分析及链接抽取) Scheduler...

webmagic爬取方式

千里之行，始于足下

02-01

556

一：根据网页地址爬取并解析适用于新闻网站爬取二：分析网页中的get请求，对返回的数据进行解析适用于微博、微信、贴吧三：根据post请求爬取查看网页源代码，找到post请求参数，伪造request进行爬取，用到的较少，分析起来相对麻烦有的网站爬取需要注册登录，可以设定cookie进行登录，必要时可以添加代理；个别网站登录时没有验证码可以下载谷歌插件进行爬取。

WebMagic（Java）简单爬虫实现，实现抓取数据，并导出到excel文件

03-16

WebMagic（Java）爬虫实现，实现数据爬取，并导出到excel文件

基于 webmagic 的 Java 爬虫应用：爬取企信网企业基本信息.zip

最新发布

08-22

基于webmagic的Java爬虫应用不仅是一个实践项目，更是一个能够展现Java网络爬虫能力、解决实际问题的有力工具。通过构建一个爬取企信网企业基本信息的爬虫，开发者不仅可以加深对webmagic框架的理解，还能够掌握如何...

基于Webmagic的Java爬虫（三）爬取静态列表页

Ada5899的博客

03-27

1099

一、目标：抓取虎扑网的列表页和文章页页面文章标题及内容二、步骤：点击文章页面观察文章页的 URL 特点，写出：文章页面的 xpath ：“https:// voice\.hupu\.com/nba/[0-9]{7}\.html” 列表页文章链接的 xpath ：/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a 列表页面翻页的URL：...

Webmagic爬取文章列表详情页的两种方式

杀神Jack的博客

07-05

3627

通常webmagic爬取数据，无非就是分析页面结构，然后解析数据，一般这种类型的页面，网站都是get请求。但是有些数据，是通过js渲染的，通过post请求获取到json数据，然后渲染到页面上。所以针对这种类型的网站单单通过分析页面结构是行不通的，所以则需要模拟post请求返回数据，然后进行获取。准备工作：导入需要的maven依赖包 <dependency> ...

java爬取网页数据库_java 使用webmagic爬虫框架爬取博客园数据存入数据库

weixin_30569303的博客

02-13

434

webmagic简介：WebMagic是一个简单灵活的Java爬虫框架。你可以快速开发出一个高效、易维护的爬虫。http://webmagic.io/准备工作：Maven依赖(我这里用的Maven创建的web项目做测试)：View Code数据库表SQL：CREATE TABLE `Boke` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id',`...

使用WebMagic进行java爬虫的总结

LJWWD的博客

03-01

1677

WebMagic介绍 WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。 WebMagic的中文文档

Java爬虫-基于WebMagic爬取某豆瓣电影评论

Victor.Chang

01-15

3255

目的搭建爬虫平台，爬取某豆瓣电影的评论信息。准备 webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。下载WebMagic源码，或Maven导入，或Jar包方式导入。码云地址：https://gitee.com/flashsword20/webmagic 试运行搭建好后打开项目，在us.codecraft.webmagic.processo...

WebMagic的学习（二）——实现PageProcessor以及爬虫demo

有问题请发邮箱dengyifanlittle@163.com进行讨论

12-27

4084

一、爬虫实例爬取csdn个人主页，先进入主页，我们发现列表页是这样的规则 https://blog\\.csdn\\.net/qq_41061437/article/details/1 只有后面的数字会发生变化，因此可以用正则表达式： "https://blog\\.csdn\\.net/qq_41061437/article/list/\\d，定义一个URL_LIST: pub...

初识WebMagic之爬豆瓣影院

a81579261的博客

12-13

348

背景前文说到我正开发一个全民爬虫的网站，然而这一举措被我一深圳老哥知道了，提了个需求给我，让我去爬取某网站的数据，然后我发现该网站数据不是前端渲染的，这样的话，我之前的应用就毫无用武之地了。接着，我打算参照Webcollector的POST Demo重新再写一套方法，结果。。。。。。不堪入目（搞不掂，而且Webcollector框架目前我理解不了）。杜某曰：“打不赢就加入。”，然后我就发现Web...

Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址

weixin_36302350的博客

03-22

875

事先说明不要用这技术，做一些违法的事情，网上玩爬虫的已经有还能多被抓了，此文就是为了学习webmagic源码地址：https://github.com/smltq/spring-boot-demo/tree/master/webmagicDetailPageProcesser类package com.qf.webmagic.controller;import us.codecraft.webmag...

利用WebMagic爬豆瓣电影数据（注解版本）

robinson_911的专栏

01-29

528

WebMagic爬数据（注解版本）官方资料：http://webmagic.io/docs/zh/posts/ch5-annotation/ 继上一篇爬虫文章后，再用注解版来抓取点数据。一.目标页面（https://www.douban.com/doulist/3907668）爬取豆瓣电影数据（电影名字，评分，导演信息，电影信息）界面如下图：二. 注解版本源码分析现在只爬取单个页面的电影数据，这里写死这个页面@TargetUrl(value = "(https://www.douban

Java数据采集：Xpath解析 + WebMagic案例：采集豆瓣豆列电影信息存储MySql数据库

坚决不做秃头少女

10-18

1663

Maven的安装与设置环境变量 1. 下载Maven：http://maven.apache.org/download.cgi 2. 设置环境变量新建变量MAVEN_HOME，值为Maven的目录X:\XXX\apache-maven-XXX 将%MAVEN_HOME%\bin添加到Path变量下 3. 检测：运行CMD，输入mvn -v后可以看到Maven的版本信息等则表示安装成功 ...