基于webmagic的种子网站爬取

最新推荐文章于 2020-08-03 20:09:40 发布

原创

最新推荐文章于 2020-08-03 20:09:40 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #爬虫 #webmagic

本文通过Spring/Mybatis/webmagic框架构建项目，详细介绍了爬取种子网站的过程，包括项目搭建、数据库设计、爬虫配置、逻辑编写，以及成果展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码地址如下：
http://www.demodashi.com/demo/12175.html

1. 概述

因为无聊，闲来没事做，故突发奇想，爬个种子，顺便学习爬虫。本文将介绍使用Spring/Mybatis/webmagic等框架构建项目并爬取种子磁链。

2. 项目搭建

如下图为本项目的工程结构，主要代码实现在Spider包中。
项目结构图

3. 数据库设计

参考众多的种子网站，找到描述种子的常用属性，如下：

4. 程序实现

1. 爬虫配置

在抓取种子之前，首先要确定所要抓取的网站地址、编码、抓取时间间隔、重试次数等信息，如下：

    //设置网站源
    private static String netSite="PushBT";

    private Site site = Site.me().setDomain("http://www.pushbt.com")
            .setCharset("UTF-8").setSleepTime(1000)//编码
            .setRetryTimes(3);

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

findhappy117

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Java网络爬虫基于webMagic爬取X课网所有免费视频信息实例

凉白开00的博客

09-03

2681

说到爬虫呢当然是python最适合干的事但是java呢基于这个庞大成熟的生态圈，也有一些不错的爬虫框架可以在实际项目中使用的。 webMagic就是今天的主角它在github上的start数量达到了近7000 很了不起了并且这个是我们国人开发的哦。简单介绍下吧： webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发项目结构 ...

webmagic爬虫框架爬取某安卓app视频内容，分析模拟post请求

u011635904的博客

09-25

2642

webmagic爬虫； post请求； app爬虫；

参与评论您还未登录，请先登录后发表或查看评论

种子爬取到视频下载全自动化

07-29

该python脚本的功能为，再cmd框输入需要搜索的关键词，脚本自动再蚂蚁BT上面搜索，爬下迅雷链接，遍历链接到迅雷里面去下载

使用webmagic爬取网站数据

兴国-为梦想而战

03-31

4229

通过webmagic爬取穷游网数据

基于webmagic爬虫表情包案例.zip

03-08

【标题】：基于WebMagic爬虫的表情包案例在当今互联网时代，表情包已经成为网络交流的重要组成部分，它们丰富了我们的在线对话，传达了各种情绪。WebMagic是一个强大的Java爬虫框架，它允许开发者轻松地抓取网页上...

利用WebMagic（Java）实现数据爬取并导出至Excel

WebMagic是一款基于Java语言开发的简单、高效、稳定的爬虫框架。它允许开发者以快速且简洁的方式实现网络数据的抓取，特别适合用于学习和开发小型到中型的爬虫项目。下面将详细介绍WebMagic框架在实现数据抓取以及...

webmagic-Java爬虫框架

热门推荐

KittyGirl

12-11

1万+

〇、Java爬虫框架有哪些？ 1.nutch：Apache下开源爬虫项目，适合做搜索引擎，分布式爬虫只是其中一个功能，功能丰富，文档完整。 2.heritrix：比较成熟，用的人较多，有自己的web管理控制台，包含了一个HTTP服务器。 3.crowler4j：只具有爬虫的核心功能，上手简单。 4.webmagic：一个可伸缩的爬虫框架，涵盖爬虫整个生命周期：下载、URL管理、内容提取和持...

Lunik-Torrent：Web种子下载器和云存储

02-06

卢尼克·托伦特新版本我目前正在开发具有最新技术的新版本。请查看以获取更多信息。 - =====查看===== =====安装===== 与Git $ git clone https://github.com/Lunik/Lunik-Torrent.git $ cd Lunik-Torrent $ npm install 配置成： configs/config.json 跑 $ npm start or with forever $ npm run deamon 与Heroku /！\ Heroku不存储任何数据。一旦您的应用关闭，您将失去所有登录信息和文件。为防止这种情况，您

WebMagic抓取优快云博客通过JDBC保存到数据库中去

11-03

WebMagic抓取优快云博客通过JDBC保存到数据库中去

爬虫基于Springboot+WebMagic+Mybatis+多数据源

11-30

闲来无事最近写了一个全新的爬虫框架WebMagic整合springboot的爬虫程序，不清楚WebMagic的童鞋可以先查看官网了解什么是Webmagic，顺便说说用springboot时遇到的一些坑

Webmagic爬取数据导入到ES

09-06

Webmagic爬取数据导入到数据库与Elasticsearch5,详细介绍请参考:http://blog.youkuaiyun.com/u011781521/article/details/77866642

好用的java爬虫框架webmagic爬取优快云

一笑的博客

03-09

1万+

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。在这四个组件中我们需要做的就是在PageProcessor中写自己的业务逻辑，比如如何解析当前页面，抽取有用信息，以及发现新的链接。下面是官方给出的架构图1.Downloa...

WebMagic的学习（三）——使用和定制Pipeline，爬取数据存储到MySql数据库

有问题请发邮箱dengyifanlittle@163.com进行讨论

12-27

5829

一、Pipeline介绍 Pipeline的接口定义如下： public interface Pipeline { // ResultItems保存了抽取结果，它是一个Map结构， // 在page.putField(key,value)中保存的数据，可以通过ResultItems.get(key)获取 public void process(ResultItems...

Python爬虫爬取电影网站种子，让你以后再也不寂寞

Python案例分享，B站视频教程：https://space.bilibili.com/523606542

08-03

9325

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者： imBobby 到了周末，写点简单加愉快的东西吧，下午健身回来，想看个电影，于是来到熟悉的网站： btbtt.me 我觉得这个网站中文资源比较全，而海盗湾就是英文资源全一些，今天做个电影资源爬虫吧，进入btbtt.me首页：这浓烈的的山寨风格，有一丝丝上头，先观察一下，点进高清电影区，我的思路是进入高清电影区，逐个访问页面内的电影标签，并将电影详情页.

基于Webmagic的Java爬虫（五）将爬取的数据保存到mysql数据库中（jdbc）

Ada5899的博客

03-27

4009

一、目的：爬取博客园的网站，将所有的标题和内容爬取下来并通过 bean+jdbc 保存到 mysql 数据库中。二、步骤：在 pom.xml 文件中添加 mysql 数据连接依赖。结构在 mysql 数据库中创建数据库 test ，并创建表 t_cnblogs。添加MySQL的工具类 package ang.util; /** * MySQL的工具类 * @author A...