Springboot集成-数据采集工具Flink-CDC

1. 前言

1.1. 什么是数据采集

大数据采集是指通过各种技术手段,收集和整理大量数据的过程。采集的数据可以来自不同的数据源,包括结构化数据和非结构化数据,如网站数据、社交媒体数据、电子邮件、日志数据等。根据数据源分类,主要有web数据采集、系统日志采集、数据库采集等方向。

1.2. 常用的采集工具

  • Python(爬虫脚本)

利用requests和BeautifulSoup模块爬取网页,解析HTML中非结构化数据,保存到数据库中。

  • Filebeat

监听日志文件变化,输出到Logstash、Kafka等目标,可与Elasticsearch、Kibana等工具集成组成ELK日志监控平台。

  • Canal

模拟Mysql从数据库节点,从主节点读取Binlog并解析,输出到Kafka、RocketMQ,RabbitMQ等消息队列

  • Flink

支持从多数据源获取数据(Mysql、Oracle、MongoDB等),处理数据,利用Sink任务自定义输出数据。

1.3. Flink-CDC

Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件或者编码的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。

官网:项目介绍 | Apache Flink CDC

2. 简单使用

集成springboot,以采集Mysql数据,输出到Kafka为例。

2.1. 参考文档

MySQL | Apache Flink CDC

2.2. 测试环境准备

  • Mysql

创建测试数据库并初始化数据

version: '1'
services:
  mysql:
    image: mysql
    container_name: mysql8
    environment:
      - MYSQL_ROOT_PASSWORD=123456
      - TZ=Asia/Shanghai
    volumes:
      - D:\Docker\Mysql\log:/var/log/mysql
      - D:\Docker\Mysql\data:/var/lib/mysql
      - D:\Docker\Mysql\conf.d:/etc/mysql/conf.d
    ports:
      - 3306:3306
-- 创建数据库
CREATE DATABASE `flink-cdc`;

USE `flink-cdc`;

-- 创建 orders 表
CREATE TABLE `orders` (
`id` INT NOT NULL,
`price` DECIMAL(10,2) NOT NULL,
`amount` DECIMAL(10,2) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `orders` (`id`, `price`, `amount`) VALUES (1, 4.00, 3.00);
INSERT INTO 
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值