Springboot集成-数据采集工具Flink-CDC

老喵和老六

已于 2024-08-13 23:12:05 修改

阅读量2.3k

点赞数 23

文章标签： flink 大数据

于 2024-07-14 17:39:43 首次发布

本文链接：https://blog.youkuaiyun.com/qq_42322158/article/details/140419953

版权

1. 前言

1.1. 什么是数据采集

大数据采集是指通过各种技术手段，收集和整理大量数据的过程。采集的数据可以来自不同的数据源，包括结构化数据和非结构化数据，如网站数据、社交媒体数据、电子邮件、日志数据等。根据数据源分类，主要有web数据采集、系统日志采集、数据库采集等方向。

1.2. 常用的采集工具

Python（爬虫脚本）

利用requests和BeautifulSoup模块爬取网页，解析HTML中非结构化数据，保存到数据库中。

Filebeat

监听日志文件变化，输出到Logstash、Kafka等目标，可与Elasticsearch、Kibana等工具集成组成ELK日志监控平台。

Canal

模拟Mysql从数据库节点，从主节点读取Binlog并解析，输出到Kafka、RocketMQ，RabbitMQ等消息队列

Flink

支持从多数据源获取数据(Mysql、Oracle、MongoDB等)，处理数据，利用Sink任务自定义输出数据。

1.3. Flink-CDC

Flink CDC 是一个基于流的数据集成工具，旨在为用户提供一套功能更加全面的编程接口（API）。该工具使得用户能够以 YAML 配置文件或者编码的形式，优雅地定义其 ETL（Extract, Transform, Load）流程，并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。

官网：项目介绍 | Apache Flink CDC

2. 简单使用

集成springboot，以采集Mysql数据，输出到Kafka为例。

2.1. 参考文档

MySQL | Apache Flink CDC

2.2. 测试环境准备

Mysql

创建测试数据库并初始化数据

version: '1'
services:
  mysql:
    image: mysql
    container_name: mysql8
    environment:
      - MYSQL_ROOT_PASSWORD=123456
      - TZ=Asia/Shanghai
    volumes:
      - D:\Docker\Mysql\log:/var/log/mysql
      - D:\Docker\Mysql\data:/var/lib/mysql
      - D:\Docker\Mysql\conf.d:/etc/mysql/conf.d
    ports:
      - 3306:3306

-- 创建数据库
CREATE DATABASE `flink-cdc`;

USE `flink-cdc`;

-- 创建 orders 表
CREATE TABLE `orders` (
`id` INT NOT NULL,
`price` DECIMAL(10,2) NOT NULL,
`amount` DECIMAL(10,2) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `orders` (`id`, `price`, `amount`) VALUES (1, 4.00, 3.00);
INSERT INTO

最低0.47元/天解锁文章