1. 前言
1.1. 什么是数据采集
大数据采集是指通过各种技术手段,收集和整理大量数据的过程。采集的数据可以来自不同的数据源,包括结构化数据和非结构化数据,如网站数据、社交媒体数据、电子邮件、日志数据等。根据数据源分类,主要有web数据采集、系统日志采集、数据库采集等方向。
1.2. 常用的采集工具
- Python(爬虫脚本)
利用requests和BeautifulSoup模块爬取网页,解析HTML中非结构化数据,保存到数据库中。
- Filebeat
监听日志文件变化,输出到Logstash、Kafka等目标,可与Elasticsearch、Kibana等工具集成组成ELK日志监控平台。
- Canal
模拟Mysql从数据库节点,从主节点读取Binlog并解析,输出到Kafka、RocketMQ,RabbitMQ等消息队列
- Flink
支持从多数据源获取数据(Mysql、Oracle、MongoDB等),处理数据,利用Sink任务自定义输出数据。
1.3. Flink-CDC
Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件或者编码的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。
2. 简单使用
集成springboot,以采集Mysql数据,输出到Kafka为例。
2.1. 参考文档
2.2. 测试环境准备
- Mysql
创建测试数据库并初始化数据
version: '1'
services:
mysql:
image: mysql
container_name: mysql8
environment:
- MYSQL_ROOT_PASSWORD=123456
- TZ=Asia/Shanghai
volumes:
- D:\Docker\Mysql\log:/var/log/mysql
- D:\Docker\Mysql\data:/var/lib/mysql
- D:\Docker\Mysql\conf.d:/etc/mysql/conf.d
ports:
- 3306:3306
-- 创建数据库
CREATE DATABASE `flink-cdc`;
USE `flink-cdc`;
-- 创建 orders 表
CREATE TABLE `orders` (
`id` INT NOT NULL,
`price` DECIMAL(10,2) NOT NULL,
`amount` DECIMAL(10,2) NOT NULL,
PRIMARY KEY (`id`)
);
-- 插入数据
INSERT INTO `orders` (`id`, `price`, `amount`) VALUES (1, 4.00, 3.00);
INSERT INTO