【dataX】-读取csv文件到StarRocks&读取SFTP的csv到StarRocks

本文详细介绍了如何使用DataX从CSV文件读取数据并写入StarRocs,包括创建目录、下载DataX压缩包、配置环境变量、编写JSON配置文件以同步数据和表结构,以及SFTP上传操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DataX-读取csv文件到StarRocks

配置datax
在服务器上创建目录
mkdir -p /export/software  -- 用于软件压缩包
mkdir -p /export/server  --存放解压的软件
mkdir -p /export/data/datax_app  --存档json脚本
mkdir -p /export/data/data_test  --存放测试的csv文件
  • 上传压缩包

    官网下载:https://github.com/alibaba/DataX 
    在最下面有个Download DataX下载地址,点击下载
    
    cd /export/software/
    rz
    
  • 解压

    tar -zxvf datax.tar.gz -C /export/server/
    # 进入压缩包路径下,不然写全路径
    tar -zxvf  /export/software/datax.tar.gz -C /export/server/
    # 查看datax
    cd /export/server
    ls
    
  • 配置

    # 修改环境变量配置文件
    vim /etc/profile
    
    # 添加以下内容
    #DATAX_HOME
    export DATAX_HOME=/export/server/datax/
    export PATH=$PATH:$DATAX_HOME/bin
    
    # 不要把下面的内容添加到里面,这个不是
    # 刷新环境变量
    source /etc/profile
    
  • 测试

    # 注意进入datax所在的文件夹,不然写全路径
    cd /export/server/datax/
    python bin/datax.py job/job.json
    
# 部署到另一台服务器的命令,防止数据量大时,可以使用多台服务器工作
# 具体情况具体使用
cd /export/server/
scp -r /export/server/datax root@node03:$PWD
csv上传starrocks

配置StarRocksWriter

(StarRocks-Github下载:[Releases · StarRocks/DataX (github.com)](https://github.com/StarRocks/DataX/releases))

解压到 datax/plugin/writer
# 注意进入压缩包所在文件夹
tar -zxvf starrockswriter.tar.gz -C /export/server/datax/plugin/writer/

DataX只能同步数据,不能同步表结构,

所以在执行任务前,我们需要先在目标数据库中手动创建好表。

基本规则
  • step1:开发一个JSON配置文件:实现数据同步的配置文件
  • step2:定义Reader和Write:定义读什么地方和写什么地方
  • step3:运行JSON配置文件:python datax.py 自己的配置文件
创建json文件
# 创建了一个用来存放脚本的文件夹
cd /export/data/datax_app
# 文件名自行命名
vim CSV_StarRocks.json

官方给的参考模板
StarRocks官方:使用 DataX 导入 @ DataX-starrocks-writer @ StarRocks Docs

alibaba官方:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

# 合理配置任务参数,让DataX任务拆分为多个Task
# 这个是我写的基础模板,账号密码已脱敏
{
   
    "setting": {
   },
    "job": {
   
        "setting": {
   
            "splitter": 0,
            "speed": {
   
                "channel": 5
            }
        },
        "content": [
            {
   
                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值