本文介绍如何使用DataWorks数据同步功能,将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute,方便您对离线数据进行分析加工。
前提条件
在开始本教程前,确保您在同一地域中已完成以下操作:
-
云消息队列 Kafka 版
-
已开通MaxCompute和DataWorks,本文以在华东1(杭州)地域创建名为bigdata_DOC的项目为例。
背景信息
大数据计算服务MaxCompute(原ODPS)是一种大数据计算服务,能提供快速、完全托管免运维的EB级云数据仓库解决方案。
DataWorks基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加(一站式大数据平台)中,DataWorks控制台即为MaxCompute控制台。MaxCompute和DataWorks一起向用户提供完善的数据处理和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。
本教程旨在帮助您使用DataWorks,将云消息队列 Kafka 版中的数据导入至MaxCompute,来进一步探索大数据的价值。
步骤一:准备云消息队列 Kafka 版数据
向Topic testkafka中写入数据,以作为迁移至MaxCompute中的数据。由于云消息队列 Kafka 版用于处理流式数据,您可以持续不断地向其中写入数据。为保证测试结果,建议您写入10条以上的数据。
-
在概览页面的资源分布区域,选择地域。
-
在实例列表页面,单击目标实例名称。
-
在左侧导航栏,单击Topic 管理。
-
在Topic 管理页面,找到目标Topic,在其操作列中,选择更多 > 体验发送消息。
-
在快速体验消息收发面板,发送测试消息。
-
发送方式选择控制台。
-
在消息 Key文本框中输入消息的Key值,例如demo。
-
在消息内容文本框输入测试的消息内容,例如 {"key": "test"}。
-
设置发送到指定分区,选择是否指定分区。
-
单击是,在分区 ID文本框中输入分区的ID,例如0。如果您需查询分区的ID,请参见查看分区状态。
-
-
-

最低0.47元/天 解锁文章
893

被折叠的 条评论
为什么被折叠?



