DataX数据采集流程(项目)

最新推荐文章于 2024-07-10 09:59:12 发布

原创

最新推荐文章于 2024-07-10 09:59:12 发布 · 1.2k 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了CDH（ClouderaDistributionIncludingApacheHadoop）及其商业版特性，重点讲解了ClouderaManager的架构，涉及服务器管理、dataX的数据处理流程，包括MySQL数据切割、导入HDFS及Web访问页面。数据同步工具dataX以插件形式实现，展示了从MySQL到HDFS的数据迁移方法。

目录

2.ClouderaManager架构

5.Datax数据处理流程

6.DataX的使用说明

7.Mysql数据切割

8.Mysql数据导入HDFS

站点页面如下，可进一步查询导入的数据内容

10.dataX-Web访问页面

创建数据库连接

1.CDH介绍

--(1)CDH Cloudera's Distribution Including Apache Hadoop
--(2)CDH 是商业版的hadoop，由cloudera公司基于开源的hadoop进行二次开发，封装更多的功能，部分功能需要付费使用
--(3)CDH 集成了一个 CM(Cloudera Manager)，使用各B(浏览器)/S(服务器)模型服务，可以在CM中通过web浏览器页面管理维护hadoop集群
--(4)CM的核心角色
    --server 主服务 处理CM的各类请求
    --agent 从服务 运行多台服务器上，接受servGr分配的任务

2.ClouderaManager架构

--(1)Server:
    Cloudera Manager的核心是Cloudera Manager Server。提供了统一的UI和API方便用户和集群上的CDH以及其它服务进行交互，能够安装配置CDH和其相关的服务软件，启动停止服务，维护集群中各个节点服务器以及上面运行的进程。
--(2)Agent:
    安装在每台主机上的代理服务。它负责启动和停止进程，解压缩配置，触发安装和监控主机
--(3)Management Service:
    执行各种监控、报警和报告功能的一组角色的服务
--(4)Database:
    CM自身使用的数据库，存储配置和监控信息
--(5)Cloudera Repository:
    云端存储库，提供可供Cloudera Manager分配的软件
--(6)Client:
    用于与服务器进行交互的接口
    1)Admin Console:管理员可视化控制台
    2)API:开发人员使用API可以创建自定义的Cloudera Manager应用程序

3.服务器

服务器说明
hadoop01 192.168.88.80
hadoop02 192.168.88.81
账户 root
密码 123456
注意:需要通过域名访问hadoop服务，就需要更改windos下域名解析文件
访问Server: http://hadoop01:7180/cmf/login
账号密码均为admin

4.dataX架构

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。
(1)Reader: Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
(2)Writer: Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
(3)Framework: Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

5.Datax数据处理流程

6.DataX的使用说明

-- 切割数据并执行 官网： https://github.com/alibaba/DataX/blob/master/introduction.md
(1)启动finalshell连接虚拟机
(2)datagrip中对应虚拟机里创建相应数据库并插入数据
(3)在/export/server/datax/job下创建json文件
(4)切换到/export/server/datax/bin下运行python datax.py ../job/mysql_query.json

7.Mysql数据切割

-- json语言，切割数据过程，虚拟机运行
{
    "job": {
        "setting": {
            "speed": {
                 "channel":1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "r

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。