
数据工厂
文章平均质量分 76
晨晨的使魔
本人擅长微服务、大数据架构
展开
-
Pandora数据工厂之概述
Pandora数据工厂 Pandora数据工厂是大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据存储、数据开发、数据管理、数据治理和数据服务等全方位的产品服务。 Pandora数据工厂是用于工作流可视化开发和托管任务调度的海量数据离线加工分析平台,支持按照时间和依赖关系的任务全面托管调度,支持每日千万级别的任务按照DAG关系准确、准时运行,提供可视化的任...原创 2018-12-01 00:12:57 · 1444 阅读 · 0 评论 -
Pandora数据工厂之多租户项目介绍
一、IaaS单租户面临的问题 基于IaaS单租户大数据产品架构如上图所示。在这类生态环境中,IaaS平台通常作为同一租户存在,当用户产生新需求时,通过IaaS平台申请一批集群(虚机),在这些集群上部署相应的开源产品。从隔离的角度出发,这种生态面临以下问题:首先,IaaS单租户大数据产品架构在实际使用时存在一定的逻辑问题。使用者进行数据分析时,需要了解使用的每种产品的具体逻辑,例如运...原创 2018-12-09 02:38:03 · 944 阅读 · 0 评论 -
Pandora数据工厂之数据服务
数据服务一、背景概述 随着企业IT建设的快速发展,企业内部系统越来越多,数据分布也越来越分散。为了实现对各系统大数据传输过程的高效、可靠、可监控,以及对整个传输过程中的可管理,公司研发设计了一个通用的大数据服务平台,把原本各个系统之间直接的数据交互抽取出来,通过底层统一的传输平台来具体完成传输过程,从而将底层的传输问题和具体的业务处理过程分离开,形成系统的松耦合分层架构,从而实现...原创 2018-12-01 01:41:12 · 620 阅读 · 0 评论 -
Pandora数据工厂之数据开发
数据开发Leopard概述 数据开发Leopard根据用户业务需求,对数据进行加工处理、分析与挖掘分析与挖掘(数据分析、数据挖掘)等提供数据离线计算分析功能。把用户设计的数据计算流程转化为多个相互依赖的任务,供调度系统自动调度执行。一、数据计算任务流程二、任务类型数据同步HiveSQLSparkSQLShellSpark Scala脚本我们对底层任务调...原创 2018-12-01 01:11:12 · 561 阅读 · 0 评论 -
Pandora数据工厂之数据存储系统架构
数据存储系统概述 数据存储系统作为大数据平台最核心的数据基础,不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等特征之外,还要有虚拟化、并行分布、自动分层、弹性扩展、异构资源整合、多样性等多方面的特点,才能满足具备大数据特征的业务应用需求。针对数量的持续增长、多样性以及快速移动性等特点,我们需要采用多种大数据存储技术相结合来解决大数据存储的不断变化的多样性需求。大数据...原创 2018-12-01 01:05:16 · 738 阅读 · 0 评论 -
Pandora数据工厂之数据集成
3 数据集成概述 数据集成系统提供的稳定高效、弹性伸缩的数据同步平台。致力于异构数据源之间数据高速稳定的数据移动及同步能力。一、数据的同步流程图如下:二、支持的数据源类型文本数据TextCSVJson关系型数据库MySQLOracleSQL ServerNoSQLMongoDB大数据存储ElasticSearchHDFS...原创 2018-12-01 00:56:48 · 797 阅读 · 0 评论 -
Pandora数据工厂之任务调度引擎
任务调度引擎 调度引擎作为整个集群的大脑,主要为平台中数据采集、数据计算、数据查询、数据清洗等各种需要调度任务的场景,提供统一的任务调度功能。一、执行引擎 执行引擎主要负责任务请求、任务调度和任务执行,整个架构采用master-slave架构,包括客户端、注册中心、任务管理中心、执行器和任务元数据等。客户端JobClient JobClient为执行引擎...原创 2018-12-01 00:47:31 · 1694 阅读 · 0 评论 -
Pandora数据工厂之权限方案
Pandora数据工厂权限方案一、功能权限 Pandora数据工厂角色 分为管理员角色和项目角色。管理角色包括:唯一的超级管理admin、管理员;项目角色包括:组管理员、开发成员、运维人员。权限流程如下:二、数据权限 数据权限主要控制不同的资源主体(用户、角色、组织等)有查看不同的数据信息的权限,一般来说,数据权限又分为数据行权限和数据列权限。 平台数据分为三种...原创 2018-12-01 00:25:51 · 535 阅读 · 0 评论 -
Pandora数据工厂之数据开发流程
数据开发流程 数据开发的总体流程包括原数据、数据采集、数据存储、数据分析与处理、数据同步和数据可视化,如下图所示:数据源业务系统每天会产生大量结构化的数据,这些数据都存储在业务系统所对应的数据库中,包括MySQL、Oracle等类型;数据采集(数据集成的数据采集) 和数据存储对数据进行数据分析计算之前,先对业务数据进行采集和存储;数据开发数据开发主要是数据离线计算,对...原创 2018-12-01 00:19:33 · 686 阅读 · 0 评论 -
Pandora数据工厂之多租户项目预架构
我们按照ADMEMS方法论的理论指导,结合《Pandora数据工厂之多租户项目介绍》进行预架构阶段的架构分析过程实践,找到关键功能性需求和非功能性需求(关键质量及约束)等。一、功能需求1. 采用“职责协作链”来梳理关键功能 模拟不同类型的用户如何通过系统实现业务需求的过程,借助系统化的思维模拟跟踪各环节,梳理清晰后即可得出清晰的职责链,这样便可以找出各...原创 2018-12-10 02:12:45 · 575 阅读 · 0 评论