- 博客(9)
- 收藏
- 关注
原创 Spring cloud DataFlow on yarn
Spring Cloud DataFlow可以deploy到YARN集群中1)下载源代码并编译git clone https://github.com/spring-cloud/spring-cloud-dataflow-server-yarn.gitmvn clean package -DskipTests在dist项目中可以可以找到安装包:spring-cloud-data...
2018-07-19 20:14:13
785
原创 Spring Cloud DataFlow 本地模式
Spring Cloud DataFlow可以deploy到local模式下,部署步骤如下:1)下载安装包wget https://repo.spring.io/release/org/springframework/cloud/spring-cloud-dataflow-server-local/1.5.2.RELEASE/spring-cloud-dataflow-server-loc...
2018-07-19 20:02:33
4784
原创 Spring Cloud DataFlow
Spring Cloud DataFlow用于开发和执行大范围数据处理包括ETL、批量计算和持续计算的统一编程模型和托管服务,其简化应用程序的开发和部署而将精力集中在数据处理的用例上。Spring Cloud DataFlow是Spring XD升级版,继承了Spring XD优点的同时提供了基于云技术的原生方式来提供结合流计算和批量计算的混合计算模型。开发者可以通过Spring Cloud Da...
2018-07-19 19:56:52
4435
1
原创 DataLake in AWS
在AWS上的Data Lake实现的功能如下:Ø 低成本的存储任何规模的所有类型数据Ø 保护数据并防止其受到未经授权的访问Ø 在一个集中式存储库对相关数据进行编目、搜索和查找,Ø 轻松的执行新类型的数据分析,Ø 使用一系列分析引擎,用于临时分析、实时流式处理、预测性分析、人工智能和机器学习数据库补充和扩展现有的数据仓库,如果正在使用数据仓库,可以将数据湖用作结构化数据和非结构化数据的来源。基于AW...
2018-07-02 11:32:46
1377
原创 DataLake in Azure
Azure Data Lake包括所有所有的功能,使开发人员、数据专家和分析师可以更轻松的存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析。它消除了插入和存储所有数据的复杂性,同时启动更快,可与批量、流式、交互式分析一起运行。Azure Data Lake与现有IT投资一起工作以进行简化数据管理和监管的识别、管理和安全防护工作。同时与操作存储区和数据仓库无缝集成,以便可以扩展...
2018-07-02 11:31:22
1481
原创 DataLake in Hortonworks
在Data Lake中,Hortonworks充分扩展了YARN作为数据处理系统的能力,将应用打包,然后根据需要启动程序。工作核心从平台管理转移到业务能力上,如下图所示在2.x中,YARN是Hadoop的核心资源管理平台,核心概念是Application,Containers及Resources等。Container是虚拟执行环境,由一系列的进程和任务组成,应用程序由Container集合来执行,...
2018-07-02 11:27:06
559
原创 DataLake with Hadoop Ecosystem
Hadoop是实现数据湖最常用的技术手段,目前是最理想的选择,Hadoop生态系统提供批处理、实时处理引擎,还提供海量数据存储能力,数据处理架构如下图:目前常见的两种使用方式:1) 第一种方式是将Hadoop作为ETL工具,并且数据备份或者冷数据存储其PB级别数据,在Hadoop中数据冗余而且较容易恢复,如下图所示:MapReduce及Spark Engine可以用来处理非结构化数据,在Ha...
2018-07-02 11:24:24
546
原创 DataLake 基本概念
“A data lake is a method of storing data within a system or repository, in its natural format, that facilitates the collocation of data in various schemata and structural forms, usually object blobs o...
2018-07-02 11:20:03
10098
1
翻译 Baika ,印度公司FreshWork的Data Lake实践
数据和信息之间相互联系,数据反映客观事物属性的记录,是信息具体表现形式,数据经过加工处理之后,就成为信息,没有数据就不会产生信息。不同业务都会从不同的数据源中获取大量的数据,随着业务逻辑的复杂化及数据源多样化,每天都会产生TB级别的数据。在大数据时代,数据无疑是企业和个人最重要的资产,但是业务收集、使用和使用数据过程中,数据隐私和数据安全是目前企业使用数据是需要考虑的比较敏感的问题。 业务平...
2018-07-02 10:40:39
948
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人