
大数据分析
文章平均质量分 91
壹零万联
这个作者很懒,什么都没留下…
展开
-
Arrow数据格式-Arrow究竟是个啥
1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。2.内容 现在大数据处理模型很多,用户在应用大数据分析时,除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外,同样也得关注系统的扩展性和性能。过去开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具包含了数...原创 2019-11-14 11:09:38 · 6316 阅读 · 0 评论 -
Apache Falcon简介-Hadoop数据生命周期管理框架
Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理.本文主要介绍了Falcon的基本特性, 核心概念以及架构, 最后讨论了它的优点和局限.Hortonworks的hadoop发行版HDP中,数据治理...原创 2019-11-14 11:05:22 · 1198 阅读 · 0 评论 -
Canal实时抽取数据
概述canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获...原创 2019-11-14 10:59:09 · 1347 阅读 · 0 评论