
大数据
文章平均质量分 89
chenhjia
这个作者很懒,什么都没留下…
展开
-
规则引擎在数据治理平台的实践
在数据治理时,经常会遇到个性化统计分析的场景:基于数据的某些属性进行组合筛选,只有符合条件的数据才进行统计分析。为了方便可视化筛选数据,基于规则引擎提供个性化配置能力原创 2022-08-06 18:13:17 · 2305 阅读 · 0 评论 -
大数据基础设施Apache Hadoop简介
一、项目起源在数据量很大的情况下,单机的处理能力无法胜任,必须采用分布式集群的方式进行处理,而用分布式集群的方式处理数据,实现的复杂度呈级数增加。早在 2003 年的时候,Google 就已经面对大于 600 亿的搜索量。但是数据的大规模处理技术还处在彷徨阶段。当时每个公司或者个人可能都有自己的一套工具处理数据。却没有提炼抽象出一个系统的方法。在海量数据处理的需求下,一个通用的分布式数据处理技术框架应运而生。大数据技术主要始于Google的两篇论文:2003年《The Google File Sy原创 2022-02-14 15:21:26 · 2396 阅读 · 0 评论 -
使用Ambari管理Apache Atlas
文章目录一、背景二、准备三、替换服务3.1 定位安装目录3.2 停止HDP版本的Atlas3.3 替换安装目录3.4 启动Atlas一、背景HDP版本的大数据套件,一般是HDP预打包好,由 Ambari 进行分发管理。若要使用Apache社区版本的服务,一般是独立部署,无法使用 Ambari 进行服务启停、配置管理。本文主要介绍如何利用 Ambari 管理Apache版本的Atlas服务。二、准备从 Github 下载 Apache Atlas 源码,编译打包之后上传到Atlas服务器,解压部署好原创 2021-09-08 11:34:14 · 718 阅读 · 0 评论 -
Atlas变更搜索引擎
文章目录一、背景二、尝试修改配置(失败)三、删库重建3.1 删除HBase表3.2 修改Atlas配置3.3 修改Atlas的ES依赖jar包3.4 重启Atlas四、开放ES索引权限五、修改ES索引配置一、背景Apache Atlas是数据治理的一个重要组件,可以自动采集加工,生成元数据及血缘。Apache Atlas本质上是基于JanusGraph图数据库封装起来的一个服务,在生产环境下,JanusGraph一般需要依赖外部的存储引擎(HBase/Cassandra/Bigtable/Berkel原创 2021-09-08 09:14:42 · 1354 阅读 · 4 评论