
数据治理
架构师速成记
从业10年,专注于数据治理、架构设计、以及生活导向的自媒体探索者;全网程序员粉丝10万+
展开
-
元数据与数据治理|Apache Atlas安装过程详解(初步版本)
Apache Atlas安装过程详解一 安装Apache Atlas1.下载安装包执行以下命令tar xvfz apache-atlas-1.1.0-sources.tar.gzcd apache-atlas-sources-1.1.0/export MAVEN_OPTS="-Xms2g -Xmx4g"mvn...原创 2019-01-09 18:55:02 · 7327 阅读 · 2 评论 -
元数据与数据治理实战|Hadoop发展历程(1)
开篇点题作为学习大数据实战的第一讲,我们简单的了解下Hadoop的发展历程,此篇不一定全面,包括新版本的产生,难免介绍覆盖面不是很全面,但是作为一个了解性的文章,有个认识就可以了,下面我们来看下Hadoop的发展历程吧正文部分Hadoop是什么?Hadoop的起源Hadoop发展史Hadoop的四大特性(优点)Hadoop的版本如何选择Hadoop版本 Hadoop是什么?...原创 2019-01-27 15:47:57 · 1341 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper应用场景(2)
开篇点题用分2-3篇来简单介绍zookeeper的应用场景和使用,作为大数据HA不可或缺的一环,可以先简单了解下正文内容一、前言 在上一篇博客已经介绍了Zookeeper开源客户端的简单实用,本篇讲解Zookeeper的应用场景。二、典型应用场景 Zookeeper是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。在越来越多的分布式...转载 2019-01-27 16:41:27 · 636 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper在大型分布式系统中的应用(3)
开篇点题之前zookeeper仅仅用作注册中心,接触的很少,在大数据HA场景下,需要我们更加深升入的学习zookeeper,希望对大家有所帮助。正文部分一、前言 上一篇博文讲解了Zookeeper的典型应用场景,在大数据时代,各种分布式系统层出不穷,其中,有很多系统都直接或间接使用了Zookeeper,用来解决诸如配置管理、分布式通知/协调、集群管理和Master选举等一系列...转载 2019-01-27 17:03:15 · 557 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper使用--开源客户端(代码样例)_4
一、前言 上一篇博客已经介绍了如何使用Zookeeper提供的原生态Java API进行操作,本篇博文主要讲解如何通过开源客户端来进行操作。二、ZkClient ZkClient是在Zookeeper原声API接口之上进行了包装,是一个更易用的Zookeeper客户端,其内部还实现了诸如Session超时重连、Watcher反复注册等功能。 2.1 添加依赖 在pom....转载 2019-01-27 17:17:49 · 761 阅读 · 0 评论 -
元数据与数据治理实战| Hadoop参考官网系统学习篇(5)
一、开篇点题学习最好的资料自然是官网网站,所以系统的看了官网资料,不求精细揣摩,只求遇到问题知道可以在什么地方查阅到,有印象即可,以下是学些官方资料的大概过程二、正文内容Hadoop中文官方资料:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html自然版本有比较低,现在是hadoop3.2.0,所以可以参考该版本的资料(...原创 2019-01-27 21:35:46 · 624 阅读 · 0 评论 -
元数据与数据治理实战| Google Chrome抓包分析详解(7)
开篇点题虽然和数据主力关系不大,在学习的过程当中,无意穿插了爬虫的知识,也就有了此篇的抓包分析,感兴趣的可以看下,还是有用的。正文部分前言:因作LaGou网翻页教程,频繁访问,导致IP被封,所以先来篇我们该如何抓包。目标:学会利用Chrome浏览器的开发者工具进行HTTP请求分析一:什么是抓包即抓取我们本地电脑与远端服务器通信时候所传递的数据包二:Chrome浏览器讲解...转载 2019-01-27 23:52:23 · 1476 阅读 · 0 评论 -
元数据与数据治理实战 | Hive简单学习篇(6)
Hive是什么 1hadoop是什么 1hadoop、hive两者关系 2hive的优缺点 2hive的存在意义 2hive常用命令 2一些相关命令 2创建表 3创建分区partition_table.dt 3加载数据到分区 4删除表 drop table partition_table 4桶表 4内部表与外部表: 4UDF、UDAF、UDTF:...原创 2019-01-27 23:56:43 · 1084 阅读 · 2 评论 -
元元模型(Meta Object Facility)
典型的元模型结构可以描述为:信息层,模型层,元模型层和元元模型层.1.信息层(information layer)信息是由我们希望描述的数据组成,这些数据通常是用户数据,主要职责是描述信息领域中的详细信息.在数据层用元数据进行对这些用户数据的描述.元数据即为关于数据的数据.即对业务数据的一次抽象(通常的表现形式是一些概念性的,抽象的名字,如单据,操作人等).2.模型层(mod...转载 2019-03-12 14:03:36 · 4235 阅读 · 0 评论 -
元数据与数据治理|搭建hadoop环境图文解析详细攻略,有这一篇就够了(第14篇)
开篇点题通过本篇可以掌握如何在 在linux(CentOS 7)安装hadoop以及注意事项详细步骤 1. 在linux下创建hadoop用户组和用户 用户组名和用户名都设为:hadoop创建用户组sudo addgroup hadoop创建hadoop用户 sudo adduser –ingroup hadoop hadoop2.赋权给hadoop...原创 2019-01-15 10:45:22 · 1073 阅读 · 0 评论 -
元数据与数据治理:Hive安装与配置详解,整理半天终于全明白了(第十三篇)
什么是hive hive是建立在hadoop上的,hadoop中的mapreduce调用如果面向DBA的时候,因为不是每个DBA都能明白mapreduce的工作原理,所以此时处于一种很尴尬的场景,毕竟精力有限,再学习mapreduce有点得不偿失。 hive正是实现了这个,hive是要类SQL语句(HiveQL)来实现对hadoop下的数据管理。hive属于数据仓库的范畴,数据库侧重于...原创 2019-01-14 18:47:20 · 1112 阅读 · 0 评论 -
元数据与数据治理|Apache Atlas API使用入门(第十一篇)
一 概念讲解Apache atlas Api主要是对Type,Entity,Attribute这3个构件的增删改查操作(Api和Admin UI供外部调用,其它的被封装或在 配置文件中)Atlas Type System Atlas 类型系统,Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 “类型” 的定义组成。被称为 “实体” 的 “类型” 实例表示被...原创 2019-01-10 17:28:49 · 15711 阅读 · 5 评论 -
元数据与数据治理|大数据治理(第九篇)
魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。首先,他们整理了一个治理流程,架构图然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下:然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下: 流程图上面,其中,“主数据管...翻译 2019-01-10 18:08:23 · 15243 阅读 · 0 评论 -
元数据与数据治理|大数据之数仓平台设计(第十篇)
对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统计分析报表。本文主要结合自己公司目前数仓的结构设计和现阶段解决的问题而叙述和分享,如有不明,错误之处,各位看官可指出,非常感谢!下图为数仓整体的技术架构:一个优秀可靠的数仓,一定要结构、分层清晰,而不是越多的分层和主题越好,保障清晰的状态下...转载 2019-01-10 18:14:36 · 3697 阅读 · 1 评论 -
元数据与数据治理|使用 Apache Atlas 进行数据治理 (第一篇)
面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分。为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是...翻译 2019-01-08 15:05:02 · 3501 阅读 · 0 评论 -
元数据与数据治理|学习汇总
以下是学习元数据与 数据治理的整个过程:包含技术总结和心里变化情况 以日志的形式进行汇总2019.1.4 (第一天:接触需求)需求定义第一天 讲解需求( 数据仓库、元数据处理建设)内心变化 片面的理解是关系型数据;片面的理解是常规的增删改查询;根据需求网上搜索相关资料接触 到Apache Atlas,对就是那么一眼,不过在后来的交流当中,领导也提到了这个...原创 2019-01-08 15:23:02 · 4271 阅读 · 5 评论 -
元数据与数据治理|大数据生态及其技术栈(第三篇)
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。程序...翻译 2019-01-08 16:37:20 · 1167 阅读 · 0 评论 -
元数据与数据治理:ODS 与 EDW详细解析,不可或缺的应用场景(第十二篇)
快速入门ODS简单的理解为 Operational Data Store, 可操作的数据仓库。EDW简单理解为 Enterprise Data Warehouse, 企业级数据仓库。普遍存在于各种企业的BI(Business Intelligence) 项目。ODS是数据仓库的一个扩展,它也是一个企业级的数据存储模式,它的构造也是面向主题的。ODS是企业中运行系统发布信息的地方,这些信...翻译 2019-01-14 11:21:04 · 2576 阅读 · 0 评论 -
元数据与数据治理|Spark初探(第四篇)
文章进行了部分简化(元数据与数据治理系列文章)认识SparkSpark是一个开源的分布式计算系统,它的目的是使得数据分析更快——写起来和运行起来都很快。Spark 是基于内存计算的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将...翻译 2019-01-08 17:20:23 · 1186 阅读 · 0 评论 -
元数据与数据治理|Spark SQL结构化数据分析(第六篇)
数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrameAPI,不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的API,而且自然而然地继承了SparkSQL的分布式处理能力。此外,S...转载 2019-01-08 17:33:06 · 2504 阅读 · 4 评论 -
元数据与数据治理|MapReduce概述(第七篇)
MapReduce是什么Hadoop MapReduce是一个软件框架,基于此框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。简单来说就是MapReduce就是一个计算框架。MapReduce做什么MapReduce的思想就是“分而治之”。Mapper负责”分“ 把复杂的任务...转载 2019-01-08 17:41:43 · 891 阅读 · 0 评论 -
元数据与数据治理|Intellij IDEA提交远程Hadoop MapReduce任务(第八篇)
1.新建IntelliJ下空的的maven项目直接next即可。2.配置依赖编辑pom.xml文件,添加apache源和hadoop依赖基础依赖hadoop-core和hadoop-common;读写HDFS,需要依赖hadoop-hdfs和hadoop-client;如果需要读写HBase,则还需要依赖hbase-client <properties>...转载 2019-01-08 17:48:06 · 586 阅读 · 0 评论