
数据治理专栏
元数据与数据治理:元数据管理、主数据、数据仓库、数据治理等方面专栏
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
架构师速成记
从业10年,专注于数据治理、架构设计、以及生活导向的自媒体探索者;全网程序员粉丝10万+
展开
-
数据治理 | 大纲汇总|技术栈简介(初篇)
前言首先特别感谢订阅的小伙伴,希望接下来我们可以收获到更多的知识为什么创建该专栏1.技术分享,让基于某个功能点的技术快速掌握2.技能提升,想通过该专栏大家相互学习,共同提升3.结交挚友,学习道路之上免不了遇到困惑,如何快速突破,也是个人一直关注的方向(VX:zzhuan_1 备注csdn)该专栏是个长久更新的专栏,所含章节会涉及到很多技术点,“佛系更新”,自然即使...原创 2020-01-18 20:45:17 · 2175 阅读 · 0 评论 -
元数据与数据治理|Apache Atlas API使用入门(第十一篇)
一 概念讲解Apache atlas Api主要是对Type,Entity,Attribute这3个构件的增删改查操作(Api和Admin UI供外部调用,其它的被封装或在 配置文件中)Atlas Type System Atlas 类型系统,Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 “类型” 的定义组成。被称为 “实体” 的 “类型” 实例表示被...原创 2019-01-10 17:28:49 · 15711 阅读 · 5 评论 -
元数据与数据治理|Apache Atlas安装过程详解(初步版本)
Apache Atlas安装过程详解一 安装Apache Atlas1.下载安装包执行以下命令tar xvfz apache-atlas-1.1.0-sources.tar.gzcd apache-atlas-sources-1.1.0/export MAVEN_OPTS="-Xms2g -Xmx4g"mvn...原创 2019-01-09 18:55:02 · 7327 阅读 · 2 评论 -
元数据与数据治理|使用 Apache Atlas 进行数据治理 (第一篇)
面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分。为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是...翻译 2019-01-08 15:05:02 · 3501 阅读 · 0 评论 -
kettle功能清单:rest、json、文件输出、邮件、sftp、延时
一、前言来个总览图,核心功能通过样例串联kettle的功能点生成记录-》延迟执行-》rest请求-》JSON转化-》数据校验-》文本数据-》Sftp上传二、功能点配置2.1 输入:生成记录在定义一些常用变量或者操作数据不太方面的 时候可以选用该组件(有点类似静态变量)在输入菜单拖拽 生成数据记录,如下配置上图:定义变量名称(随意) ,定义类型(要写上),定义值基本就完成了,如下个流程如何取数据2.2延迟执行应用-》延迟执行一般设置等待时间2.3..原创 2020-06-04 15:59:37 · 1629 阅读 · 0 评论 -
Kettle资源库配置连接
前言kettle构建资源库之后,其他的同事可共用操作步骤1.启动kettle 点击Spoon.bat 功能2.点击又上角的connect(可能出现的弹出框是空白的,关闭多启动几次就可以恢复正常,自然有可能也是配置或者插件的问题)3.选择 database Repository4.选择数据库资源库5.创建资源库链接6.点击左上角的open 即可打开相应的转换任务...原创 2020-06-02 13:40:50 · 1134 阅读 · 0 评论 -
数据同步|mysql数据同步、文件自动备份
前言由于某种原因,服务器有时会出现宕机情况,有时出现“病毒”骚扰,总之你很难预料下一刻你的电脑会出现什么问题数据备份需要提上日程目前备份对象:Mysql数据、SVN数据、部分文件数据备份周期:一月备份一次、部分实时备份(mysql)方案1.采用最直接的方式 scp命令(在不同的服务器备份)思路:基本是文件的方式,采用复制的方式,最为简单只需将之前的备份...原创 2020-04-25 02:09:24 · 1192 阅读 · 0 评论 -
数据采集 | 分布式日志采集-ELK方案设计
前言分布式日志采集在比较大型的项目中经常用到,用来采集分析用户/系统产生的海量日志但是在微服务架构下每个提供者(provider)都要收集其日志,需要安装采集组件,无疑是对系统部署以及正常运行压力带来不小的挑战,那什么场景下选用该组件比较合适呢?其实ELK架构设计可应用于该日志采集场景的技术栈选型,个人觉得首先要从业务场景考虑,要有助于推动产品的发展近期项目发展需要主要基于以...原创 2020-04-04 17:59:30 · 1462 阅读 · 0 评论 -
数据治理 | ETL工具| Kettle配置数据连接
Kettle连接数据库未完待续,会总结多个连接配置1.配MySql 数据库连接1.创建etl_user表,然后通过ETL工具抽取该表到etl_user_new中2.分析熟悉整个流程1)表输入点击 核心对象->输入->表输入->鼠标拖动到右侧工作区创建表语句CREATE TABLE `etl_user` ( `i...原创 2020-01-15 18:26:37 · 1348 阅读 · 0 评论 -
元数据与数据治理实战 | Hive简单学习篇(6)
Hive是什么 1hadoop是什么 1hadoop、hive两者关系 2hive的优缺点 2hive的存在意义 2hive常用命令 2一些相关命令 2创建表 3创建分区partition_table.dt 3加载数据到分区 4删除表 drop table partition_table 4桶表 4内部表与外部表: 4UDF、UDAF、UDTF:...原创 2019-01-27 23:56:43 · 1084 阅读 · 2 评论 -
元数据与数据治理实战| Google Chrome抓包分析详解(7)
开篇点题虽然和数据主力关系不大,在学习的过程当中,无意穿插了爬虫的知识,也就有了此篇的抓包分析,感兴趣的可以看下,还是有用的。正文部分前言:因作LaGou网翻页教程,频繁访问,导致IP被封,所以先来篇我们该如何抓包。目标:学会利用Chrome浏览器的开发者工具进行HTTP请求分析一:什么是抓包即抓取我们本地电脑与远端服务器通信时候所传递的数据包二:Chrome浏览器讲解...转载 2019-01-27 23:52:23 · 1476 阅读 · 0 评论 -
元数据与数据治理实战| Hadoop参考官网系统学习篇(5)
一、开篇点题学习最好的资料自然是官网网站,所以系统的看了官网资料,不求精细揣摩,只求遇到问题知道可以在什么地方查阅到,有印象即可,以下是学些官方资料的大概过程二、正文内容Hadoop中文官方资料:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html自然版本有比较低,现在是hadoop3.2.0,所以可以参考该版本的资料(...原创 2019-01-27 21:35:46 · 624 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper使用--开源客户端(代码样例)_4
一、前言 上一篇博客已经介绍了如何使用Zookeeper提供的原生态Java API进行操作,本篇博文主要讲解如何通过开源客户端来进行操作。二、ZkClient ZkClient是在Zookeeper原声API接口之上进行了包装,是一个更易用的Zookeeper客户端,其内部还实现了诸如Session超时重连、Watcher反复注册等功能。 2.1 添加依赖 在pom....转载 2019-01-27 17:17:49 · 761 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper在大型分布式系统中的应用(3)
开篇点题之前zookeeper仅仅用作注册中心,接触的很少,在大数据HA场景下,需要我们更加深升入的学习zookeeper,希望对大家有所帮助。正文部分一、前言 上一篇博文讲解了Zookeeper的典型应用场景,在大数据时代,各种分布式系统层出不穷,其中,有很多系统都直接或间接使用了Zookeeper,用来解决诸如配置管理、分布式通知/协调、集群管理和Master选举等一系列...转载 2019-01-27 17:03:15 · 557 阅读 · 0 评论 -
元数据与数据治理实战|Zookeeper应用场景(2)
开篇点题用分2-3篇来简单介绍zookeeper的应用场景和使用,作为大数据HA不可或缺的一环,可以先简单了解下正文内容一、前言 在上一篇博客已经介绍了Zookeeper开源客户端的简单实用,本篇讲解Zookeeper的应用场景。二、典型应用场景 Zookeeper是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。在越来越多的分布式...转载 2019-01-27 16:41:27 · 636 阅读 · 0 评论 -
元数据与数据治理实战|Hadoop发展历程(1)
开篇点题作为学习大数据实战的第一讲,我们简单的了解下Hadoop的发展历程,此篇不一定全面,包括新版本的产生,难免介绍覆盖面不是很全面,但是作为一个了解性的文章,有个认识就可以了,下面我们来看下Hadoop的发展历程吧正文部分Hadoop是什么?Hadoop的起源Hadoop发展史Hadoop的四大特性(优点)Hadoop的版本如何选择Hadoop版本 Hadoop是什么?...原创 2019-01-27 15:47:57 · 1341 阅读 · 0 评论 -
元数据与数据治理:Hive安装与配置详解,整理半天终于全明白了(第十三篇)
什么是hive hive是建立在hadoop上的,hadoop中的mapreduce调用如果面向DBA的时候,因为不是每个DBA都能明白mapreduce的工作原理,所以此时处于一种很尴尬的场景,毕竟精力有限,再学习mapreduce有点得不偿失。 hive正是实现了这个,hive是要类SQL语句(HiveQL)来实现对hadoop下的数据管理。hive属于数据仓库的范畴,数据库侧重于...原创 2019-01-14 18:47:20 · 1112 阅读 · 0 评论 -
元数据与数据治理:ODS 与 EDW详细解析,不可或缺的应用场景(第十二篇)
快速入门ODS简单的理解为 Operational Data Store, 可操作的数据仓库。EDW简单理解为 Enterprise Data Warehouse, 企业级数据仓库。普遍存在于各种企业的BI(Business Intelligence) 项目。ODS是数据仓库的一个扩展,它也是一个企业级的数据存储模式,它的构造也是面向主题的。ODS是企业中运行系统发布信息的地方,这些信...翻译 2019-01-14 11:21:04 · 2576 阅读 · 0 评论 -
元数据与数据治理|搭建hadoop环境图文解析详细攻略,有这一篇就够了(第14篇)
开篇点题通过本篇可以掌握如何在 在linux(CentOS 7)安装hadoop以及注意事项详细步骤 1. 在linux下创建hadoop用户组和用户 用户组名和用户名都设为:hadoop创建用户组sudo addgroup hadoop创建hadoop用户 sudo adduser –ingroup hadoop hadoop2.赋权给hadoop...原创 2019-01-15 10:45:22 · 1073 阅读 · 0 评论 -
元数据与数据治理|大数据之数仓平台设计(第十篇)
对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统计分析报表。本文主要结合自己公司目前数仓的结构设计和现阶段解决的问题而叙述和分享,如有不明,错误之处,各位看官可指出,非常感谢!下图为数仓整体的技术架构:一个优秀可靠的数仓,一定要结构、分层清晰,而不是越多的分层和主题越好,保障清晰的状态下...转载 2019-01-10 18:14:36 · 3697 阅读 · 1 评论 -
元数据与数据治理|大数据治理(第九篇)
魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。首先,他们整理了一个治理流程,架构图然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下:然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下: 流程图上面,其中,“主数据管...翻译 2019-01-10 18:08:23 · 15243 阅读 · 0 评论 -
元数据与数据治理|Intellij IDEA提交远程Hadoop MapReduce任务(第八篇)
1.新建IntelliJ下空的的maven项目直接next即可。2.配置依赖编辑pom.xml文件,添加apache源和hadoop依赖基础依赖hadoop-core和hadoop-common;读写HDFS,需要依赖hadoop-hdfs和hadoop-client;如果需要读写HBase,则还需要依赖hbase-client <properties>...转载 2019-01-08 17:48:06 · 586 阅读 · 0 评论 -
元数据与数据治理|MapReduce概述(第七篇)
MapReduce是什么Hadoop MapReduce是一个软件框架,基于此框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。简单来说就是MapReduce就是一个计算框架。MapReduce做什么MapReduce的思想就是“分而治之”。Mapper负责”分“ 把复杂的任务...转载 2019-01-08 17:41:43 · 891 阅读 · 0 评论 -
元数据与数据治理|Spark SQL结构化数据分析(第六篇)
数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrameAPI,不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的API,而且自然而然地继承了SparkSQL的分布式处理能力。此外,S...转载 2019-01-08 17:33:06 · 2504 阅读 · 4 评论 -
元数据与数据治理|Spark初探(第四篇)
文章进行了部分简化(元数据与数据治理系列文章)认识SparkSpark是一个开源的分布式计算系统,它的目的是使得数据分析更快——写起来和运行起来都很快。Spark 是基于内存计算的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将...翻译 2019-01-08 17:20:23 · 1186 阅读 · 0 评论 -
元数据与数据治理|大数据生态及其技术栈(第三篇)
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。程序...翻译 2019-01-08 16:37:20 · 1167 阅读 · 0 评论 -
元数据与数据治理|学习汇总
以下是学习元数据与 数据治理的整个过程:包含技术总结和心里变化情况 以日志的形式进行汇总2019.1.4 (第一天:接触需求)需求定义第一天 讲解需求( 数据仓库、元数据处理建设)内心变化 片面的理解是关系型数据;片面的理解是常规的增删改查询;根据需求网上搜索相关资料接触 到Apache Atlas,对就是那么一眼,不过在后来的交流当中,领导也提到了这个...原创 2019-01-08 15:23:02 · 4271 阅读 · 5 评论