只爱大锅饭-优快云博客

原创数据治理与企业战略、数据战略、数据架构之间的关系

数据治理是连接企业战略、数据战略和数据架构的桥梁，确保数据能够有效支持业务目标，同时为数据管理提供规则和标准。：数据治理通过明确的角色、职责和流程，确保数据战略的各个部分（如数据架构、数据分析）能够协同工作。：通过数据治理，企业可以更好地利用数据资产，推动创新和效率提升，从而增强企业战略的竞争力。：数据治理通过明确的数据所有权和访问权限，确保数据在架构中的流动高效且安全。：数据治理通过数据质量管理流程，确保数据架构中的数据准确、完整和一致。：数据治理通过监控和评估数据管理的效果，为数据战略的优化提供反馈。

2025-01-17 08:30:33 407

原创数据战略：它是啥？

数据战略：战略是一组选择和决策，它们共同构成了实现高水平目标的高水平行动过程。

2025-01-17 08:28:54 1094

原创如何理解数据资产？

对于一个企业来说，并不是所有的数据都值得去管理、去维护甚至去分析的。数据的生成、汇聚、存储、分析、共享等阶段都会因为数据管理的不当、数据治理手段的缺失，从而产生低质量的数据。低质量的数据不仅没有价值，它的存在还会导致错误的决策。

2024-09-23 09:05:30 522

原创 java.lang.IllegalArgumentException: java.net.UnknownHostException: xxx

windows系统下连接hdfs进行操作时，上来就出现java.lang.IllegalArgumentException: java.net.UnknownHostException: xxxjava.lang.IllegalArgumentException: java.net.UnknownHostException: liujian at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:

2023-11-23 11:50:33 4018 2

原创解决spark运行中ERROR Shell:Failed to locate the winutils binary in the hadoop binary path的问题

17/09/03 21:27:13 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apa

2023-11-23 11:50:07 3324 3

原创利用Python爬虫简单地爬取网页上的数据

电影评分top 250import requestsimport pymysqlfrom bs4 import BeautifulSoupfrom lxml import etreeimport reurl="https://movie.douban.com/top250"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

2023-11-23 11:49:16 2614

原创 Hive日志默认存储在什么位置？

Hive日志默认存储在什么位置？

2023-11-23 11:48:48 13487 2

原创 Hive中常出现的错误(不定时更新)

1.加载数据失败hive> load data local inpath '/home/user/hive.txt' into table studentl > ;FAILED: SemanticException [Error 10001]: Line 1:56 Table not found 'studentl'hive> load data local inpath '/ho

2023-11-23 11:48:08 8928 3

原创数据治理概念篇：(一)相关术语与名词

数据治理内容众多，其中与数据治理相关名词和术语也是多不胜数。下面记录一下常见的数据治理相关名词。

2023-11-06 09:52:26 419

原创一文读懂|信息化&数字化

以学校为例子在很久之前院校管理学生信息档案方式是人工管理的，学校会安排老师去将学生信息封装到牛皮档案袋中，按照一定的规则放到不同的档案室中，然后安排专门人员进行保管。当有需要查询某个学生档案时，可能需要几位人员去查找、也可能需要花费上几个小时、甚至几天时间翻出来查阅。随着时间的推进，加上院校的大规模扩招，学生数量越来越多。面对海量的学生信息，人工管理学生信息档案的方式越来越增本降效。于是乎，学校开始建设学生管理信息系统，专门管理学生信息，在查询学生信息时也非常方便、快捷。

2023-10-23 10:31:31 95

原创 Flink学习之旅：（四）Flink转换算子（Transformation）

在输入流上，对指定的字段做叠加求和的操作。：在输入流上，对指定的字段求最小值。：在输入流上，对指定的字段求最大值。在输入流上针对指定字段求最小值。在输入流上针对指定字段求最大值。

2023-10-19 15:27:23 669

原创 Flink学习之旅：（三）Flink源算子（数据源）

大多数情况下，前面几个数据源已经满足需求了。但是遇到特殊情况我们需要自定义的数据源。实现方式如下：1.编辑自定义源Source/***//**** 主要实现2个方法 run() 和 cancel()*/// 声明一个布尔变量，作为控制数据生成的标识位@Override// 在指定的数据集中随机选取数据));// 隔 1 秒生成一个点击事件，方便观测@Override2.编写主程序/***/

2023-10-19 15:26:49 1066

原创 Flink学习之旅：（一）Flink部署安装

进入Flink官网，点击Downloads往下滑动就可以看到 Flink 的所有版本了，看自己需要什么版本点击下载即可。

2023-10-18 17:47:51 3563 1

原创 Flink学习之旅：（二）构建Flink demo工程并提交到集群执行

在idea中创建一个名为 MyFlinkFirst 工程。

2023-10-18 17:47:44 1155

原创 CDGA数据治理工程师考试心得

CDGA就是数据治理工程师（Certified Data Governance Associate），“DAMA中国”组织的数据治理方面的职业认证考试。

2023-10-10 14:54:19 1453 19

原创 Apache Ranger：(一)安装部署

Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对生态的组件如、Yarn、等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。说白了就是管理大多数框架的授权问题。

2023-10-09 10:02:24 3477 2

原创 Apache Ranger：(二)对Hive集成简单使用

进入 Ranger 编译生成的目录下找到 ranger-2.0.0-hive-plugin.tar.gz 进行解压。

2023-10-09 10:01:24 905

原创批量生成ChunJun json任务脚本

最近在研究chunjun，它是一款稳定、易用、高效、批流一体的数据集成框架。一直在用chunjun做数据抽取测试，json任务重复地在写，感觉十分浪费时间，于是想写个自动生成json脚本。

2023-07-31 09:49:51 502

原创 Elasticsearch 简单搜索查询案例

【代码】Elasticsearch 简单搜索查询案例。

2023-07-24 11:18:56 584

原创 ElasticSearch Java API 操作

Elasticsearch 软件是由 Java 语言开发的，所以也可以通过 Java API 的方式对 Elasticsearch服务进行访问

2023-07-24 09:54:49 585

原创 DolphinScheduler使用问题记录

提示：“storage not startup”，顾名思义：未启用存储chunjun节点无法保存,提示”process node xxx parameter invalid“

2023-07-14 16:13:43 2232 2

原创主数据管理：识别主数据

主数据特征识别法：主要评估企业全部数据中的各类主数据是否符合主数据的每个特征，如发现任何不符合主数据特征的数据，则将其剔除出主数据管理的范畴。

2023-07-11 14:22:53 1065 1

原创数据治理技术篇：(二)数据标准管理内容

数据标准体系是企业数据管理和应用的基础，有利于打通数据底层的互通性，提高数据的可用性，消除数据业务歧义。

2023-07-05 14:24:17 3297

原创 Mysql递归查询

Mysql递归查询通常使用语句"WITH RECURSIVE "语句实现实现。

2023-06-15 09:48:48 1147 2

原创 HBase:(三)HBase API

HBase:(一)安装部署_只爱大锅饭的博客-优快云博客hbase部署安装。

2023-06-05 11:20:21 546

原创 HBase:(二)基本操作

hbase 基本操作

2023-06-01 15:31:08 674

原创 HBase:(一)安装部署

hbase部署安装

2023-06-01 15:30:08 174

原创 ClickHouse:(二)数据类型

clickhouse 数据类型

2023-05-23 15:07:50 662

原创 ClickHouse:(一)安装部署

clickhouse 安装部署

2023-05-23 11:57:05 907

原创 DolphinScheduler3.1.5安装部署

DolphinScheduler

2023-05-11 15:20:55 1258 4

原创 Chunjun数据同步工具初体验

chunjun (纯钧) 官方文档chunjun 有四种运行方式：local、standalone、yarn session、yarn pre-job。

2023-05-10 10:39:17 1775

原创 flink集群安装部署

flink 集群安装部署

2023-05-09 17:08:29 983

原创 Flink通过Maxwell读取mysql的binlog发送到kafka再写入mysql

JDK1.8MySQLZookeeperKakfaMaxweillIDEA查看binlog 状态，是否开启如果log_bin显示为ON，则代表已开启。如果是OFF 说明还没开启。[Linux] 编辑 /etc/my.cnf 文件，在[mysqld]后面增加重启mysql 服务再次查看binlog 状态[Windows] 编辑 mysql安装目录下 my.ini 文件，在[mysqld]后面增加如上 linux 一样2.2.2启动 Kakfa2.2.3创建 kafka-t

2023-04-25 17:03:20 1766

原创 Flink中常见问题（不定时更新）

Table&sql 中的关键字一样的冲突，这里我的是sql中的表名与 "user"关键字冲突引发的，修改一下就行了。在flink/lib下载添加上述依赖包，mysql数据库按照自己的版本来，记得把hive、原因自己编写的sql语句中存在表名或字段名和。

2023-04-25 16:48:40 1170

原创数据治理技术篇：(一)数据梳理

数据梳理”即对企业数据资产的梳理。

2023-03-07 21:52:22 3259

原创 Hive自定义UDF函数及使用

UDF全称：User-Defined Functions，即用户自定义函数，在Hive SQL编译成MapReduce任务时，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。

2023-01-30 17:00:51 5080 2

原创 datax-web可视化集成Ambari集群HBase出现的异常

解决方式借鉴：HBase: apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /hbase/hbaseid_菜鸟很菜的专栏-优快云博客今天在将flink计算结果写入hbase时，报以下错误：java.util.concurrent.ExecutionException: org.apache.hadoop.hbase.shaded.org.apache.zookeeper.KeeperExcept.

2021-10-22 11:42:46 701

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据建模：自动生成建表语句工具

flink-shaded-hadoop-3-uber-3.1.1.7.2.1.0-327-9.0.jar

企业数据盘点调研模板.zip

DataX-master.zip

hadoop2.6.0版本hadoop.dll和winutils.exe

空空如也