- 博客(42)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 数据治理与企业战略、数据战略、数据架构之间的关系
数据治理是连接企业战略、数据战略和数据架构的桥梁,确保数据能够有效支持业务目标,同时为数据管理提供规则和标准。:数据治理通过明确的角色、职责和流程,确保数据战略的各个部分(如数据架构、数据分析)能够协同工作。:通过数据治理,企业可以更好地利用数据资产,推动创新和效率提升,从而增强企业战略的竞争力。:数据治理通过明确的数据所有权和访问权限,确保数据在架构中的流动高效且安全。:数据治理通过数据质量管理流程,确保数据架构中的数据准确、完整和一致。:数据治理通过监控和评估数据管理的效果,为数据战略的优化提供反馈。
2025-01-17 08:30:33
407
原创 如何理解数据资产?
对于一个企业来说,并不是所有的数据都值得去管理、去维护甚至去分析的。数据的生成、汇聚、存储、分析、共享等阶段都会 因为数据管理的不当、数据治理手段的缺失,从而产生低质量的数据。低质量的数据不仅没有价值,它的存在还会导致错误的决策。
2024-09-23 09:05:30
522
原创 java.lang.IllegalArgumentException: java.net.UnknownHostException: xxx
windows系统下连接hdfs进行操作时,上来就出现java.lang.IllegalArgumentException: java.net.UnknownHostException: xxxjava.lang.IllegalArgumentException: java.net.UnknownHostException: liujian at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:
2023-11-23 11:50:33
4018
2
原创 解决spark运行中ERROR Shell:Failed to locate the winutils binary in the hadoop binary path的问题
17/09/03 21:27:13 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apa
2023-11-23 11:50:07
3324
3
原创 利用Python爬虫简单地爬取网页上的数据
电影评分top 250import requestsimport pymysqlfrom bs4 import BeautifulSoupfrom lxml import etreeimport reurl="https://movie.douban.com/top250"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch
2023-11-23 11:49:16
2614
原创 Hive中常出现的错误(不定时更新)
1.加载数据失败hive> load data local inpath '/home/user/hive.txt' into table studentl > ;FAILED: SemanticException [Error 10001]: Line 1:56 Table not found 'studentl'hive> load data local inpath '/ho
2023-11-23 11:48:08
8928
3
原创 一文读懂|信息化&数字化
以学校为例子在很久之前院校管理学生信息档案方式是人工管理的,学校会安排老师去将学生信息封装到牛皮档案袋中,按照一定的规则放到不同的档案室中,然后安排专门人员进行保管。当有需要查询某个学生档案时,可能需要几位人员去查找、也可能需要花费上几个小时、甚至几天时间翻出来查阅。随着时间的推进,加上院校的大规模扩招,学生数量越来越多。面对海量的学生信息,人工管理学生信息档案的方式越来越增本降效。于是乎,学校开始建设学生管理信息系统,专门管理学生信息,在查询学生信息时也非常方便、快捷。
2023-10-23 10:31:31
95
原创 Flink学习之旅:(四)Flink转换算子(Transformation)
在输入流上,对指定的字段做叠加求和的操作。:在输入流上,对指定的字段求最小值。:在输入流上,对指定的字段求最大值。在输入流上针对指定字段求最小值。在输入流上针对指定字段求最大值。
2023-10-19 15:27:23
669
原创 Flink学习之旅:(三)Flink源算子(数据源)
大多数情况下,前面几个数据源已经满足需求了。但是遇到特殊情况我们需要自定义的数据源。实现方式如下:1.编辑自定义源Source/***//**** 主要实现2个方法 run() 和 cancel()*/// 声明一个布尔变量,作为控制数据生成的标识位@Override// 在指定的数据集中随机选取数据));// 隔 1 秒生成一个点击事件,方便观测@Override2.编写主程序/***/
2023-10-19 15:26:49
1066
原创 Flink学习之旅:(一)Flink部署安装
进入Flink官网,点击Downloads往下滑动就可以看到 Flink 的所有版本了,看自己需要什么版本点击下载即可。
2023-10-18 17:47:51
3563
1
原创 CDGA数据治理工程师考试心得
CDGA就是数据治理工程师(Certified Data Governance Associate),“DAMA中国”组织的数据治理方面的职业认证考试。
2023-10-10 14:54:19
1453
19
原创 Apache Ranger:(一)安装部署
Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对生态的组件如、Yarn、等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。说白了就是管理大多数框架的授权问题。
2023-10-09 10:02:24
3477
2
原创 Apache Ranger:(二)对Hive集成简单使用
进入 Ranger 编译生成的目录下 找到 ranger-2.0.0-hive-plugin.tar.gz 进行解压。
2023-10-09 10:01:24
905
原创 批量生成ChunJun json任务脚本
最近在研究chunjun,它是一款稳定、易用、高效、批流一体的数据集成框架。一直在用chunjun做数据抽取测试,json任务重复地在写,感觉十分浪费时间,于是想写个自动生成json脚本。
2023-07-31 09:49:51
502
原创 ElasticSearch Java API 操作
Elasticsearch 软件是由 Java 语言开发的,所以也可以通过 Java API 的方式对 Elasticsearch服务进行访问
2023-07-24 09:54:49
585
原创 DolphinScheduler使用问题记录
提示:“storage not startup”,顾名思义:未启用存储chunjun节点无法保存,提示”process node xxx parameter invalid“
2023-07-14 16:13:43
2232
2
原创 主数据管理:识别主数据
主数据特征识别法:主要评估企业全部数据中的各类主数据是否符合主数据的每个特征,如发现任何不符合主数据特征的数据,则将其剔除出主数据管理的范畴。
2023-07-11 14:22:53
1065
1
原创 数据治理技术篇:(二)数据标准管理内容
数据标准体系是企业数据管理和应用的基础,有利于打通数据底层的互通性,提高数据的可用性,消除数据业务歧义。
2023-07-05 14:24:17
3297
原创 Chunjun数据同步工具初体验
chunjun (纯钧) 官方文档chunjun 有四种运行方式:local、standalone、yarn session、yarn pre-job。
2023-05-10 10:39:17
1775
原创 Flink通过Maxwell读取mysql的binlog发送到kafka再写入mysql
JDK1.8MySQLZookeeperKakfaMaxweillIDEA查看binlog 状态,是否开启如果log_bin显示为ON,则代表已开启。如果是OFF 说明还没开启。[Linux] 编辑 /etc/my.cnf 文件,在[mysqld]后面增加重启mysql 服务再次查看binlog 状态[Windows] 编辑 mysql安装目录 下 my.ini 文件,在[mysqld]后面增加 如上 linux 一样2.2.2启动 Kakfa2.2.3创建 kafka-t
2023-04-25 17:03:20
1766
原创 Flink中常见问题(不定时更新)
Table&sql 中的关键字一样的冲突,这里我的是sql中的表名与 "user"关键字冲突引发的,修改一下就行了。在flink/lib下载添加上述依赖包,mysql数据库按照自己的版本来,记得把hive、原因自己编写的sql语句中存在表名或字段名和。
2023-04-25 16:48:40
1170
原创 Hive自定义UDF函数及使用
UDF全称:User-Defined Functions,即用户自定义函数,在Hive SQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。
2023-01-30 17:00:51
5080
2
原创 datax-web可视化集成Ambari集群HBase出现的异常
解决方式借鉴:HBase: apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /hbase/hbaseid_菜鸟很菜的专栏-优快云博客今天在将flink计算结果写入hbase时,报以下错误:java.util.concurrent.ExecutionException: org.apache.hadoop.hbase.shaded.org.apache.zookeeper.KeeperExcept.
2021-10-22 11:42:46
701
原创 DataX学习
DataX下载Datax 源码下载。Github主页地址:https://github.com/alibaba/DataX直接下载编译成功的包。下载地址:https://download.youkuaiyun.com/download/qq_35370485/21481518环境配置安装python环境安装python2 版本。安装python3在执行任务时,bin 目录下的 datax.py 中 print 处会报语法错误print xxxx python3 必须在print后面加(...
2021-09-26 15:54:48
276
原创 ambari安装hdp时,ambari-hdp-*.repo中baseurl为空
在ambari安装大数据组件,进行到第9步Install, Start and Test时,出错!错误代码:stderr: Traceback (most recent call last): File "/var/lib/ambari-agent/cache/stack-hooks/before-INSTALL/scripts/hook.py", line 37, in <module> BeforeInstallHook().execute() File "/..
2021-09-02 09:07:04
1205
原创 Flume学习之同时输出数据到HDFS和Kafka
进入flume安装目录的conf配置文件夹:[root@qiyu01 apache-flume-1.6.0-bin]# cd /opt/modules/apache-flume-1.6.0-bin/conf创建flume配置文件并编辑:[root@qiyu01 conf]# vi flumeByHDFS_Kafka.conf文件内容:(我的是ambari+hdp集群,kafka的端口为6667)#通过sink把数据分别输出到kafka和HDFS上# Name the comp
2021-06-30 18:14:44
708
1
flink-shaded-hadoop-3-uber-3.1.1.7.2.1.0-327-9.0.jar
2023-05-12
企业数据盘点调研模板.zip
2023-03-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人