- 博客(146)
- 资源 (22)
- 收藏
- 关注

原创 百老开通知识星球啦,数据要素、数据治理等资料迅速扩散!
做数据相关工作有一些年头了,手里也积攒了几千份案例、解决方案、考试认证资料、数据要素研报等材料,形成自我的架构参考库,按TOGAF开发方法,分别形成标准信息库(Standards Information Base)、参考库(Reference Library)、架构情景库等。使得工作效率事半功倍。搞个星球,是希望跟各位分享架构参考库,希望帮助到各位!
2024-06-23 15:02:16
710

原创 数据治理工程师CDGA备考心得、时间安排、题库资源
之前做一些数据质量控制、元数据、主数据相关工作,一直忙于工作,没有去往考证的方面想,去年年底心血来潮就决定考一考,证多不压身嘛(也有部分学生向我咨询),(狗
2024-06-21 16:39:59
1850
原创 政府自然人数据治理
博主开通知识星球,打算通过知识星球将这些年积累的知识、经验分享出来,让各位在数据治理、数据分析的路上少走弯路,另外星球也方便动态更新最近的资料,提供各位一起讨论数据的小圈子。这些技术细节表明,政府自然人数据治理正在从粗放式管理转向精细化运营,其核心在于通过技术创新实现数据价值释放与隐私保护的双重目标。
2025-02-26 15:33:39
360
原创 政务数据治理专栏开搞!
忙忙碌碌干了一年政务数据治理的工作,从法人数据到自然人,从交通到地理信息等等,突发想法开一个专栏讲一讲政务数据遇到的问题,以及治理的成效,或许有朋友爱看。这些资源包括与政府存在状态相关的数据、政务运作过程中产生的数据以及政府运过程中产生的数据以及政府运营和实施管理过程中经过采集、生产或转换而形成的数据等。政务数据是政务信息资源理念在数据要素大背景下的发展延伸。
2024-11-12 22:45:40
478
原创 从建立TRUST到实现FAIR:可持续海洋经济的数据管理
由来自全球的研究数据联盟成员(包括 ONC 的数据管理经理 Reyna Jenkyns)开发,这项TRUST原则(Transparency、Responsibility、User Focus、Sustainability、Technology)提供了一个通用框架,以促进数据存储库的研究。要使数据长期支持FAIR原则,需要具有一套可信任的数据存储库,这套数据存储库需要具有可持续治理、组织框架、可靠的基础设施、支持社会商定的详细政策等特点,目标是通过建立存储数据库TRUST原则实现数据支持FAIR原则。
2024-11-12 22:22:23
771
翻译 数据时代的数字企业
数据质量是数据治理的核心,是指数据的准确性、完整性和及时性。数据治理是指对数据进行规范化、标准化、安全化、合规化等管理,以提高数据的质量和价值,从而推动企业的业务发展和创新。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。在数据处理过程中,可能会出现数据缺失、数据错误或者数据重复等问题,这些问题会影响数据的质量和可靠性。通过以上介绍可以看出,数据治理是数字企业的一项核心工作,需要从数据质量、数据安全、数据隐私和数据合规等方面进行管理。
2024-11-12 22:18:14
79
原创 关于数据仓库分层设计
ODS层最好理解,基本上就是数据从源表拉过来,进行etl,比如mysql 映射到hive,那么到了hive里面就是ods层ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。
2024-11-12 22:03:29
325
原创 Docker了解
应用程序的打包和交付:使用Docker可以将应用程序和其依赖项打包到一个容器中,确保应用程序在不同环境中一致地运行,简化了应用程序的部署和交付流程。开发环境的隔离和管理:每个开发人员可以使用自己的Docker容器作为开发环境,隔离开发环境与宿主机的依赖关系,提供了更高效、更一致的开发环境。每个容器都是相互隔离的、独立运行的,并且可以快速启动和停止。总之,Docker的基本概念和优势使其成为现代应用程序开发和部署的重要工具,可以提供更高效、更灵活、更可靠的应用程序交付和运行方式。
2024-11-10 09:48:49
565
原创 HOSTS文件劫持--导致笔记本网络卡顿
3、在窗口中,输入"01for /f %P in (‘dir %windir%WinSxShosts /b /s’) do copy %P %windir%System32driversetc & echo %P & Notepad %P",回车执行命令。自己也装过几次系统了。点击任务栏中的搜索图标,输入"cmd",点击"命令提示符"选择"以管理员身份运行"。4、等待片刻,根据提示输入"a",按下回车即可。2、在弹出的提示框中点击"是"。
2024-09-21 16:23:39
391
原创 3分钟理解超键、候选键、主键
在关系模式中,能唯一标识实体实例的任何属性集学生(学号,姓名,性别,专业编号,年龄)通过学号可以找到一个学生的姓名、性别、专业号、年龄,但是通过姓名不一定能找到这些,比如有重名的,通过性别也不能找到,通过专业号也不行,一个专业可以有很多学生在学习,通过年龄也不行,所以在上面这个关系模式中只有通过学号才能找到特定学生。于是(学号,姓名)的组合属性集就称为超键。因为学号和姓名的组合能找到特定的学生。所以,在这个关系模式中。
2024-07-11 20:47:44
1046
1
原创 基于DSMM数据安全能力建设方案的落地性评估指标
DSMM(数据安全能力成熟度模型)是依据GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》建立的数据安全保护体系。该模型以组织的数据为中心,围绕数据的采集、传输、存储、处理、交换、销毁等全生命周期,从组织建设、制度流程、技术工具、人员能力四个能力维度进行评价,分为1-5级成熟度。DSMM旨在帮助组织建立与业务紧密贴合的数据安全架构,提升数据安全水平。三、基于DSMM的数据安全能力建设方案明确数据安全目标和策略:组织应明确数据安全的目标和策略,确保数据安全与业务目标相一致。
2024-06-30 11:12:38
1860
原创 数据架构深度解析
数据架构是描述组织内部数据的结构、关系、流程和管理的框架。它定义了数据的来源、存储、处理、传输和使用方式,以及数据的质量、安全性和隐私性等方面的要求。一个合理的数据架构能够帮助企业实现数据的标准化、规范化、集成化和共享化,提高数据的可用性和价值。提高数据质量:通过数据架构的规范化设计,可以确保数据的准确性、一致性和完整性,减少数据冗余和错误。优化数据处理流程:数据架构能够清晰地描述数据的处理流程,包括数据的采集、清洗、转换、加载和查询等环节,从而提高数据处理效率。
2024-06-30 10:20:47
1517
原创 数据时代的数字企业
数据治理是指对数据进行规范化、标准化、安全化、合规化等管理,以提高数据的质量和价值,从而推动企业的业务发展和创新。数据质量是数据治理的核心,是指数据的准确性、完整性和及时性。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。在数据处理过程中,可能会出现数据缺失、数据错误或者数据重复等问题,这些问题会影响数据的质量和可靠性。通过以上介绍可以看出,数据治理是数字企业的一项核心工作,需要从数据质量、数据安全、数据隐私和数据合规等方面进行管理。
2024-06-24 10:54:31
926
原创 数据质量提升难点:挑战、策略与技术应对
其次,需要采用先进的数据质量评估方法和技术手段,对数据质量进行定期评估和分析。最后,需要建立数据质量问题的反馈和处理机制,及时发现和处理数据中的问题。首先,需要引入专业的数据质量管理工具和技术人才,提高数据质量管理的专业性和有效性。同时,数据质量提升需要投入大量的时间和资源,这对企业的运营和成本也带来了很大的压力。为了确保数据的准确性和一致性,需要建立一套完善的数据质量监控和评估机制,定期对数据进行检查和校验。如何实时监控数据流的状态和质量,及时发现和处理数据中的错误和异常,成为了数据质量提升的重要任务。
2024-06-24 08:24:35
1600
原创 主数据驱动的数据治理:技术解析与实践探索
随着信息技术的飞速发展,数据已经成为企业最宝贵的资产之一。然而,数据的复杂性、多样性和动态性使得数据治理成为了一个亟待解决的问题。主数据作为跨多个业务部门和应用程序共享的关键业务数据,其准确性、一致性和完整性对于企业的运营和决策至关重要。因此,主数据驱动的数据治理成为了现代企业数据管理的重要方向。本文将从技术角度深入解析主数据驱动的数据治理,并探讨其实践应用。
2024-06-23 18:09:26
1034
原创 TOGAF数字化转型的关键(文尾附在线TOGAF免费测试)
业务架构驱动数据架构和应用架构的设计,而应用架构又依赖于数据架构和技术架构的支持。技术架构则为整个架构提供了稳定的基础设施。在数字化转型中,协调和整合这四种架构是至关重要的。通过确保它们之间的一致性和协同工作,可以实现企业业务目标的有效实现,提高业务敏捷性、数据质量和应用系统的可维护性。
2024-06-08 15:52:37
556
原创 10分钟了解数据质量管理-奥斯汀格里芬 Apache Griffin
Griffin是一个开源的大数据数据质量解决方案,由eBay开源,它支持批处理和流模式两种数据质量检测方式,是一个基于Hadoop和Spark建立的数据质量服务平台 (DQSP)。它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。Griffin于2016年12月进入Apache孵化器,Apache软件基金会2018年12月12日正式宣布Apache Griffin毕业成为Apache顶级项目。
2024-04-28 22:14:09
1633
转载 数据资产目录建设方案
而对企业数据资产的数据管理需要数据资产框架来支撑数据资产的展示、记录、分析,通过数据资产框架可以明晰企业拥有的数据资产、实现数据资产安全分享、提升数据资产质量、实现数据资产变现等数据管理目标。从数字化转型的实践经验中我们可以得知,企业的数据资产是企业数字化转型的数据底座,必须管理好企业的数据资产,才能有效地进行企业数字化转型。下面就来谈一谈数据资产框架中重要部分数据资产目录管理,通过数据资产目录的建设,实现对企业数据资产的有效管理。第五步:数据资产标签化(数据资产目录与数据标签形成网状数据检索体系)
2024-03-15 09:38:31
301
转载 解码隐形引擎:数据标签如何在中台架构下激活智能决策生命力
例如,通过机器学习算法自动发现数据间的隐含关联,生成更深层次的智能标签,这将极大减轻人工标注负担,同时提升标签的质量和覆盖范围。它就像一张详尽的地图,指引着我们在数据的迷宫中找到宝藏,特别是在企业数智化转型的过程中,数据标签在中台架构中扮演了提升效率和解决实际工作问题的关键角色。总之,在数中台中,数据标签功能通过提供统一的数据标准、提升检索效率、增强治理、支持复杂分析、促进个性化服务、简化集成迁移、提高决策质量和优化资源分配等手段,有效解决了实际工作中的多种问题,为企业带来了显著的运营和战略优势。
2024-03-15 09:33:31
163
原创 TOGAF企业架构师认证一文全掌握
在工作中一直涉及到企业架构相关知识,但是没有进行系统的整理和学习,这次考试认证的原因如下:1)随着各行各业数字化转型的深入,企业架构师逐渐受到重视,掌握4A架构(业务、数据、应用、技术)显得尤为重要,笔者在过往的工作经历中,涉及技术架构、数据架构比较多,对业务架构和应用架构属于门外汉,基于此,夯实企业架构的理论知识。2)最近工作跟数据治理相关性大,随便写了一些扩展知识,个人认为企业架构学习很有必要考试时间60分钟,40道单选题,答对22题(正确率为 55%),即通过考试;
2024-02-17 15:21:19
3085
原创 TOGAF架构开发方法
就像不同的企业能够接受不同程度的风险一样,为这些评估标准的制定建立统一的实施指南是非常困难的,但随着架构开发方法的不断实践,治理机构的成熟度水平会日渐提高,这些标准也会根据特定的需求而逐渐清晰起来。但在这一过程中,起重要作用的企业架构并不是凭空产生的,在它的周围总是存在着一系列正在创造价值(也许效率不是最优)并等待被整合的基础设施和业务,而针对他们的整合变更,以及外界环境对他们的变更需求,都在企业架构的演进过程中充当了驱动力。对待这些变更请求,治理行为是必不可少的,并且一个吸取经验教训的过程也是必要的。
2023-12-30 23:22:43
2618
原创 3分钟基于Chat GPT完成工作中的小程序
GPT自从去年爆发以来,各大公司在大模型方面持续发力,行业大模型也如雨后春笋一般发展迅速,日常工作中比较多的应用场景还是问答模式,作为写程序的辅助也偶尔使用。今天看到一篇翻译的博客“我用 ChatGPT,在 120 秒内做了一个飞机观测器!”_优快云资讯的博客-优快云博客博客内容大致:Chat GPT写一个HTML,用户给定自己的坐标,可以实时接收飞过头顶的飞机信息。既然可以这样,那......发挥想象本文利用免费的GPT 3.5。
2023-10-06 11:27:43
1651
原创 数字化转型专题汇总
对***区县综合行政执法业务形成有效的信息化支撑 通过本项目的建设,融入先进的城市管理理念,运用先进的信息化技术,制定统一的系统建设技术导则和数据标准,打造城管执法指挥调度智能平台,实现执法办案业务和指挥调度工作电子化、自动化、智能化,提高***市城管执法办案各项业务能力和服务水平,提高办案效率和服务满意度,降低执法风险,实现执法办案规范化、指挥调度实时化、监督管理高效化、业务数据可视化、业务辅助智能化,有效落实和推进市委市政府提出的大城智管、大城细管、大城众管的管理要求。7. 某大型集团数字化转型方案。
2023-09-15 12:38:56
182
原创 10分钟学会Hive之用户自定义函数UTF开发
用户自定义函数概述用户自定义函数简称UDF,源自于英文user-defined function。
2023-09-13 14:56:18
693
原创 ONC数据政策
由数据合作伙伴拥有或共同拥有的数据可能受到其他许可证的约束,例如知识共享署名-非商业性使用4.0国际许可协议(CC-BY-NC),具体取决于与ONC建立的合作伙伴协议。在极少数需要限制数据的情况下,禁止访问可能适用于整个数据集、特定子集或最近的数据(例如,最近4小时的数据)。从加拿大海洋观测网访问或下载的数据,如果用于出版物,需要包括完整的引用信息,包括数据集的作者、标题、出版商、出版年份、数字对象标识符和本地查询持久标识符。有关ONC提供的数据产品的完整文档,请参考我们的数据产品维基文档。
2023-09-13 09:20:21
193
原创 数据治理实战步骤
写在前面:数据治理是数字化转型的基础,是数字要素流通的首要任务。但是面对不同的情况,数据治理的手段不同。数据治理专员要转换思想,数据治理中单靠技术、软件是不行的,比如一些单位认为数据治理平台是万能的,直接上平台一般是做不好的,需基于企业的组织文化、愿景等对症下药。先写个目录,供大家讨论,后续有时间也会继续补充。
2023-09-12 15:14:12
192
原创 数据仓库分层设计思想
ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复数据,在接入的时候需要做一步去重)、字段命名规范等一系列操作。
2023-09-12 14:58:02
193
原创 CDGA、CDGP数据治理考试通关大全
重要更新!经过一段时间的沉寂,还是决定晚上加加班把CDGP考试认证通过一下,手里考的认证都是工程师(狗头.gif),丢面子,哈哈哈。
2023-06-28 15:35:10
1490
3
原创 20分钟了解物联网开源数据库部署解决方案
本文针对物联网数据存储提供解决方案的思路,项目特点:结构化数据、传感器节点多(>100)、传感器类型多(>30)、采样频率高(1HZ),在此背景下,一般的关系型数据库已经不能够支撑数据存储,基于免费开源的软件完成数据存储工作,提高数据的读写能力。
2023-03-29 10:47:14
2165
原创 10分钟掌握Hive小文件过多如何解决?
在做数据仓库的时候,使用动态分区会产生许多的小文件,给计算资源造成较大的影响,所以本文针对小文件如何规避计算资源浪费作了一些设计。
2023-03-28 09:40:46
372
原创 Canal与Kafka数据传输协议protocol buffer
实时数仓开发中,利用Canal伪装slave获取MySQL的增量数据,获取后的数据由Kafka生产者接收,交由Flink实时流计算。白话文:安装一个protobuf-dt 2.2.1插件,将编写的proto文件发送给已经下载好的protoc.exe文件编译,编译后产生的Java文件要设置放置路径。下图中Java输出地址,不用写package的地址,因为package地址在proto文件中已写,如果是proto2的话,在写proto文件的时候语法不同,这里2.5.0也是可以的。3)安装protocol插件。
2023-02-01 15:05:53
750
原创 10分钟入门HBase特性与安装部署
1)HBase是BigTable的开源java版本。是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写NoSQL的数据库系统2)HBase仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务3)主要用来存储结构化和半结构化的松散数据4)Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)5)Hbase中支持的数据类型:byte[]6)Hbase支持横向扩展,即增加服务器达到增加存储和处理能力大,可以存上十亿行,上百万列。
2023-01-02 16:14:01
678
原创 10分钟数仓实战kettle整合hive
在common文件夹下的hadoop-common-3.3.2.jar文件把jar包下载后放在\data-integration\lib目录下如果此时kettle是打开状态,需要重启,才能生效。
2022-12-22 10:01:48
538
原创 10分钟数仓实战之kettle发送邮件
2022/12/19 15:53:16 - 发送邮件 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : Problem while sending message: javax.mail.MessagingException: Could not connect to SMTP host: smtp.qq.com, port: 465, response: -1。
2022-12-19 16:09:56
2732
原创 10分钟数仓实战之kettle整合Hadoop
很多朋友在做数仓的ETL的动作的时候,还是喜欢比较易上手的kettle前面章节有介绍过安装kettle,可以参考kettle在Windows系统中对数据的转换、表和文件的转换等,都相对简单,而在对大数据平台进行操作的时候,需要先配置相关参数,本节进行kettle整合Hadoop。
2022-12-12 22:27:26
1598
原创 通俗理解数据治理之主数据
1)国家标准GB/T 36073-2018 《数据管理能力成熟度评估模型》中对主数据的定义:主数据是组织中需 要跨系统、跨部门进行共享的核心业务实体数据。2)IBM 公司在其有关主 数据管理的红皮书《Master Data Manangement:Rapid Deployment Package for MDM》中主数据:有关客户、供应商、产品和账户的企业关键信息。
2022-12-10 19:20:10
2346
数据安全100+资源合集,包含实施方案、专题研究等,比较全面的数据安全资料
2024-06-30
数据资产评估指导意见2023
2023-09-15
可信工业数据流通 关键技术研究报告
2023-09-15
数据治理体系建设与数据资产路线图规划
2023-09-15
DAMA数据管理各职能总结
2023-09-15
知识图谱与大模型融合实践研究报告2023.pdf
2023-09-13
某大型集团数字化转型方案
2023-09-13
某大型制造企业数字化转型规划方案
2023-09-13
航空行业数字化转型解决方案
2023-09-13
2023智慧能源数字化转型解决方案
2023-09-13
2023城管数字化转型整体解决方案
2023-09-13
农业数字化转型方案V3.0
2023-09-13
景区数字化转型方案V3.0
2023-09-13
政务数据治理重难点分析、实施步骤
2023-09-12
《数据治理-工业企业数字化转型之道》PPT(数据治理比较全面的体系介绍)(蔡老师)
2023-09-12
数据治理CDGP学习材料(新)
2023-06-21
数据治理CDGA学习资料(新)
2023-03-28
软件成本估算、工作量估算学习材料
2023-03-27
2023年系统集成项目管理工程师考试必备
2023-03-26
TOGAF 9.2企业架构自学整理材料
2023-03-26
数据治理之元数据管理学习材料
2023-03-18
数据治理之主数据管理学习材料
2023-03-18
protoc.exe 21.12
2023-02-01
TSCTA 007-2021 工业大数据平台 数据运行监控 技术规范
2022-11-10
TSCTA 006-2021 工业大数据平台 数据建模 技术规范
2022-11-10
TSCTA 005-2021 工业大数据平台 数据治理 技术规范
2022-11-10
mysql-connector-java-8.0.22.jar
2022-08-14
含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz
2022-08-14
geotools.zip
2020-07-03
swingx-wx.zip
2020-07-03
mappanel.zip
2020-07-03
MyCat水平分表如何查询所有节点的各个表的总行数和空间大小
2022-10-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人