
大数据
文章平均质量分 54
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
-
ARM服务器部署Kafka集群
配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。三台服务器节点搭建几乎一致,但是需要重点关注【server.properties】的配置细节。需要这方面信息的可以查看我之前写的文档;原创 2024-02-23 16:19:16 · 1375 阅读 · 0 评论 -
数据治理工程师 CDGA数据建模和设计
8. 确保每个实体都有最小的主键,每个属性都依赖于完整的主键属于哪种范。C 数据模型是一种文档形式,用于记录数据需求和建模过程产生的数据定义。D 数据模型通过以电子的形式获取知识来保存系统或项目的企业信息。D 代理键允许在结构间进行更高效的导航,并促进跨应用程序的集成。A 概念数据模型仅包括给定的领域和职能中基础和关键的业务实体。1. 以下选项不属于数据建模和设计治理中质量管理内容的是(3. 以下关于数据建模和设计治理管理内容描述正确的是 (9. 数据拱顶模型有三种类型的实体,以下错误的是 (原创 2024-01-14 22:51:42 · 648 阅读 · 0 评论 -
数据治理工程师CDGA数据架构
B 企业数据模型包括通用的和特定于应用或具体 项目的数据模型及其定义、规。B 在开发模型中获取数据模型和其他数据架构构件,然后被数据架构师标准化和。A 企业数据模型不应创建为单独的构件,应由不同角度和不同层级的细节构成。C 企业模型包醐承关系模型、概念模型、主题域模型、逻辑模型、物理模型。A 企业模型包括继承关系模型、概念模型、主题域模型、逻辑模型。D 企业模型包括继承关系模型、概念模型、逻辑模型、物理模型。B 企业模型包括概念模型、主题域模型、逻辑模型、物理模型。原创 2024-01-14 22:29:48 · 547 阅读 · 0 评论 -
数据治理工程师 CDGA-数据治理
B 数据治理的目的是确保数据根据数据管理制度和最佳实践正确地管理数据。13. 关于数据治理和数据管理的关系,描述不正确的是哪项?17. 在数据治理的度量指标中,关于有效性的描述错误的是?C 数据治理的驱动力是确保组织可以从其数据中获得的价值。5. 以下关于数据治理与管理职责的活动描述错误的是?7. 在数据治理输入的内容中,以下哪项是错误的?10. 关于数据治理的度量指标,下列描述有误的是?6. 关于数据治理的度量指标,下列描述有误的是?14. 关于数据治理组织的职能描述错误的是哪项?原创 2024-01-09 22:55:30 · 794 阅读 · 0 评论 -
数据治理工程师 CDGA 认证-数据管理及答案
知识领域语境关系图,请从下列选项中选择正确描述知识领域语境关系图的选项。A.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。B.知识领域语境关系图中包括知识领域定义、目标、输入、活动、交付成果、D.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。因素、输入、活动、交付成果、供给者、参与者、消费者、方法、工具、度量指。C. 知识领域语境关系图中包括计划、控制、开发、运营。供给者、参与者、消费者、方法、工具、度量指标。9、DAMA 语境关系图中的活动不包括哪项(原创 2024-01-08 23:09:28 · 992 阅读 · 0 评论 -
flume异常关闭文件修复方法
flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。原创 2023-11-14 17:15:37 · 919 阅读 · 0 评论 -
部署SeaTunnel单节点Standalone 模式环境
在config目录下有一个自带的实时同步任务的配置文件v2.streaming.conf.template,该文件定义了一个作业,使用一个叫FakeSource的Source连接器生成数据,并将数据发送给Console这个Sink,Console Sink的作用是将接收到的数据打印到控制台。SeaTunnel需要自己安装同步数据需要的连接器插件,需要用户编辑config下plugin_config文件,该文件描述了需要下载和安装的连接器插件,默认所有已经支持的连接器插件都会下载和安装。原创 2023-10-25 09:28:25 · 1089 阅读 · 0 评论 -
hive字段关键字问题处理
最近在xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上,数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘,“ 都无法识别,最后对通过转义字符解决了,解决方法如下:具体报错如下:比如需要对local关键字进行转义,转义规则如下:\`local\`问题解决。原创 2023-10-23 16:03:07 · 1076 阅读 · 0 评论 -
HIVE-17824,删除hdfs分区信息,清理metastore元数据
当有大量未跟踪的分区时,运行MSCK REPAIR TABLE批处理避免OOME(内存不足错误)。通过为属性hive.msck.repair.batch.size提供配置的批大小,它可以在内部的批中运行。属性的默认值是0,这意味着它将一次执行所有分区。不带REPAIR选项的MSCK命令可用于查找元数据mismatch metastore的详细信息。若手动删除 HDFS 上多个分区文件夹,且快速刷新分区,则需要在存在。对于不存在元数据的分区,会更新到Hive metastore。原创 2023-10-23 10:34:31 · 1168 阅读 · 0 评论 -
spark集成hive
spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置。2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。2.修改spark配置: Advanced spark2-hive-site-overrid。hive.strict.managed.tables 的 true 改为 false。3. 修改hive配置: 到hive组件修改配置。spark集成hive。原创 2023-10-18 15:14:48 · 930 阅读 · 0 评论