大数据
文章平均质量分 59
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据平台监控指标体系设计(企业级详细版)
延迟、流量、错误、饱和度(Latency, Traffic, Errors, Saturation)为所有核心服务的必监控四维指标。所有组件均通过 JMX 暴露指标。告警抑制:避免“告警风暴”,对同一集群的多个组件告警设置关联抑制规则(如HDFS磁盘满 → 抑制YARN任务失败告警)。本体系已覆盖全栈组件,适用于金融、电信、互联网等高可用生产环境。引入动态阈值(如基于历史趋势的异常检测,使用Prometheus的predict_linear)CPU使用率、内存使用率、磁盘I/O、网络吞吐、磁盘使用率。原创 2026-01-05 22:11:34 · 944 阅读 · 0 评论 -
flink实时流处理中常用的数据处理函数
数据清洗:用户输入的数据(如姓名、地址)前后常常带有无意识输入的空格,TRIM 可以标准化这些数据,避免因多余空格导致查询失败或数据不一致。-- 结果:'User123'(在某些数据库中使用 CONCAT 更佳)-- 结果:'Hello World '-- 结果:'Hello World'-- 结果:'Hello World'功能: 移除字符串开头和/或结尾的空白字符(如空格、制表符、换行符)或其他指定的字符。· TRIM(BOTH ‘x’ FROM string):移除首尾指定的字符 ‘x’。原创 2025-11-27 16:19:47 · 451 阅读 · 0 评论 -
Hbase和flink集成配置参数
这种配置在性能和数据一致性之间提供了平衡,通过缓冲机制提高写入吞吐量,同时保证数据不会在缓冲区中停留过久。1. 写入策略:基于大小(2MB)、行数(1000)、时间(1秒)的多重刷新条件。· 设置为 null 表示将 null 值字面量存储为 "null" 字符串。· false:使用同步查找(阻塞式,性能较低但简单可靠)· 当缓冲行数达到 1000 行时触发刷新写入。· 刷新缓冲区前累积的最大数据大小(2MB)· 当查找失败时自动重试,最多重试 3 次。· 当缓冲数据达到 2MB 时触发刷新写入。原创 2025-11-25 14:53:40 · 443 阅读 · 0 评论 -
Kafka和流处理flink的配置参数
格式:YYYY-MM-DD HH:MM:SS[.fffffffff]· latest-offset:从最新偏移量开始消费(只消费新消息)· at-least-once:至少一次交付(可能重复,不会丢失)· default:使用默认分区器(通常基于 key 的哈希值)· 每次 fetch 请求获取数据的最大字节数(50MB)· 1:只需领导者副本确认即可(平衡可靠性和性能)· false:可能使用字符串或其他格式编码小数。· 每个分区返回数据的最大字节数(1MB)· false:遇到解析错误会抛出异常。原创 2025-11-25 14:38:12 · 438 阅读 · 0 评论 -
为什么需要关注Flink并行度?
当你的Flink作业运行时,是否遇到过资源利用率不足或任务堆积的情况?这很可能与并行度设置不当有关。作为流处理领域的"性能放大器",合理配置并行度能带来:提升吞吐量资源成本降低的黄金比例背压问题的天然解决方案一、四层并行度架构解密生产建议:KeyBy操作后必须显式设置,避免数据倾斜。原创 2025-08-22 20:25:53 · 361 阅读 · 0 评论 -
ARM服务器部署Kafka集群
配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。三台服务器节点搭建几乎一致,但是需要重点关注【server.properties】的配置细节。需要这方面信息的可以查看我之前写的文档;原创 2024-02-23 16:19:16 · 1647 阅读 · 0 评论 -
数据治理工程师 CDGA数据建模和设计
8. 确保每个实体都有最小的主键,每个属性都依赖于完整的主键属于哪种范。C 数据模型是一种文档形式,用于记录数据需求和建模过程产生的数据定义。D 数据模型通过以电子的形式获取知识来保存系统或项目的企业信息。D 代理键允许在结构间进行更高效的导航,并促进跨应用程序的集成。A 概念数据模型仅包括给定的领域和职能中基础和关键的业务实体。1. 以下选项不属于数据建模和设计治理中质量管理内容的是(3. 以下关于数据建模和设计治理管理内容描述正确的是 (9. 数据拱顶模型有三种类型的实体,以下错误的是 (原创 2024-01-14 22:51:42 · 674 阅读 · 0 评论 -
数据治理工程师CDGA数据架构
B 企业数据模型包括通用的和特定于应用或具体 项目的数据模型及其定义、规。B 在开发模型中获取数据模型和其他数据架构构件,然后被数据架构师标准化和。A 企业数据模型不应创建为单独的构件,应由不同角度和不同层级的细节构成。C 企业模型包醐承关系模型、概念模型、主题域模型、逻辑模型、物理模型。A 企业模型包括继承关系模型、概念模型、主题域模型、逻辑模型。D 企业模型包括继承关系模型、概念模型、逻辑模型、物理模型。B 企业模型包括概念模型、主题域模型、逻辑模型、物理模型。原创 2024-01-14 22:29:48 · 574 阅读 · 0 评论 -
数据治理工程师 CDGA-数据治理
B 数据治理的目的是确保数据根据数据管理制度和最佳实践正确地管理数据。13. 关于数据治理和数据管理的关系,描述不正确的是哪项?17. 在数据治理的度量指标中,关于有效性的描述错误的是?C 数据治理的驱动力是确保组织可以从其数据中获得的价值。5. 以下关于数据治理与管理职责的活动描述错误的是?7. 在数据治理输入的内容中,以下哪项是错误的?10. 关于数据治理的度量指标,下列描述有误的是?6. 关于数据治理的度量指标,下列描述有误的是?14. 关于数据治理组织的职能描述错误的是哪项?原创 2024-01-09 22:55:30 · 896 阅读 · 0 评论 -
数据治理工程师 CDGA 认证-数据管理及答案
知识领域语境关系图,请从下列选项中选择正确描述知识领域语境关系图的选项。A.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。B.知识领域语境关系图中包括知识领域定义、目标、输入、活动、交付成果、D.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。因素、输入、活动、交付成果、供给者、参与者、消费者、方法、工具、度量指。C. 知识领域语境关系图中包括计划、控制、开发、运营。供给者、参与者、消费者、方法、工具、度量指标。9、DAMA 语境关系图中的活动不包括哪项(原创 2024-01-08 23:09:28 · 1046 阅读 · 0 评论 -
flume异常关闭文件修复方法
flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。原创 2023-11-14 17:15:37 · 977 阅读 · 0 评论 -
部署SeaTunnel单节点Standalone 模式环境
在config目录下有一个自带的实时同步任务的配置文件v2.streaming.conf.template,该文件定义了一个作业,使用一个叫FakeSource的Source连接器生成数据,并将数据发送给Console这个Sink,Console Sink的作用是将接收到的数据打印到控制台。SeaTunnel需要自己安装同步数据需要的连接器插件,需要用户编辑config下plugin_config文件,该文件描述了需要下载和安装的连接器插件,默认所有已经支持的连接器插件都会下载和安装。原创 2023-10-25 09:28:25 · 1482 阅读 · 0 评论 -
hive字段关键字问题处理
最近在xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上,数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘,“ 都无法识别,最后对通过转义字符解决了,解决方法如下:具体报错如下:比如需要对local关键字进行转义,转义规则如下:\`local\`问题解决。原创 2023-10-23 16:03:07 · 1174 阅读 · 0 评论 -
HIVE-17824,删除hdfs分区信息,清理metastore元数据
当有大量未跟踪的分区时,运行MSCK REPAIR TABLE批处理避免OOME(内存不足错误)。通过为属性hive.msck.repair.batch.size提供配置的批大小,它可以在内部的批中运行。属性的默认值是0,这意味着它将一次执行所有分区。不带REPAIR选项的MSCK命令可用于查找元数据mismatch metastore的详细信息。若手动删除 HDFS 上多个分区文件夹,且快速刷新分区,则需要在存在。对于不存在元数据的分区,会更新到Hive metastore。原创 2023-10-23 10:34:31 · 1404 阅读 · 0 评论 -
spark集成hive
spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置。2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。2.修改spark配置: Advanced spark2-hive-site-overrid。hive.strict.managed.tables 的 true 改为 false。3. 修改hive配置: 到hive组件修改配置。spark集成hive。原创 2023-10-18 15:14:48 · 967 阅读 · 0 评论
分享