
大数据
文章平均质量分 70
Daphnis_z
Just do it ..
展开
-
记一次Flink任务无限期INITIALIZING排查过程
环境:Flink-1.16.1,部署模式:Flink On YARN,现象:Flink程序能正常提交到 YARN,Job状态是 RUNNING,而 Task状态一直处于 **INITIALIZING**,排查思路有...原创 2024-03-07 22:00:00 · 2267 阅读 · 2 评论 -
Ambari动态给YARN分配计算节点
YARN可用的计算节点数量并不总是等于 Hadoop集群节点数量,可以根据业务需求分配 YARN计算节点数量。原创 2024-03-04 20:07:46 · 669 阅读 · 0 评论 -
Flink使用 KafkaSource消费 Kafka中的数据
很多 flink相关的书籍和网上的文章讲解如何对接 kafka时都是使用的 FlinkKafkaConsume,'org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer' is deprecated ,新版 flink应该使用 KafkaSource来对接 kafka。原创 2023-03-21 21:22:23 · 2260 阅读 · 1 评论 -
大数据集群搭建方案对比
回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结,主要是 原生Hadoop、CDH、Ambari集群搭建对比。原创 2023-03-19 12:17:06 · 1257 阅读 · 0 评论 -
离线和实时数仓技术架构梳理
对目前流行的离线数仓和实时数仓架构进行了梳理和对比原创 2023-03-02 20:00:00 · 3643 阅读 · 0 评论 -
Kafka使用MirrorMaker同步数据的两种方式
CDH对 Kafka MirrorMaker的支持度不错,稳定性也能经得起时间的检验。另外,这种备份方式属于实时备份,很适合对数据完整性和及时性要求较高的项目,能最大程度地确保通过 kafka流转的数据的及时可用。还有一个好处是,当 kafka集群1因为某种原因无法工作时,可以迅速切换到集群2,且两个集群的数据几乎一致。原创 2022-12-22 12:05:24 · 4113 阅读 · 0 评论 -
HBase Shell启动缓慢及操作耗时长的原因分析与解决
在内网搭了一个 hbase-2.2.6(hadoop-2.7.3)的环境,使用的是其内置的 zookeeper-3.4.10,16010端口对应的 web界面可以正常访问,且各项功能正常。在使用 hbase shell的过程中,首先是 hbase shell启动非常慢,约 210s才成功,其次执行 scan、put、get等命令需要 20s左右才能完成。以笔者的经验,hbase肯定出问题了,不可能这么慢。原创 2022-11-17 20:00:00 · 4209 阅读 · 4 评论 -
Logstash对接 SNMP v2和 v3
老版的 logstash不支持 snmp协议,当时只能自己写插件实现,现在官方支持了,故验证其对 v2c和 v3两个版本 snmp的支持情况,并熟悉其用法。原创 2022-11-04 20:00:00 · 1153 阅读 · 0 评论 -
Kibana自动优化索引模式字段显示
优化 Kibana Discover页面索引模式中字段的显示效果:0.98-> 98%,10240-> 10KB, 20.1-> $20.1。介绍如何使用脚本实现自动更新,以及如何在界面上手动修改的方法原创 2022-10-24 21:45:57 · 1105 阅读 · 0 评论 -
DataX VS Kettle,深度对比分析
开源的 ETL工具里面 DataX和 Kettle的人气一直高居不下,datax虽然比较年轻,但这两年发展势头很猛,不时就能听到身边的同事谈起。kettle作为老牌的 etl工具,诞生年限长,功能完善,特别是其开箱即用的数据转换算子,不得不令人叹服。因此,笔者决定对这两款工具进行深入的对比分析,有多深呢,到源码那种。原创 2022-10-19 20:15:00 · 17305 阅读 · 1 评论 -
Elasticsearch生产环境使用总结及扩展
本文从 基本概念、数据类型、查询类型、数据聚合、集群维护等维度对 Elasticsearch进行了总结和介绍,中间融入了一些生产环境的实际经验。原创 2022-10-07 11:08:12 · 809 阅读 · 0 评论 -
Kibana生产上的常用功能总结
出差现场一个月总结 Kibana生产上的常用功能包含 discover,console,visualize,monitoring等的实用方法原创 2022-08-26 20:15:00 · 1672 阅读 · 0 评论 -
使用 Zookeeper命令行修改 Kafka Cluster ID
使用 Zookeeper命令行修改 Kafka Cluster IDkafka.common.InconsistentClusterIdException: The Cluster ID q3r3fhGkTya24-s3dfvYUQ doesn't match stored clusterId Some(kguWHlzQQGmCHczV3u38vQ) in meta.properties.原创 2022-07-27 17:55:06 · 2468 阅读 · 0 评论 -
通过 GC工具分析 HiveServer2停顿时间过长问题
1.现象线上环境 HiveServer2报:在前 5分钟内暂停所花的平均时间过长hs2角色日志如下:2.分析看到上面的报错和日志,第一个直觉就是 hs2 GC出问题了,于是使用 jstat命令进行分析:jstat -gcutil 82775 5000 5这里先简单介绍一下 jstat这条命令: -gcutil,打印 gc统计信息 82775,java进程ID 5000,5000ms 5,5次所以这条命令的含义为:每间隔 5000ms打印一次 进程 82775的 gc原创 2022-04-01 20:15:00 · 3369 阅读 · 0 评论 -
数据仓库VS数据湖
1.前言本文将新兴的数据湖技术和数据仓库技术进行了对比,然后简要介绍三种常见的数据湖实施方案。2.数据仓库痛点没有存储非结构化的数据这里并不是说数仓不能存储非结构化的数据,而是数仓的分层模型决定了数据会被规整计算为结构化的数据,然后在处理完成的数据上进行建模、分析等。一般的数仓分层模型:ODS-> DWD-> DWS-> APP。数据分析人员一般会在 APP或 DWS层上进行分析,而不会直接针对 ODS(原始数据层)进行分析。没有保留原始数据企业出于成本考虑,ODS层原创 2022-03-26 18:34:01 · 3695 阅读 · 0 评论 -
Java连接基于 LDAP认证的 Impala服务
1.前言本文将描述如何根据 impala官方文档使用 java连接 impala。使用的 impala版本:2.12.0。2.下载和安装 JDBC包2.1 下载 JDBC包官网下载地址:Download Impala JDBC Connector这里需要根据 impala的版本选择对应的 jdbc包,impala-2.12.0对应的包如下:打开下载压缩包,可以看到官方给的指引文档: Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf2.2原创 2022-03-08 20:30:00 · 1293 阅读 · 0 评论 -
解决 HDFS edit log文件损坏问题
1.现象CDH集群 HDFS出现爆红项,具体原因是 JournalNode状态异常,查看角色日志如下:2.分析edit log文件里面存放的是hdfs一些状态信息,从报错来看是某个 edits文件无法读取导致的,结合最近服务器出现过一次集体断电,猜测是 edit log文件损坏了。3.解决查看集群组件状态,JournalNode一共有 3台机器,其中一台状态异常,另外两台状态良好,于是可以把从其中一台状态良好的机器上拷贝 edit log文件到状态异常的机器。具体步骤如下:停止集群所有服原创 2022-02-23 21:30:00 · 983 阅读 · 0 评论 -
Hive通过 ZooKeeper开启 HA(高可用)
前言生产上的大数据平台都会配置多个 HiveServer,在使用 JDBC这种方式连接 hive服务时,如果直接连接某个 HiveServer,当其所在机器异常时,就会导致服务不可用。因此,生产上一般都要求使用 ZooKeeper开启 HA,通过 zk去间接访问 hive服务。这里以 CDH 5.X为例介绍 Hive如何通过 ZooKeeper开启 HA。Hive开启 HA(高可用)修改界面配置打开 CDH界面,然后在 Hive配置里面搜索 hive-site,如下:然后添加如下配置项:原创 2022-02-17 20:00:00 · 3565 阅读 · 0 评论 -
解决 HDFS副本数不足问题
1.现象CDH界面 HDFS出现爆红项,查看详情发现是 副本数不足导致的,如下:HDFS和 CDH版本:2.6.0+cdh5.15.1+28222.分析报错是很明确的:接近 99%的 hdfs块副本缺失。默认情况下 hdfs的副本一般是3个,要求至少有3个 DataNode。出问题的集群是一个测试集群,之前一共有 3台机器,最近由于一台机器故障,现在集群只剩 2台机器了,问题应该就出在这里了。明确一下问题的原因: 集群现有的机器数量不满足 3个 DataNode的要求,故导致副本数不足。原创 2022-01-27 15:56:14 · 5110 阅读 · 0 评论 -
Hive 简明使用教程
1.简介The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided t原创 2022-01-18 15:09:52 · 2622 阅读 · 0 评论 -
Kafka Producer通过参数调优提高数据发送速度
1. 前言最近项目现场发生了 日志文件积压的情况,日志文件的大概处理流程是:读取日志文件->进行结构化->发送到 kafka以一个 7.57M的日志文件为例(约58400条日志信息),程序需要 16.8s才能将其处理完,也就是说平均每秒只能处理约 3500条数据,经过验证,其中瓶颈在数据发送到 Kafka这一步。这个根据经验,明显肯定是没有达到 Kafka的瓶颈的,应该是自己 producer程序有问题,于是去 Kafka官网一查:Single producer thread, 3x a原创 2021-04-22 16:08:58 · 4744 阅读 · 0 评论 -
基于 Hive 构建数据仓库
前言设想有一批各种类型的离线(或实时)数据(文本、csv、Excel 等),我们如何挖掘这些数据背后的价值,分析这些数据之间的关联?很容易想到的就是,写程序把每种数据按照某种规则抽取出来放到关系型数据库中进行分析。这样做可能存在什么样的问题?按照某种规则进行抽取,是否会导致原始数据信息的丢失?因为前期设计不足或者后期需求变化导致数据的重复处理?面对上千亿,甚至上万亿的数据,...原创 2020-04-24 17:27:23 · 3041 阅读 · 1 评论 -
Spark 开发调试技巧
Spark 部署模式简介:Local一般就是跑在自己的本地开发机上,用于跑单元测试、学习算子的使用方式等。ClusterStandalonespark 自己负责资源的管理调度。Mesos使用 mesos 来管理资源调度。Yarn使用 yarn 来管理资源调度开发和调试技巧下面介绍的开发和调试技巧都是基于 Spark On Yarn 这种部署模式,这...原创 2020-03-28 16:48:31 · 902 阅读 · 0 评论 -
结合官方文档分析 kafka 重复消费问题
结合官方文档分析 kafka 重复消费问题出现重复消费的根本原因: 客户端已经消费了数据,但是 offset 没有提交。offset 没有提交的原因一般有 3种:设置了自动提交 offset ,由于程序的异常导致了漏提交consumer 被 group coordinator 从当前消费组中移除consumer 提交 offset 失败备注:group coordinator ...原创 2020-03-14 19:11:15 · 333 阅读 · 0 评论