- 博客(13)
- 收藏
- 关注
原创 Flume读取kafka 分区A到分区B失败场景
解决后:问题在于flume的拦截器配置问题。#拦截器处理,topic覆盖问题。自行修改ip等数据使用。#channels定义。#sources定义。
2025-11-14 17:30:58
608
原创 KingbaseES常用配套工具
本文介绍了金仓数据库(KingbaseES)系列工具的六大核心功能模块及辅助运维工具: 数据迁移工具(KDTS)支持异构/同构数据库迁移,提供图形化界面和自动类型转换; 迁移评估工具(KDMS)可进行迁移前兼容性分析和SQL转换; 开发管理工具(KStudio)提供SQL编辑、调试等一体化开发环境; 运维管控平台(KOPS)实现多实例集中监控与批量管理; 快速开发平台(KESPlus)整合应用开发与数据库运维; 云数据库服务(KRDS)支持多云环境下的全生命周期管理。 此外还包含数据收集、诊断、备份等实用运
2025-11-03 12:18:51
1014
原创 KingbaseES(人大金仓)Linux系统部署
在安装KingbaseES时,安装用户对于安装路径需有“读”、“写”、“执行”的权限。也可以自定义安装路径。定制安装:在数据库服务器、高可用组件、接口、数据库开发管理工具、数据库迁移工具、数据库部署工具所有组件中自由选择。根据安装后数据库服务功能的不同,KingbaseES可分为完全安装、客户端安装和定制安装三种安装集。完全安装:包括数据库服务器、高可用组件、接口、数据库开发管理工具、数据库迁移工具、数据库部署工具。客户端安装:包括接口、数据库开发管理工具、数据库迁移工具、数据库部署工具。
2025-10-30 19:45:26
280
原创 人大金仓 KingbaseES 数据库深度解析
人大金仓作为国产数据库"国家队"核心成员,其核心产品KingbaseES(KES)形成了三大分布式架构模式:TDC集群支持高并发事务场景,Sharding集群满足混合负载需求,ADC集群面向大数据分析。同时通过多模一体化存储和集中-分布一体化架构,实现关系型、文档、时序等数据的统一管理,支持从单机到分布式的平滑扩展。此外还提供异地多活灾备和异构同步等增强模式,满足关键行业对高可用性和国产化替代的需求。
2025-10-27 15:42:44
986
原创 Spark on Hive
Hive 作为主导框架,将默认计算引擎从 MapReduce 替换为 Spark,即用 Spark 执行 HQL 查询,充分利用 Spark 的内存计算优势提升 Hive 的处理速度。Spark 作为主导框架,通过 Spark SQL 读取 Hive 的元数据(Metastore),直接操作 Hive 中的数据,即用 Spark SQL 处理 Hive 表数据,此时 Hive 仅作为 “元数据管理器” 和 “数据存储层”。维度主导框架Hive(HQL 为入口)
2025-10-14 19:51:40
1020
原创 Flume工具
Apache Flume 是Apache基金会开发的分布式日志采集工具,专为海量流式数据(如服务器日志、传感器数据)设计,提供可靠传输至HDFS、HBase等存储系统。其核心架构基于Agent(Source采集→Channel缓冲→Sink输出),支持事务机制确保数据不丢失,可通过多Agent串联构建复杂采集拓扑。特性包括:持久化通道(FileChannel/KafkaChannel)、拦截器数据加工、故障转移Sink组等。相比同类工具(Kafka Connect/Fluentd),Flume更专注Hado
2025-09-23 19:00:52
1047
原创 ZooKeeper的选举算法
在分布式系统中,“ZK” 通常指(Apache ZooKeeper),它是一个用于提供分布式协调服务的开源组件,核心功能包括配置管理、命名服务、分布式锁和等。ZooKeeper 的选举算法是其保证高可用的关键,经历了从到(Zab 协议的核心部分)的演进,目前生产环境中均使用。要理解 ZK 的选举算法,需先明确其集群角色和核心概念,再拆解选举的触发场景、核心逻辑和流程。
2025-09-16 20:19:01
656
原创 HDFS的纠删码技术ErasureCoding
在理解原理前,需明确两个关键参数(以 HDFS 常用的数据块数量(k):原始数据被分割为 k 个等大小的块(如 k=6,即 6 个数据块)。校验块数量(m):通过编码算法生成 m 个用于恢复数据的校验块(如 m=3,即 3 个校验块)。条带(Stripe):由 “k 个数据块 + m 个校验块” 组成的最小编码单元(如 6+3=9 个块构成 1 个条带)。块大小:条带中每个块的固定大小(如 1024k,即 1MB)。HDFS 纠删码技术是对传统副本机制的重要补充,其核心价值在于。
2025-09-16 18:42:51
760
原创 Hadoop 框架入门:核心架构与工作原理
Hadoop 是一个开源的分布式计算框架,专为处理海量数据(TB/PB 级)设计,具有高容错性、高扩展性和低成本的特点。它的核心是和两大能力,通过集群化部署实现对大规模数据的高效处理。
2025-09-15 19:36:45
881
原创 Hadoop集群的高可用(HA)搭建
本文介绍了Hadoop高可用集群的配置过程,主要包括ZooKeeper集群搭建、HDFS和YARN高可用配置。配置步骤包括:1)设置ZooKeeper集群环境变量和数据目录;2)配置HDFS高可用性,包括NameNode、JournalNode和故障转移设置;3)配置YARN资源管理器高可用性;4)节点规划与软件安装要求;5)ZooKeeper集群的详细配置步骤;6)HDFS和YARN服务的启动流程。整个过程涉及多节点协调、环境变量设置、XML配置文件和服务的启动顺序管理。
2025-09-15 18:40:22
345
原创 Linux inode
inode 的全称是Index Node(索引节点),本质是一个存储文件元数据的结构体。当在 Linux 中创建一个文件时,文件系统会自动分配一个唯一的inode 编号(inode number)和对应的 inode 结构体,用于记录文件的关键信息;而文件名则存储在目录文件中,通过 “文件名 -> inode 编号” 的映射关系,实现用户对文件的访问。可以类比:inode 相当于文件的 “身份证”(记录核心信息),inode 编号是 “身份证号”(唯一标识),文件名是 “人的名字”(方便称呼,但可改)。
2025-09-01 17:43:22
1007
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅