- 博客(304)
- 资源 (4)
- 收藏
- 关注

原创 Grafana+Prometheus监控Flink on YARN系统搭建
Flink支持多种监控指标的汇报reporter,例如jmx、slf4j、Prometheus、InfluxDB等。Grafana+Prometheus是当前比较流行的监控可视化解决方案。如下图为Prometheus及相关组件组成的生态系统。
2020-05-22 23:23:32
1271
原创 git部署以及常用的命令
(3)命令未找到(git: command not found) 检查PATH是否包含/usr/local/bin,或创建软链接ln -s /usr/local/bin/git /usr/bin/git。git clone git@服务器IP:/home/git/repositories/project.git。sudo make prefix=/usr/local install # 安装到系统目录。确保客户端公钥已加入/home/git/.ssh/authorized_keys。
2025-08-13 13:41:42
448
原创 严格禁止单条记录超过 8 K
总计算公式:(中文列长度×3)+(英文列长度×1)≤819215。超过8KB会导致page-overflow问题,影响IO效率。图片/文件应使用外部存储(如TFS/SFS),数据库仅保存指针。InnoDB默认页大小16KB,需保证每页至少存储两条记录。TEXT/BLOB类型建议拆分到子表存储。中文UTF8编码:长度×3字节。InnoDB存储引擎限制。频繁读写的大字段需独立分表。英文/数字:长度×1字节。该SQL可估算表的单行记录大小。
2025-07-01 11:36:19
257
原创 MySQL中TINYINT/INT/BIGINT的典型应用场景及实例
优先选择能满足需求的最小类型。无符号类型可扩大正数范围。主键字段需预留扩展空间。适用于布尔值存储和状态码标记。满足大多数业务场景的ID需求。一、TINYINT(1字节)三、BIGINT(8字节)适合中等规模的计数场景。支持高并发分布式系统。适合小范围整数存储。二、INT(4字节)避免大数值溢出问题。
2025-07-01 11:22:53
303
原创 写入P99延迟突破1秒含义
1. 写入操作延迟: 指数据成功写入存储系统(如数据库、文件系统、SSD等)所需的时间,即从发起写入请求到获得写入成功确认的时间间隔 11。它表示在测量时间段内,99% 的写入请求的延迟都低于或等于这个值。换言之,只有最慢的 1% 的写入请求的延迟超过了这个值。在监控的系统写入操作中,虽然绝大部分(99%)写入请求都能在 1 秒内完成,但仍有 1% 的写入请求表现异常缓慢,其响应时间超过了 1 秒。” 这个表述指的是在测量数据写入操作的延迟(响应时间)时,。
2025-06-25 22:56:08
208
原创 RegionServer热点问题解决方案
HBase的RegionServer热点问题主要由数据分布不均或访问负载集中引发,以下是综合解决方案及优化策略。一、RowKey设计优化(预防热点核心)1.1 加盐(Salting):避免连续RowKey集中同一Region。1.2若业务依赖时间戳,将高位时间戳反转(如 Long.MAX_VALUE - timestamp),避免新数据集中尾部Region。1.3 业务属性组合将查询频次高的字段(如用户ID)与时间戳拼接,平衡数据分布。
2025-06-25 22:51:46
748
原创 Doris 元数据恢复步骤
恢复后检查 FE 的 image/VERSION 中 clusterId 是否与 BE 一致,不一致需手动修改(避免 BE 注册失败)。生产环境部署 3 FE 节点(1 Follower + 2 Followers/Observers)提升高可用性。主节点按单节点恢复流程操作(启用 metadata_failure_recovery 并重启)。元数据版本不可向后兼容,高版本恢复后禁止回滚旧版本。2.1 单 FE 节点故障恢复。一、通过备份快照恢复元数据。
2025-06-24 13:39:51
504
原创 Elasticsearch 如果保证读写一致
活跃分片等待(wait_for_active_shards)指定写操作前需可用的最小分片数(如设为 all 需全部在线),避免写入不可用分片。新版本推荐使用 if_seq_no(序列号)和 if_primary_term(主分片任期)替代 _version,精确控制基于最新状态的更新。quorum(默认):多数分片(主+副本)确认成功,公式:int( (主分片数 + 副本数) / 2 ) + 1。all:所有分片确认(强一致,性能较低)one:仅主分片确认(弱一致)
2025-06-23 15:04:52
552
原创 Elasticsearch 搜索的流程
Elasticsearch 的搜索流程是一个分布式协作过程,主要包含 查询阶段(Query Phase) 和 取回阶段(Fetch Phase),默认采用 QUERY_THEN_FETCH 模式。根据排序规则(如得分、时间)生成优先级队列(Top-N 结果),仅存储文档 ID 和排序信息(非完整文档)。注:若查询包含聚合(Aggregation),各分片会先计算局部聚合结果,协调节点再汇总生成全局聚合数据。协调节点向候选文档 ID 所在的分片发送多文档获取请求(Multi-Get)。
2025-06-23 14:57:56
226
原创 Elasticsearch 索引文档的流程
请求被转发到主分片所在的节点(协调节点或直接定位主节点)。主分片节点接收到请求后:写入内存缓冲区:数据暂存至节点级内存缓冲区(Indexing Buffer)。若主分片故障,副本分片将晋升为新主分片继续服务。客户端通过 REST API 发送文档写入请求,需指定索引名、文档 ID(可选)及文档内容。副本分片执行相同操作(写入缓冲区 + 记录 Translog),并向主分片返回执行结果。 记录事务日志:同时将操作写入分片级事务日志(Translog),确保宕机后可恢复。
2025-06-23 14:25:06
387
原创 elasticsearch高可用实现原理
增量数据同步:节点恢复后仅同步故障期间的增量数据(通过事务日志 Translog)。多节点部署:数据节点、专用主节点协调分布在多个物理节点(或可用区)。可用区部署时,专用主节点分散在不同可用区,任一可用区故障不影响集群选举。负载均衡:查询请求可分发到主分片或任意副本分片,减轻单点压力。新副本重建:Master 节点在健康节点上创建缺失的副本分片。:主分片的完整镜像,提供查询负载均衡和故障容错。数据冗余:副本分片确保单节点故障时数据不丢失。主分片故障时,副本分片自动晋升为新主分片。
2025-06-23 14:16:12
285
原创 EFK架构的数据安全性
ES 分片过多导致内存溢出 → 控制分片数(number_of_shards: 3),启用 ILM 自动滚动索引。Filebeat → Elasticsearch 的日志传输默认未加密,易被中间人攻击窃取数据。Filebeat 直接写入 ES 时,若 ES 故障可能导致日志积压丢失。未加密的 Kibana 端口(5601)可能被直接访问,导致可视化数据泄露。定期扫描未加密的 ES 节点端口(9200/9300)。ES 启用冷热分层存储,敏感日志存于加密冷节点。日志采集阶段过滤敏感字段(如身份证、手机号)。
2025-06-13 14:05:10
589
原创 EFK架构日志采集系统
Filebeat:轻量级日志采集器,实时监控文件/目录变化,高效转发日志数据(资源占用仅为 Logstash 的 1/10)。生产建议:日志量 > 10GB/天时,采用 Filebeat → Kafka → Logstash(过滤)→ ES 架构提升可靠性。 版本兼容性:确保 Elasticsearch、Kibana、Filebeat 大版本一致(如 7.x)。DaemonSet 部署 Filebeat:每个节点部署一个 Filebeat Pod,采集节点所有容器日志。
2025-06-13 13:52:21
928
原创 filebeat原理架构
总结:Filebeat 通过 Harvester 实时跟踪文件变化、Registry 确保状态持久化、Libbeat 实现高效聚合与背压控制,提供低资源占用的可靠日志采集方案,是 ELK/EFK 体系中核心的轻量级日志收集器。日志源 → Filebeat(采集) → Kafka(缓冲) → Logstash(过滤) → Elasticsearch(存储) → Kibana(可视化)职责:逐行读取单个日志文件内容,将数据发送至处理引擎(Libbeat)。
2025-06-10 22:26:19
611
原创 elasticsearch低频字段优化
设置index: false后,字段不会生成倒排索引,无法通过常规查询(如match、term)检索该字段。特殊字段类型的例外数值、日期、布尔等类型字段即使设置index: false,仍可能通过doc_values实现排序和聚合。存储优化:减少索引体积,提升写入速度(尤其适用于高频写入场景)。 低频访问字段:如日志中的辅助信息、冗余元数据等无需搜索的字段。性能权衡:需评估字段的实际使用需求,避免误关闭高频查询字段。查询限制:禁用索引后,直接查询该字段会返回空结果。
2025-05-31 17:46:23
591
原创 canal高可用原理
创建成功的Server将启动对应的Canal instance,未成功的则处于standby状态。节点消失后的处理:如果Zookeeper发现某个Canal Server创建的节点消失,会立即通知其他Canal Server重新进行启动判断,重新选出一个Server启动instance。Watcher机制:Zookeeper的Watcher机制用于监听节点变化,一旦检测到节点变化(如创建或删除),会触发相应的处理逻辑,确保Canal Server和Client的状态同步。Canal的HA机制。
2025-05-28 22:51:44
378
原创 为什么mysql数据库单张表索引数量建议控制在 6 个以内
关键提示:6 个索引并非硬性上限(InnoDB 最多支持 64 个二级索引3),而是性能拐点经验值。多个相似索引(如 (a)、(a,b))可能同时存在,但优化器仅会选择最有效的一个,冗余索引徒增维护成本。ALTER TABLE 等结构变更需重建索引,索引数量越多,操作耗时越长,影响业务连续性。每个索引独立存储一份 B+树结构,索引字段越多、数据量越大,额外存储空间消耗越明显。索引利用率不均衡:实际业务中仅少数索引被高频使用,过多索引导致资源错配。磁盘消耗显著增加。冗余索引浪费资源。
2025-05-27 22:55:24
315
原创 Keepalived 配置 VIP 的核心步骤
Keepalived 配置 VIP 的核心步骤主要涉及安装软件、主备节点配置及服务管理。通过以上步骤,可实现基于 Keepalived 的 VIP 高可用配置,确保主备节点自动故障切换。提示:virtual_router_id 必须在同一 VRRP 组内唯一,且主备节点需相同。virtual_router_id 51 # 虚拟路由 ID,主备需一致。priority 150 # 优先级,主节点需高于备节点。virtual_router_id 51 # 与主节点一致。
2025-05-27 20:27:08
1447
原创 全局事务标识符
例如,3E11FA47-71CA-11E1-9E33-C80AA9429562:23表示在server_uuid为3E11FA47-71CA-11E1-9E33-C80AA9429562的服务器上,第23个提交的事务。在传统复制中,需要手动指定二进制日志文件和位置来启动复制,而GTID复制只需要配置主库的连接信息和开启GTID功能,系统会自动根据GTID来同步事务,大大简化了配置过程。GTID可以确保每个事务在从库上只执行一次,避免了传统复制中可能出现的事务重复执行问题,保证了数据的一致性。
2025-05-27 19:40:43
406
原创 hadoop异构存储
异构存储基本原理:Hadoop集群允许使用SSD、HDD、ARCHIVE等多种存储介质,根据数据的访问频率(热/温/冷)匹配对应的存储类型,例如SSD存储频繁访问的热数据,HDD存储温数据,ARCHIVE存储冷数据。冷热数据分离:电商日志场景中,新日志(热数据)存于SSD以支持实时分析,旧日志(冷数据)迁移至ARCHIVE降低成本。RAM_DISK:内存存储,适合极高频访问的数据(如临时中间计算结果);ARCHIVE:高密度归档存储(如磁带或低成本大容量磁盘),适合冷数据。
2025-05-26 14:26:20
423
原创 hadoop纠删码基本原理
数据分块与校验计算:将原始数据划分为k个数据单元,通过数学算法(如Reed-Solomon)生成m个校验单元。任意丢失不超过m个单元(包括数据单元或校验单元)时,可通过剩余单元恢复原始数据。存储策略替换副本机制:默认三副本策略存储效率为33%(300MB文件占用900MB空间),而EC策略(如RS-6-3)存储效率提升至66%(300MB文件占用500MB空间);支持多种策略配置,如RS-10-4(10数据块+4校验块)、XOR-2-1(2数据块+1校验块)。
2025-05-26 11:29:55
766
原创 HDFS写入数据流程
DataNode列表获取:客户端向NameNode请求当前块的存储节点,NameNode基于机架感知策略(优先同机架节点)和负载均衡返回3个DataNode地址; ACK确认机制:每个Packet传输完成后,DataNode通过反向管道返回ACK确认,客户端将Packet移入ackQueue; 传输管道构建:客户端与第一个DataNode建立连接,后续节点通过逐级调用形成传输链(如dn1→dn2→dn3),完成后逐级返回应答确认管道就绪;
2025-05-26 11:11:09
663
原创 数据库备份及可恢复性验证流程
日志管理:启用归档日志(如MySQL的binlog、SQL Server的事务日志)以支持时间点恢复(PITR)3-2-1原则:至少保留3份副本,存储在2种不同介质(如本地磁盘+磁带),1份异地(如云存储)恢复路径验证:预先定义不同故障场景(如硬件损坏、误删表)的恢复步骤。自动校验:通过校验和(如SHA-256)验证备份文件未损坏56。目标定义:明确RTO(恢复时间目标)与RPO(恢复点目标)日志追踪:检查恢复过程中的错误日志(如事务冲突或数据缺失)
2025-05-22 10:46:04
492
原创 服务器磁盘按阵列划分为哪几类
当前技术趋势显示,RAID 10与RAID 6已成为企业级存储的主流选择,而传统RAID 2/3/4因架构缺陷逐渐退出市场。 容量优先:RAID 5 > RAID 6 > JBOD(无冗余)可靠性优先:RAID 10 ≈ RAID 6 > RAID 1。工作机制:数据与校验信息交替存储于不同磁盘,允许单盘故障恢复。性能优先:RAID 0 > RAID 10 > RAID 5。 典型应用:数据库关键日志、虚拟机核心存储等容灾场景。
2025-05-22 10:33:00
706
原创 服务器硬盘分类
性能表现:随机读写可达100k-1M IOPS,延迟低于0.1ms,支持PCIe 4.0接口时带宽达7GB/s68。劣势:随机读写延迟高达5-15ms,IOPS性能约100-200,转速主流的15k RPM型号功耗约10W/盘。优势:单盘容量可达20TB以上,每GB存储成本低至0.02美元,适合海量冷数据存储。协议演进:SAS 3.0带宽达12Gb/s,兼容SATA设备,支持全双工通信。技术定位:消费级协议向企业级延伸,带宽上限600MB/s,无多路径冗余。
2025-05-22 10:20:35
805
原创 数据库主从集群 + GTID 实现高可用
从库通过 I/O 线程拉取主库的 binlog,写入本地的中继日志(relay log),再由 SQL 线程重放日志以实现数据同步。通过 GTID 机制与主从架构的深度整合,数据库集群可在保证数据一致性的前提下实现快速故障恢复,是构建高可用数据库系统的核心技术方案。:通过 Keepalived 等工具绑定虚拟 IP(VIP),当主库故障时 VIP 自动漂移到从库,实现客户端无感知切换。:切换主库时,确保新主库包含原主库的所有 GTID 事务,避免数据断层。命令指向新主库,基于 GTID 自动续传复制。
2025-05-21 12:59:37
323
原创 lambda架构和kappa架构区别
Lambda架构与Kappa架构是大数据处理领域的两种核心架构模式,主要差异体现在数据处理逻辑、系统复杂度和适用场景等方面。
2025-05-20 22:42:50
706
原创 LSM Tree算法原理
不可变的SSTable(Sorted String Table):当MemTable达到一定大小后,会被冻结并转换为不可变的SSTable,按主键排序后顺序写入磁盘(通常为Level 0层)。内存缓冲(MemTable):写入操作首先被写入内存中的数据结构(如跳表或平衡树),称为MemTable。 写放大(Write Amplification):合并可能导致数据多次重写,高层级合并涉及更大数据量,是LSM Tree的主要代价之一。日志系统或时序数据存储(InfluxDB)
2025-05-20 17:09:20
481
原创 Doris高性能读能力与实时性实现原理
Doris 通过 分布式并行架构+列式存储优化 解决海量数据扫描效率问题,依托 内存优先处理+存算一体设计 实现亚秒级实时响应。 MPP 分布式架构:采用大规模并行处理架构,将查询请求拆解为多个子任务并行执行,BE 节点之间通过数据分片并行计算实现负载均衡,线性扩展处理能力。内存优先处理机制:新写入数据优先驻留内存 MemTable,查询时自动合并内存与磁盘数据,实现读写分离(Write-Ahead 模式)。内存数据通过:两阶段提交协议 保障事务一致性,写入完成即可查。
2025-05-20 14:24:26
630
原创 服务器磁盘不同格式挂载区别
通过合理选择文件系统和挂载参数,可显著优化磁盘性能与数据安全性。通过mount /dev/sdXn /path命令实现,重启后失效。需编辑/etc/fstab文件,指定分区UUID或设备路径、挂载点、文件系统类型及挂载参数。日志型文件系统(如ext4、XFS)在意外断电时数据恢复能力更强,但会牺牲少量写入性能。某些文件系统(如XFS)对海量文件处理更高效,而ext4在小文件场景表现更优。noatime:减少元数据写入,提升性能。ro/rw:控制只读或可写模式。 2. 永久挂载。
2025-05-20 11:28:28
543
原创 大数据hadoop小文件处理方案
通过组合使用上述方案,某金融客户集群(50PB规模)将小文件数量从2.3亿减少至1700万,NameNode Full GC频率从每小时3次降至每周1次,作业执行效率提升40%。MapReduce合并:开发专用MR任务实现分布式合并,降低NameNode内存压力(处理100万个小文件时内存消耗可从15GB降至1.5GB);Hive合并:设置hive.merge.mapfiles=true和hive.merge.size.per.task参数;列式存储:Parquet格式合并小文件时,查询性能提升3-5倍;
2025-05-19 18:14:24
922
原创 Linux句柄数过多问题排查
以下是Linux句柄数过多问题的排查与解决方法整理:一、检测句柄使用情况1.查看系统限制单个进程限制:ulimit -n系统级总限制:cat /proc/sys/fs/file-max2.统计进程占用量查看指定进程:lsof -p <PID> | wc -l通过输出可快速定位句柄泄漏的进程。二、常见问题原因1.资源未释放程序未正确关闭文件、Socket连接或数据库连接(如MySQL报错Too many open files)
2025-05-19 16:07:59
828
原创 大数据与数据库服务器参数调优方法
增大TCP连接队列(net.core.somaxconn=65535,net.ipv4.tcp_max_syn_backlog=65535),应对高并发请求。修改 vm.swappiness(默认60)为 10或更低,减少交换分区使用优先级,避免内存充足时频繁触发交换操作。禁用ICMP广播响应(net.ipv4.icmp_echo_ignore_broadcasts=1),防范放大攻击。关闭IPv6支持(net.ipv6.conf.all.disable_ipv6=1),降低潜在攻击面。
2025-05-19 15:59:31
390
原创 linux服务器参数调优
在虚拟化环境下(如云数据库),采用 SR-IOV(单根I/O虚拟化)网卡 可绕过Hypervisor直接访问物理网卡,减少CPU占用率。 分布式存储(如SAN/NAS):通过光纤信道或以太网集中管理存储资源,支持动态扩展和高并发访问。 HDFS推荐使用 多块SATA/SAS机械硬盘 构建分布式存储,通过横向扩展实现高吞吐量。 云存储:采用对象存储服务(如S3)实现弹性扩展,但需注意网络稳定性对实时性要求高的场景影响。
2025-05-19 15:52:06
335
原创 linux服务器监控指标
TCP连接状态:netstat -ant/ss -s查看ESTABLISHED、TIME_WAIT连接数,过多可能需调整内核参数。磁盘利用率(%util):通过iostat -x 1查看,持续>80%表明磁盘过载。 读写延迟(await):单次I/O平均耗时,机械硬盘建议≤10ms,SSD≤2ms。平均负载(Load Average):1/5/15分钟均值,超过逻辑CPU核数表示资源紧张需扩容。iostat -d 1:统计每秒读写量(rkB/s/wkB/s),识别高吞吐设备。
2025-05-19 15:15:20
576
原创 doris节点数量规划
在生产环境中,为了数据的可靠性和容错性,通常会使用 3 副本存储数据,因此建议部署至少 3 个 BE 节点。通常情况下,建议部署至少 3 个 Follower 节点。Follower 节点:参与选举操作,当 Master 节点宕机时,会选择一个可用的 Follower 节点成为新的 Master。Observer 节点:仅从 Leader 节点同步元数据,不参与选举,可用于横向扩展以提升元数据的读服务能力。BE 节点支持横向扩容,通过增加 BE 节点的数量,可以有效提升查询的性能和并发处理能力。
2025-05-15 23:25:46
360
基于 Filebeat + Elasticsearch + Kibana(EFK)构建日志采集系统的架构核心要点及部署指南
2025-06-13
【数据库技术】MySQL全局事务标识符(GTID)详解:复制环境中的事务管理与配置简化了文档的主要内容
2025-05-27
【网络高可用】基于Keepalived配置VIP的核心步骤:主备节点自动故障切换系统部署指南
2025-05-27
【大数据存储】Hadoop异构存储技术实现与应用:基于HDFS的多级存储介质智能调度方案设计
2025-05-26
【数据库管理】主流数据库备份及可恢复性验证流程:策略制定、执行与验证方法综述
2025-05-22
【Linux系统管理】常用命令汇总:文件操作、权限管理、文本处理与网络配置基础教程
2025-05-21
网络安全Elasticsearch未授权访问漏洞修复:通过防火墙与身份验证增强数据安全防护措施
2025-05-20
网络安全Hadoop未授权访问漏洞修复:分布式系统基础架构安全配置加强方案
2025-05-20
【Linux服务器运维】全面解析CPU、内存、磁盘I/O及网络监控指标与工具:保障系统稳定性的关键数据监测方案
2025-05-19
网络安全常见漏洞修复方案汇总
2025-05-15
【大数据存储】解决小文件过多引发的HDFS NameNode内存溢出:优化方案与配置示例
2025-05-14
【大数据平台网络资源规划】带宽负载均衡选择:业务场景驱动的系统架构与优化策略设计大数据平台在网络资源
2025-05-15
【大数据平台】资源规划关键技术:涵盖资源分类、容量评估、扩展性设计的综合考量系统构建
2025-05-15
【大数据技术】Hadoop集群故障节点隔离与恢复操作指南:确保集群稳定运行的详细步骤与配置优化
2025-05-14
【Elasticsearch运维】重启后分片未分配问题的诊断与解决方案:典型故障场景及预防措施综述
2025-05-14
【Elasticsearch索引设计与调优】分片策略、映射优化及冷热数据分层架构:提升查询和写入性能的综合方案设计
2025-05-14
【Elasticsearch优化】硬件与资源配置优化方案:提升集群性能与稳定性设计
2025-05-14
【大数据处理】Flink实时任务CPU异常排查与优化:资源配置、代码逻辑及并行度调整方案设计
2025-05-14
【大数据处理】Hadoop数据倾斜成因分析与综合解决方案:从预处理到任务参数调优全流程解析
2025-05-14
【大数据存储管理】Hadoop存档文件(HAR)使用指南:创建、查看、特性及应用场景详解
2025-05-14
【大数据技术】Hadoop集群宕机问题分析与解决方案:故障应急处理及预防优化措施综述
2025-05-14
【Hadoop分布式文件系统】NameNode确认DataNode数据写入成功机制:包含写入过程确认、持久化验证及元数据更新流程解析
2025-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人