磁盘I/O很高的解决思路

最新推荐文章于 2023-10-07 11:34:28 发布

Make Dream Happen

最新推荐文章于 2023-10-07 11:34:28 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：运维文章标签： IO高

本文链接：https://blog.youkuaiyun.com/haohzhang/article/details/87600553

当遇到磁盘I/O突然升高时，运维人员可通过监控工具分析历史记录，定位造成读写频繁的程序。文章以xen虚拟机为例，通过iostat输出展示设备的IO状态，发现100%利用率的设备，并进一步分析可能的原因，包括数据操作、备份、慢查询和RAID卡问题。解决思路涉及检查进程、优化SQL、排查硬件故障。

介绍

磁盘IO突然很高是运维人员经常碰到的问题，这是由于有大量的磁盘读和写造成的，通常发生在数据库身上，然而发生的场景各种各样。本文举几个例子阐述解决思路。

正文

找到是什么程序在大量的进行读写操作。可以通过监控软件（如zabbix）或工具（如atop）查看磁盘IO的历史记录。

本文假设场景发生在xen虚拟机上，在母机上用iostat查看IO状态

# iostat -xdk 2

输出如下：

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util

sda 0.00 24.50 0.00 13.50 0.00 141.00 20.89 1.71 126.67 0.00 126.67 39.70 53.60

sdb 0.00 1.50 0.00 12.00 0.00 132.00 22.00 1.42 108.33 0.00 108.33 83.33 100.00

dm-0 0.00 0.00 0.00 12.50 0.00 12.50 2.00 2.36 188.48 0.00 188.48 11.84 14.80

dm-1 0.00 0.00 0

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Make Dream Happen

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Linux服务器I/O负载过高的原因及解决方法

IsdCoding的博客

10-02

2566

在Linux服务器管理中，经常会遇到I/O负载过高的问题。本文将详细介绍导致I/O负载过高的原因，并提供相应的解决方法。

案例篇：为什么我的磁盘I/O延迟很高？

echohuangshihuxue的博客

08-28

1573

上一节，我们研究了一个狂打日志引发 I/O 性能问题的案例，先来简单回顾一下。日志，是了解应用程序内部运行情况，最常用也是最有效的工具。日志一般会分为调试、信息、警告、错误等多个不同级别。通常，生产环境只用开启警告级别的日志，这一般不会导致 I/O 问题。但在偶尔排查问题时，可能需要我们开启调试日志。调试结束后，很可能忘了把日志级别调回去。这时，大量的调试日志就可能会引发 I/O 性能问题。你可以用 iostat ，确认是否有 I/O 性能瓶颈。

参与评论您还未登录，请先登录后发表或查看评论

「服务器运维」如何解决服务器I/O过高的问题

xuzhougeng blog

12-26

2199

在没有解决bug之前，你永远不知道bug到底是怎么产生的。问题缘起: 当我习惯性地用top查看任务运行状态时，发现我运行的100个任务，只有3个在运行，其他都在摸鱼状态。同时发现我的任务进程都是"D"状态(未截图)，而不是R(运行)状态。 top状态这个时候，我直觉上感觉这是硬盘读写除了问题，于是我开始检索查找相关工具去验证我的猜想先用的是iostat -x ...

转：linux io调度深入分析

cod42960的博客

04-24

3690

http://www.lupaworld.com/56821/viewspace-142725.html[@more@]读完这篇最好读下http://kerneltrap.org/node/7637，really great转自...

31丨案例：当磁盘参数导致I/O高的时候，应该怎么办？

ths512的博客

01-04

795

在大部分的性能项目中，当系统调优到一定程度的时候，性能的瓶颈往往会体现在两类计数器上：一个是 CPU，另一个就是磁盘 I/O 了。所以我们也经常会在一些性能优化的文章中看到两个分类，分别是 CPU 密集型和磁盘 I/O 密集型。有人说为什么不说内存呢？内存是那么重要。不是说内存不会成为瓶颈，只不过内存的瓶颈基本上都可以转嫁给 CPU 和磁盘 I/O。当内存不够的时候，大不了就是清理得快一点。内存能表现出来的，就是满不满，而谁去清理呢？那就是 CPU 了。清理得快就得 CPU 转得快。我们经常会...

i/o过高异常怎么办

y1035793317的博客

09-23

2246

第一步、IO使用情况定位第二步、top查询wa（i/o）的使用情况，查看io占用cpu是否较高。第三步、iostat -x25查看各磁盘的%util情况，越高说明磁盘对应的io越高。第四步、iotop直接查看IO较高的进程号，当iotop命令不可以用时使用for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done查询IO等待的对应进程第五步、cat /proc/pid/io查..

磁盘I/O性能优化的几个思路

Java____superman的博客

07-05

1656

本文已收录GitHub，更有互联网大厂面试真题，面试攻略，高效学习资料等虽然 I/O 的性能指标很多，相应的性能分析工具也有好几个，但理解了各种指标的含义后，你就会发现它们其实都有一定的关联。顺着这些关系往下理解，你就会发现，掌握这些常用的瓶颈分析思路，其实并不难。找出了 I/O 的性能瓶颈后，下一步要做的就是优化了，也就是如何以最快的速度完成 I/O操作，或者换个思路，减少甚至避免磁盘的 I/O 操作。本文，我就来说说，优化 I/O 性能问题的思路和注意事项。 I/O基准测试按照我的习惯，..

磁盘 I/O 性能优化思路

qq_40500045的博客

02-21

1671

磁盘 I/O 性能优化思路文章目录磁盘 I/O 性能优化思路前言一、I/O 基准测试二、I/O 性能指标文件系统 I/O 性能指标磁盘 I/O 性能指标三、性能工具四、如何迅速分析 I/O 的性能瓶颈四、I/O 性能优化应用程序优化文件系统优化磁盘优化总结前言虽然 I/O 的性能指标很多，相应的性能分析工具也有好几个，但理解了各种指标的含义后，你就会发现它们其实都有一定的关联。顺着这些关系往下理解，你就会发现，掌握这些常用的瓶颈分析思路，其实并不难。找出了 I/O 的性能瓶颈后，下一步要做的就是优

mysql i o 高_经典案例：磁盘I/O巨高排查全过程

weixin_39894914的博客

01-27

463

原标题：经典案例：磁盘I/O巨高排查全过程前言是什么原因导致线上数据库服务器磁盘I/O的util和iowait持续飚高？1. 问题描述朋友小明的线上数据库突发严重告警，业务方反馈写入数据一直堵住，很多锁超时回滚了，不知道怎么回事，就找到我了。不管3721，先采集现场的必要信息再说。a. 系统负载，主要是磁盘I/O的负载数据该服务器的磁盘是由6块2T SSD硬盘组成的RAID-5阵列。从上面的截...

cpu内存磁盘io过高问题处理

weixin_34214500的博客

07-11

893

CPU占用过高分析-----------------------------可以用top命令查看哪一个进程占用cpu高或者哪一个占用内存大top-13:55:32up59days,19:18,2users,loadaverage:0.00,0.04,0.09 Tasks:161total,1running,160sleepin...

磁盘util高问题排查

daiyudong2020的博客

07-21

7136

发现DB机器磁盘util100% 通过iostat命令，发现读写IO读写不超过500 通常，磁盘读写次数的QPS不低于几千，所以结论是磁盘故障。原文出自： End;

iowait过高问题查找及解决方案

一摩尔自由的博客

12-08

4386

一、iostat和iowait详细解说-查看磁盘瓶颈一、iostat基础　　%iowait并不能反应磁盘瓶颈 1、安装iostat 　　iostat的包名叫sysstat yum install sysstat -y 　　2、iowait实际测量的是cpu时间： %iowait = (cpu idle time)/(all cpu time) 　　说明：高速cpu会造成很高的iowait值，但这并不代表磁盘是系统的瓶颈。唯一能说明磁盘是系统瓶颈的方法，就是很高的read/write时间，一般来说超..

Linux 磁盘性能优化 ——磁盘性能及高I/O排查

0 error(s)

05-16

7941

文章目录磁盘容量查看：df如何衡量磁盘性能每块磁盘使用观测：iostat进程io观测：pidstat、iotop案例分析参考文献作者邮箱：2107810343@qq.com 时间：2021/05/16 14:39 实现环境：Linux 系统：ubuntu 18.04 CPU：2核内存大小：4G 磁盘容量查看：df 对于一个磁盘来说，最常见的性能问题就是磁盘空间不足，所以我们先介绍如何查看Linux的磁盘容量，在命令行输入以下命令： # -h表示讲输出内容转换为GB（或其他诸如MB）为单位，默认是字节数

服务器IO高问题定位和优化

zqzwzd的博客

04-10

5705

这次分享主要是针对大家经常面试中遇到的性能相关问题的可能猜测和定位、解决的方法，我在面试的过程中发现好多同学并没有一个清晰的思路本课程的主旨及目标 •导致服务器IO高的常见原因 •常见定位问题的方法 ======================================导致服务器IO高的常见原因================================= 简介：磁盘通常是计算机最慢的子系统，也是最容易出现性能瓶颈的地方，因为磁盘离CPU 距离最远而且CPU 访问磁盘要..

zabbix之Disk I/O is overloaded on {HOST.NAME}问题排查

灬紫荆灬

07-30

7294

I/O负载过高一直是一个很难定位的问题，下边通过一些命令或工具进行问题定位 1.top 通过top命令可以查看当前浪费在i/o等待（wa）上的cpu百分比，数字越高说明越多的cpu资源在等待i/o权限 2.iostat iostat可以看到哪块磁盘上的i/o读写高 iostat -x 2 5 （每隔两秒打印一次，共打印5次）注：在多数情况下应该忽略第一份报告，因为每次打印的报告将基于来自上一个间隔以来的时间，所以第一次打印是基于自上次开机以来这段时间的统计）此设备只有一块磁盘，作为例子代表性不

zabbix服务IO过高的问题

云时代-IT运维

05-30

2761

zabbix server 服务器运行一段时间后有两个进程会出现cpu负载和io瓶颈，主要是: zabbix busy housekeeper processes.in% zabbix busy history syncer processes,in% 出现这两个问题主要是表数据太大 history_uint，trends_uint，history主要是这三个表，解决方法： mysql>show variables ...

磁盘io使用率高问题排查

赵英超的博客

10-07

5865

例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度。rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；上面的例子中，我们可以看到磁盘sda以及它的各个分区的统计数据，当时统计的磁盘总TPS是39.29，下面是各个分区的TPS。

Mysql的磁盘IO的读过高的优化

xingnang2008的专栏

01-11

4220

最近几个站点出现负载过高，磁盘IO过高，通过iotop命令查看，发现进程为mysqld的读数据操作很高。基本上在200MB/s。已经到达了100%了。在网上找了好几天都是说binglog提交, set global sync_binlog=500; 当每进行500次事务提交之后，MySQL将进行一次fsync之类的磁盘同步指令来将binlog_cache中的数据强制写入磁盘。 set glo...

服务器磁盘 `I/O` 使用率100%，请描述你的排查思路和步骤。

最新发布

08-27

<think>嗯，用户需要排查服务器磁盘I/O使用率达到100%的问题。这是一个典型的运维故障场景，需要系统性地分析。用户身份可能是开发或运维人员，从引用内容看可能对Linux系统不太熟悉，但具备基本命令行操作能力。用户的核心需求很明确：获取可操作的排查步骤和解决方案。深层需求可能是希望快速恢复服务，同时避免数据丢失风险。从引用[1][3]看用户可能遇到过存储空间不足的问题，这次转向I/O性能瓶颈，说明ta的运维场景涉及多种存储类故障。先梳理排查逻辑：I/O 100%意味着磁盘成为系统瓶颈，常见于高并发写入、大数据查询或硬件故障。需要分三步走：确认现象、定位进程、分析行为。引用[2]提到TPS不高但I/O满载的情况值得注意，可能是特殊场景。具体工具选择上： - 全局监控用iostat最直观，能看await/util等关键指标 - 进程级用iotop/pidstat，比top更精准 - 文件级用lsof+strace组合，引用[3]的日志文件案例很典型 - 特殊场景要考虑page cache，引用[2]的dentry堆积问题解决方案需要区分临时处置和根治措施。临时方案如限流或进程重启要谨慎，特别是数据库类应用。根治方案要结合业务场景，比如日志轮转、查询优化等。用户引用[3]提到的rm删除空间不释放问题也要纳入注意事项。最后考虑生成相关问题。用户显然在系统运维领域持续遇到挑战，可以延伸I/O调度算法、云存储优化等方向。不过首次回复先聚焦基础排查，避免信息过载。</think>好的，排查服务器磁盘I/O使用率达到100%是一个常见的性能问题，会导致系统响应缓慢甚至无响应。以下是详细的排查步骤和解决方案思路： **核心思路：** 找到导致高 I/O 的源头（哪个进程？在读写哪些文件？读写模式是什么？），然后针对性地解决。 **排查步骤：1. 确认 I/O 瓶颈** * **`iostat` (来自 sysstat 包)：** 这是最核心的工具。执行命令： ```bash iostat -dx 1 5 ``` * `-d`: 显示磁盘统计信息。 * `-x`: 显示扩展统计信息（关键！）。 * `1`: 每秒刷新一次。 * `5`: 显示 5 次。 * **关键指标解读：** * **`%util`:** **这就是磁盘 I/O 使用率**。接近或达到 100% 确认存在瓶颈。 * **`await`:** 平均每次 I/O 请求的等待时间（毫秒）。值越高，I/O 队列越长，延迟越大。通常 `await` 显著升高伴随 `%util` 100%。 * **`r/s`, `w/s`:** 每秒的读、写请求次数。 * **`rkB/s`, `wkB/s`:** 每秒读、写的数据量（KB）。 * **`avgqu-sz`:** 平均 I/O 队列长度。大于 1 通常表示设备饱和。 * **`svctm`:** 平均每次 I/O 请求的服务时间（毫秒）。现代磁盘通常在 10ms 以下。 * **重点关注哪个磁盘设备（如 `sda`, `vdb`）的 `%util` 达到 100%。** **2. 定位高 I/O 进程** * **`iotop`:** 最直观的工具（需要 root 权限）。执行： ```bash iotop -oP ``` * `-o`: 仅显示正在进行 I/O 的进程。 * `-P`: 仅显示进程（不显示线程）。按 `O` 键可以切换排序方式（如按 I/O 百分比）。 * **查看 `IO>` 或 `DISK READ`, `DISK WRITE` 列，找出占用率最高的进程 (PID 和命令)。** * **`pidstat` (来自 sysstat 包)：** 提供更详细的进程级 I/O 统计。执行： ```bash pidstat -d 1 ``` * `-d`: 报告 I/O 统计。 * `1`: 每秒报告一次。 * **查看 `kB_rd/s`, `kB_wr/s`, `kB_ccwr/s` 列，找出读写量大的进程 (PID 和命令)。** * **`top` / `htop`:** 虽然不如前两个专业，但也能提供线索： * 在 `top` 中按 `Shift + I` 切换 I/O 模式（显示 `%wa` - 等待 I/O 的 CPU 时间百分比）。 * 在 `htop` 中，按 `F2` -> `Columns` -> 添加 `IO_READ_RATE` 和 `IO_WRITE_RATE` 列。 **3. 分析进程行为 (针对步骤 2 找到的高 I/O PID)** * **`lsof`:** 查看进程打开了哪些文件（包括正在读写的）。 ```bash lsof -p <PID> ``` * 查找 `REG` 类型（常规文件）且 SIZE/OFF 列显示数字在变化的文件，这些很可能就是 I/O 源头文件。 * **`strace` / `ltrace` (谨慎使用)：** 跟踪进程的系统调用或库函数调用，能看到具体的文件读写操作 (`read`, `write`, `open` 等)。在高负载下使用可能加剧问题。 ```bash strace -p <PID> -e trace=open,read,write,close ``` * **结合文件路径：** 分析步骤 3a 找到的文件路径： * 是日志文件吗？（如应用日志、数据库日志） * 是数据库文件吗？（如 MySQL 的 ibdata1, ib_logfile*, .ibd 文件） * 是临时文件吗？ * 是应用程序的数据文件吗？ **4. 检查文件系统和缓存 (辅助分析)** * **`free -h` 或 `cat /proc/meminfo`:** 查看内存使用，特别是 `buffers` 和 `cached` 的大小。Linux 会利用空闲内存缓存磁盘数据。如果缓存很大，说明系统在积极利用缓存，但高 I/O 可能意味着缓存命中率低或数据无法被缓存（如大量随机写）。 * **`vmstat 1`:** 查看系统整体状态： * `b` 列：等待 I/O 的进程数（大于 0 且持续存在说明有阻塞）。 * `si`, `so` 列：每秒从交换区读入/写入的内存量 (KB)。如果非零，说明发生了交换，会极大拖慢 I/O。 * **`dmesg | grep -i error` 或 `journalctl -p 3 -b`:** 查看内核日志和系统日志，是否有磁盘错误、文件系统错误、驱动问题等记录。 **5. 分析读写模式 (根据步骤 1, 2, 3 的信息)** * **是读密集型还是写密集型？** (看 `iostat` 的 `rkB/s` vs `wkB/s`，`pidstat`/`iotop` 的进程读写比例)。 * **是顺序读写还是随机读写？** 随机读写（尤其是小 I/O）对磁盘性能挑战更大。数据库操作、大量小文件访问通常是随机的。大文件传输、日志追加通常是顺序的。 * **是哪个应用程序？** 数据库？Web 服务器？备份任务？大数据处理？日志收集器？自定义应用？ **解决方案思路 (根据排查结果针对性处理)：** 1. **优化应用程序/服务 (最常见)：** * **调整日志级别和轮转策略：** 减少不必要的详细日志输出。确保日志文件能及时轮转（如使用 `logrotate`）并**正确清理旧日志**（参考引用[3]，避免仅用 `rm` 删除被打开的文件导致空间未释放，应使用 `truncate` 或 `echo > file` 或重启服务）。 * **优化数据库：** * 检查慢查询日志，优化低效 SQL。 * 检查索引是否合理。 * 调整 `innodb_io_capacity`, `innodb_flush_method` (MySQL InnoDB) 等与 I/O 相关的参数。 * 考虑分离数据和日志到不同物理磁盘。 * 评估是否使用了过多临时表或磁盘排序。 * **优化备份策略：** 避免在业务高峰进行全量备份。考虑增量备份或快照。确保备份任务不会耗尽磁盘 I/O。 * **优化代码逻辑：** 减少不必要的磁盘 I/O（如频繁读写小文件、未使用缓存）。批量处理读写操作。 2. **调整内核/文件系统参数 (需谨慎)：** * **调整 I/O 调度器：** 不同的调度器（`cfq`, `deadline`, `noop`, `kyber`, `mq-deadline`）对不同的负载（顺序/随机）有优化。例如，数据库常推荐 `deadline` 或 `noop` (对于高端 SSD)。 * 查看当前调度器：`cat /sys/block/<device>/queue/scheduler` * 临时修改：`echo deadline > /sys/block/<device>/queue/scheduler` * 永久修改需修改 `/etc/default/grub` 或使用 udev 规则。 * **调整虚拟内存参数：** 如 `vm.dirty_ratio`, `vm.dirty_background_ratio`。这些参数控制脏页（被修改但未写回磁盘的内存页）的比例。增大它们可以允许更多脏页累积，减少写 I/O 次数（但增加数据丢失风险）。**调整需非常谨慎，理解其含义。** * **调整文件系统挂载选项：** 如 `noatime`/`relatime` (减少访问时间更新带来的写操作)，`data=writeback` (ext4, 提高性能但增加风险) 等。 3. **资源隔离与限制：** * **`ionice`:** 在启动可能占用高 I/O 的进程（如备份）时，使用 `ionice` 降低其 I/O 优先级。 ```bash ionice -c2 -n7 /path/to/command # 设置空闲级别（最低优先级） ``` * **`cgroups` (cgroups v1 I/O 子系统或 cgroups v2 `io` 控制器)：** 更强大的方式，可以限制特定进程组（cgroup）的磁盘带宽或 IOPS（每秒 I/O 操作数）。适用于容器环境或需要严格隔离的场景。 4. **检查硬件和底层存储：** * **使用 `smartctl` (来自 smartmontools 包) 检查磁盘健康状态：** ```bash smartctl -a /dev/<device> # 如 /dev/sda ``` * 查看 `SMART Attributes` 和 `SMART Error Log`，关注 `Reallocated_Sector_Ct`, `Current_Pending_Sector`, `Uncorrectable_Error_Cnt` 等关键属性值是否异常高或阈值被触发。磁盘故障会导致 I/O 重试和性能骤降。 * **检查 RAID 状态：** 如果使用 RAID，检查是否有磁盘掉线或降级 (`cat /proc/mdstat`, `megacli` 等工具)。 * **评估存储性能：** 使用 `fio` 工具进行基准测试，了解磁盘的真实性能（顺序/随机，读/写，不同 I/O 大小和队列深度下的 IOPS 和带宽），对比当前负载是否超出其能力。 * **考虑升级硬件：** * 用 SSD 替换 HDD：这是解决随机 I/O 瓶颈最有效的方法。 * 增加磁盘数量：通过 RAID 0/10 或直接分离数据到不同物理盘来提高并行 I/O 能力。 * 增加内存：更大的内存意味着更大的磁盘缓存，能减少实际物理 I/O 次数。 5. **处理特定问题：** * **交换 (Swap) 导致 I/O：** 如果 `vmstat` 显示 `si`/`so` 非零，说明物理内存不足，系统在频繁使用交换空间。**根本解决方法是增加物理内存或优化应用程序内存使用。** 临时措施是降低 `vm.swappiness` 值 (如 `sysctl vm.swappiness=10`)，但这只是让系统更不愿意使用 swap，不能解决内存不足的本质。 * **文件系统缓存问题：** 如引用[2]提到的 `dentry`/`inode` 缓存占用过多内存 (`slabtop` 查看)，可能由海量小文件引起。重启能临时解决，但需优化应用或调整内核参数 (`vfs_cache_pressure`)。极端情况可能需要定期清理缓存（`sync; echo 3 > /proc/sys/vm/drop_caches`，**生产环境慎用，仅用于诊断，会清除所有缓存导致后续 I/O 陡增**）。 **总结流程：** 1. `iostat -dx 1 5` -> 确认 `%util` 100% 的设备。 2. `iotop -oP` 或 `pidstat -d 1` -> 定位高 I/O 进程 (PID)。 3. `lsof -p <PID>` -> 查看该进程正在读写哪些文件。 4. 分析文件类型、路径和应用程序行为 -> 确定根本原因（日志？数据库？备份？应用问题？硬件？）。 5. 针对原因实施解决方案 -> 优化应用/配置、调整参数、限制资源、检查硬件、升级硬件。 **关键提示：** * **备份数据：** 在进行任何可能影响数据的操作（尤其是修改内核参数、文件系统操作）前，务必备份重要数据。 * **理解风险：** 调整内核参数或文件系统选项可能带来稳定性风险或数据丢失风险，务必在测试环境验证并充分理解其含义。 * **监控：** 部署监控系统（如 Prometheus + Grafana + node_exporter）持续跟踪磁盘 I/O、内存、CPU 等关键指标，便于及时发现和预警问题。