S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology; often written as SMART)是一个可以对硬盘(HDDS)和固盘(SSD)多种运行参数指标检测收集并实现对磁盘故障预判的系统。
当S.M.A.R.T系统预判到一个磁盘错误时,用户可能会选择替换磁盘来避免突发性故障和数据丢失,而生产磁盘的厂商则会根据S.M.A.R.T系统里的数据来找寻故障原因从而再下次成产设计中改善磁盘性能。
S.M.A.R.T研究背景:
磁盘故障问题基本包含有两种情况:
1.机械盘面磨损等机械性问题可能引起磁盘的IO响应慢,数据读写异常等问题,而这种情况下,对于磁盘故障的监控和预判变得更加合理。
2.另外一种是磁盘突然故障,没有任何报警和提示,这会让问题变棘手,因为不可预测性。追寻原因的话这可能是电子元器件本身质量或设计上不合理造成。
据统计,磁盘机械故障占据所有故障问题的60%。虽然故障导致的问题可能是灾难性的,但是大部分机械层面的故障问题会影响并导致磁盘的性能逐渐下降,而这种势头都可以在一些相对应的磁盘参数指标中体现,如温度上升,有噪声,数据读写出错,或者磁盘的坏块严重增加等。
Google在9个月的时间里,研究100,000块磁盘设备的SMART系统和实际磁盘故障问题的关联性。研究发现,对于磁盘SMART监控出现off-line uncorrectable error(SMART字段号:198)的磁盘的故障率是其它没有该现象的磁盘的