机械硬盘的性能瓶颈简析

为什么硬盘上读取一个100MB大小的文件会比读取1000个100KB大小的文件用时会快?

    通常来说一个100MB的文件是存储在硬盘上可以连续读取的扇区上的,也就是说当硬盘需要读取这个文件时只需要进行一次寻址(为什么说是“通常”呢?因为前提是硬盘上至少要有一端连续空白的扇区,如果此时硬盘上碎片太多可能就找不到这样的连续空白区域了);而读取1000个文件时,由于这些文件的起始存储位不连续,所以每次都要进行寻址操作。寻址时间是评价机械硬盘性能的重要指标,这个指标和硬盘转数、磁头数有直接关系:

  • 硬盘转速越快的硬盘,在同样的寻址算法控制条件下将能够更快的将正确的扇区转动到磁头下方。但是硬盘转速也不能做得无限快,因为硬盘转速越快要求的磁面工艺、主马达工艺也就越高,并且产生的噪音、温度也会成几何级增加。现在民用级、商用级和工业级硬盘上最常采用三种转速选择:5400转/分、7200转/分和10000转/分。
  • 磁头数,现在的机械硬盘中一般都包含了多个盘片并且分别使用独立的磁头。这样做的主要作用是在硬盘密度不变的情况下增加机械硬盘的容量。实际上这样的做法也可以增加一定的硬盘性能,因为读取存储在不同磁面上的文件时,它们的寻道时间可以相对独立。但是其对性能的提示只能是有限的,因为这些盘片共享同一个主轴马达。

机械硬盘的工作原理导致了它的工作性能会远逊于内存,现在主流的7200转硬盘外部传输速度的理论峰值大概也就是200MB/s

那么问题又来了,天才的硬件工程师难道就没有办法增加机械硬盘读写性能了吗?

答案是否定的,硬件工程师为机械硬盘集成了缓存,并采用预读机制读取当前扇区的临近扇区。举个例子,当硬盘读取一个文件所在扇区时,会将这个扇区临近的若干扇区上的数据一同读取出来并存储到硬盘缓存中。这样做的原因是依据计算机科学中得一个著名原理:局部性原理。

局部性原理包括三层含义。时间局部性,如果一个信息项正在被访问,那么在近期它很可能被再次访问。空间局部性,在近期将要被使用的信息很可能与现在正在使用的信息在空间地址上是临近的。顺序局部性,在典型程序中,除转移类指令外,大部分指令是顺序进行的。局部性是所有高速缓存设计的基本原理依据。

局部性原理在硬盘硬件设备设计中被应用的依据是:当一个文件被读取时,在它临近扇区所存储的文件数据也将在近期被读取。所以硬盘会预先读取后者到缓存中,以便在不久的将来,这些数据被请求读取时直接从缓存中向外部设备输出文件数据。

局部性原理不止适合高速缓存这样的硬件设计,它也适用于软件设计:一个程序90%的时间运行在10%的代码上

另外,关于碎片的说明。扇区是硬盘上存储数据的最基本物理单元。注意,目前市场上无论哪个供应商提供的机械硬盘产品,每个物理扇区单元固定的存储容量都是512字节。只是根据硬盘密度不一样,单位磁面下的扇区数量也不一样。既然扇区是数据存储的基本单元,就意味着一次硬盘读写操作的最小数据量就是512字节。512字节太小了点?是的,很多时候操作系统层面请求读写操作的文件都会大于一个扇区的单位容量。那么在物理层面上就需要两个甚至更多个扇区来存储这个文件,操作系统层面会将物理硬盘上两个或者多个能够连续读取的扇区组成合并成一个区域,称之为“簇”。注意,一个簇在物理磁面的分布可能是不连续的,实际上各个硬盘生产商都会设置一个“跳跃因子”来确定能够连续读取的扇区。虽然扇面是硬件层面上机械磁盘读取数据的最小单元,但是“簇”才是操作系统层面上读取磁盘数据的最小单元。如果一个文件太小,不需要用完一个簇怎么办呢?没办法,它有需要使用至少一个簇的硬盘空间。也就是说,在操作系统存储一个文件时,即使一个簇没有占满,剩下的簇空间也不能再使用了,因此形成了“碎片”。

转载于:https://my.oschina.net/blacklands/blog/879528

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值