Glusterfs目录ls性能优化方案分析

最新推荐文章于 2025-07-22 22:35:08 发布

转载最新推荐文章于 2025-07-22 22:35:08 发布 · 1.1k 阅读

本文探讨了GlusterFS在ls目录性能上的优化方案，包括减少元数据操作、并发及异步处理等策略，旨在提升文件系统爬虫、rsync等场景下的性能表现。

Glusterfs目录ls性能优化方案分析目的和优化思路讨论了glusterfs对文件系统爬虫rsync／ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作，减少fuse client的负载，减少req的网络轮询次数，减少一次网络通信时间，缓存预抓取，并发，异步，bulk 传输fuse readdirpluscentos 6.4最新内核，支持fuse readdirplus。微调mount timeout参数。FUSE: Adaptive NFS-like readdirplus support http://lwn.net/Articles/532705/?format=printablehttp://sourceforge.net/p/fuse/mailman/message/29562240/readdir-ahead这个已经合并到3.5release以后了。主要进行了单线程ls顺序目录读的进行优化。通过在opendir时（在执行回调时）去提前抓取目录项作为缓存，同时也会在glusterfs readdirplus支持（内核和glusterfs fuse都支持）的情况下，抓取目录项的inode属性和扩展属性，readdir（p）时可以直接返回或者此时抓取目录项缓存。基于fuse readdirplus性能会更加优化。基于fd生命周期进行的缓存。功能还很不强大，需要强化。FUSE_AUTO_INVAL_DATA根据内核FUSE_AUTO_INVAL_DATA支持，启用--fopen-keep-cache mount选项。新内核版本支持。 glusterfs fuse默认行为是写同步写到fuse文件内核，读文件从page cache中读。当打开一个文件时，失效原来的file的page cache。启用此选项后，就可以根据需要，如果原来file page cache 内容没变，就不进行失效操作。quick－readglusterfs3.4把quick-read（3.3就这一个translaotr）分解为openbehind和quick-read。原来设计不管操作文件的目的是什么，都要获取真正的fd。重构后，可以根据文件操作目的，如果是修改文件内容，就在背景打开文件并进行操作。如果仅仅是fstat等类似操作，就利用匿名fd来进行，不会等待真正的fd。这样根据操作目的，优化了性能。在lookup时根据需要，设置xdata key，在posix xl时就抓取文件内容。read时就返回文件内容。md－cache主要是inode attr和xattr在readdir （p）时抓取。lookup只抓取当时操作的目录或文件，而不是目录项。这个可以对ls的时候对stat和扩展属性导致延迟进行的优化。但目前我们一般关闭selinux和acl扩展属性支持，所有扩展属性的ls优化暂时不需要。其他可能影响的有待分析io-threads 服务器和客户端设置libaioscatter-gather IO进一步的优化方向fuse内核当前支持4k readdir buffer大小。可以修改内核代码支持较大chunk的buffer。readdir-ahead就是用一个glusterfs rpc 128k buffer进行了bulk获取，但也仅仅是在用户空间进行了预抓取。Brian Foster进行了这方面的优化实验。强化readdir-ahead,做成一个强大的client缓存架构，先做目录项缓存，后面再考虑其他的。多线程，非顺序目录读的情况缓存基于inode，进行持久缓存Xavier Hernandez提出了取代inodelk／entrylk的一种无锁架构，有助于在client实现一个强大的缓存。目前社区已经进行了一次讨论缓存架构的头脑风暴。正在跟进。dht读目录本来就是顺序（一个一个brick进行读取），应该分析是否可以放宽这样的限制小文件合并为大文件的transtlaotr。这个可以参考hystack和tfs的实现。参考hdfs的中央缓存架构，不在client做真正的缓存，而在brick端缓存，client只做路由。或者client和brick都做缓存。分层存储。这个glusters 已经在开始做了。Last updated 2014-05-02 13:54:31 CST