关于ulimit的深入思考

最新推荐文章于 2025-10-26 09:59:27 发布

转载最新推荐文章于 2025-10-26 09:59:27 发布 · 1.3k 阅读

文章标签：

#list #linux #socket #struct #asynchronous #平台

网络编程专栏收录该内容

6 篇文章

订阅专栏

在我总结ulimit之前，让我们回顾一下，为什么要修改ulimit的值？

QUOTE:
2.1. 如何管理多个连接？
“我想同时监控一个以上的文件描述符(fd)/连接(connection)/流(stream)，应该怎么办？”

使用 select() 或 poll() 函数。

注意：select() 在BSD中被引入，而poll()是SysV STREAM流控制的产物。因此，这里就有了平台移植上的考虑：纯粹的BSD系统可能仍然缺少poll()，而早一些的SVR3系统中可能没有select()，尽管在SVR4中将其加入。目前两者都是POSIX. 1g标准，（译者注：因此在Linux上两者都存在）

select()和poll()本质上来讲做的是同一件事，只是完成的方法不一样。两者都通过检验一组文件描述符来检测是否有特定的时间将在上面发生并在一定的时间内等待其发生。

[重要事项：无论select()还是poll()都不对普通文件起很大效用，它们着重用于套接口(socket)、管道(pipe)、伪终端(pty)、终端设备(tty)和其他一些字符设备，但是这些操作都是系统相关(system-dependent)的。]

2.1.1. 我如何使用select()函数？
select()函数的接口主要是建立在一种叫'fd_set'类型的基础上。它('fd_set') 是一组文件描述符(fd)的集合。由于fd_set类型的长度在不同平台上不同，因此应该用一组标准的宏定义来处理此类变量：

fd_set set;
FD_ZERO(&set);     /* 将set清零 */
FD_SET(fd, &set);   /* 将fd加入set */
FD_CLR(fd, &set);   /* 将fd从set中清除 */
FD_ISSET(fd, &set); /* 如果fd在set中则真　*/

在过去，一个fd_set通常只能包含少于等于32个文件描述符，因为fd_set其实只用了一个int的比特矢量来实现，在大多数情况下，检查fd_set能包括任意值的文件描述符是系统的责任，但确定你的fd_set到底能放多少有时你应该检查/修改宏FD_SETSIZE的值。*这个值是系统相关的*，同时检查你的系统中的select() 的man手册。有一些系统对多于1024个文件描述符的支持有问题。[译者注： Linux就是这样的系统！你会发现sizeof(fd_set)的结果是128(*8 = FD_SETSIZE=1024)　尽管很少你会遇到这种情况。]

select的基本接口十分简单：

int select(int nfds, fd_set *readset, fd_set *writeset,
fd_set *exceptset, struct timeval *timeout);

其中：

nfds
需要检查的文件描述符个数，数值应该比是三组fd_set中最大数
更大，而不是实际文件描述符的总数。
readset
用来检查可读性的一组文件描述符。
writeset
用来检查可写性的一组文件描述符。
exceptset
用来检查意外状态的文件描述符。(注：错误并不是意外状态)
timeout
NULL指针代表无限等待，否则是指向timeval结构的指针，代表最
长等待时间。(如果其中tv_sec和tv_usec都等于0, 则文件描述符
的状态不被影响，但函数并不挂起)

函数将返回响应操作的对应操作文件描述符的总数，且三组数据均在恰当位置被修改，只有响应操作的那一些没有修改。接着应该用FD_ISSET宏来查找返回的文件描述符组。

这里是一个简单的测试单个文件描述符可读性的例子：

int isready(int fd)
{
      int rc;
      fd_set fds;
      struct timeval tv;

      FD_ZERO(&fds);
      FD_SET(fd,&fds);
      tv.tv_sec = tv.tv_usec = 0;

    rc = select(fd+1, &fds, NULL, NULL, &tv);
      if (rc < 0)
      return -1;

      return FD_ISSET(fd,&fds) ? 1 : 0;
}

当然如果我们把NULL指针作为fd_set传入的话，这就表示我们对这种操作的发生不感兴趣，但select() 还是会等待直到其发生或者超过等待时间。

[译者注：在Linux中，timeout指的是程序在非sleep状态中度过的时间，而不是实际上过去的时间，这就会引起和非Linux平台移植上的时间不等问题。移植问题还包括在System V风格中select()在函数退出前会把timeout设为未定义的 NULL状态，而在BSD中则不是这样，Linux在这点上遵从System V，因此在重复利用timeout指针问题上也应该注意。]

2.1.2. 我如何使用poll()？
poll()接受一个指向结构'struct pollfd'列表的指针，其中包括了你想测试的文件描述符和事件。事件由一个在结构中事件域的比特掩码确定。当前的结构在调用后将被填写并在事件发生后返回。在SVR4(可能更早的一些版本)中的 "poll.h"文件中包含了用于确定事件的一些宏定义。事件的等待时间精确到毫秒 (但令人困惑的是等待时间的类型却是int)，当等待时间为0时，poll()函数立即返回，-1则使poll()一直挂起直到一个指定事件发生。下面是pollfd的结构。

struct pollfd {
      int fd;     /* 文件描述符 */
      short events; /* 等待的事件 */
      short revents; /* 实际发生了的事件 */
};

于select()十分相似，当返回正值时，代表满足响应事件的文件描述符的个数，如果返回0则代表在规定事件内没有事件发生。如发现返回为负则应该立即查看 errno，因为这代表有错误发生。

如果没有事件发生，revents会被清空，所以你不必多此一举。

这里是一个例子

/* 检测两个文件描述符，分别为一般数据和高优先数据。如果事件发生
则用相关描述符和优先度调用函数handler()，无时间限制等待，直到
错误发生或描述符挂起。*/

#include <stdlib.h>
#include <stdio.h>

#include <sys/types.h>
#include <stropts.h>
#include <poll.h>

#include <unistd.h>
#include <errno.h>
#include <string.h>

#define NORMAL_DATA 1
#define HIPRI_DATA 2

int poll_two_normal(int fd1,int fd2)
{
struct pollfd poll_list[2];
int retval;

    poll_list[0].fd = fd1;
    poll_list[1].fd = fd2;
    poll_list[0].events = POLLIN|POLLPRI;
    poll_list[1].events = POLLIN|POLLPRI;

    while(1)
    {
      retval = poll(poll_list,(unsigned long)2,-1);
      /* retval 总是大于0或为-1，因为我们在阻塞中工作 */

      if(retval < 0)
      {
          fprintf(stderr,"poll错误: %s ",strerror(errno));
          return -1;
      }

      if(((poll_list[0].revents&POLLHUP) == POLLHUP) ||
        ((poll_list[0].revents&POLLERR) == POLLERR) ||
        ((poll_list[0].revents&POLLNVAL) == POLLNVAL) ||
        ((poll_list[1].revents&POLLHUP) == POLLHUP) ||
        ((poll_list[1].revents&POLLERR) == POLLERR) ||
        ((poll_list[1].revents&POLLNVAL) == POLLNVAL))
        return 0;

      if((poll_list[0].revents&POLLIN) == POLLIN)
        handle(poll_list[0].fd,NORMAL_DATA);
      if((poll_list[0].revents&POLLPRI) == POLLPRI)
        handle(poll_list[0].fd,HIPRI_DATA);
      if((poll_list[1].revents&POLLIN) == POLLIN)
        handle(poll_list[1].fd,NORMAL_DATA);
      if((poll_list[1].revents&POLLPRI) == POLLPRI)
        handle(poll_list[1].fd,HIPRI_DATA);
    }
}

2.1.3. 我是否可以同时使用SysV IPC和select()/poll()？
*不能。* (除非在AIX上，因为它用一个无比奇怪的方法来实现这种组合)

一般来说，同时使用select()或poll()和SysV 消息队列会带来许多麻烦。SysV IPC的对象并不是用文件描述符来处理的，所以它们不能被传递给select()和 poll()。这里有几种解决方法，其粗暴程度各不相同：

完全放弃使用SysV IPC。 :-)

用fork()，然后让子进程来处理SysV IPC，然后用管道或套接口和父进程说话。父进程则使用select()。

同上，但让子进程用select()，然后和父亲用消息队列交流。

安排进程发送消息给你，在发送消息后再发送一个信号。*警告*：要做好这个并不简单，非常容易写出会丢失消息或引起死锁的程序。

另外还有其他方法。
比较彻底的方法是使用epoll

QUOTE:
Linux2.6内核epoll介绍(0.1版本)- -

[作者]：滕昱,2005/3/30,0.1版本

(1)导言：

首先，我强烈建议大家阅读Richard Stevens著作《TCP/IP Illustracted Volume 1,2,3》和《UNIX Network Programming Volume 1,2》。虽然他离开我们大家已经5年多了，但是他的书依然是进入网络编程的最直接的道路。其中的3卷的《TCP/IP Illustracted》卷1是必读－如果你不了解tcp协议各个选项的详细定义，你就失去了优化程序重要的一个手段。卷2,3可以选读一下。比如卷2讲解的是4.4BSD内核TCP/IP协议栈实现----这个版本的协议栈几乎影响了现在所有的主流os，但是因为年代久远，内容不一定那么vogue.在这里我多推荐一本《The Linux Networking Architecture--Design and Implementation of Network Protocols in the Linux Kernel》，以2.4内核讲解Linux TCP/IP实现，相当不错.作为一个现实世界中的实现，很多时候你必须作很多权衡，这时候参考一个久经考验的系统更有实际意义。举个例子,linux内核中sk_buff结构为了追求速度和安全，牺牲了部分内存，所以在发送TCP包的时候，无论应用层数据多大,sk_buff最小也有272的字节.

其实对于socket应用层程序来说，《UNIX Network Programming Volume 1》意义更大一点.2003年的时候，这本书出了最新的第3版本，不过主要还是修订第2版本。其中第6章《I/O Multiplexing》是最重要的。Stevens给出了网络IO的基本模型。在这里最重要的莫过于select模型和Asynchronous I/O模型.从理论上说，AIO似乎是最高效的，你的IO操作可以立即返回，然后等待os告诉你IO操作完成。但是一直以来，如何实现就没有一个完美的方案。最著名的windows完成端口实现的AIO,实际上也是内部用线程池实现的罢了，最后的结果是IO有个线程池，你应用也需要一个线程池......很多文档其实已经指出了这带来的线程context-switch带来的代价。

在linux平台上，关于网络AIO一直是改动最多的地方，2.4的年代就有很多AIO内核patch,最著名的应该算是SGI那个。但是一直到2.6内核发布，网络模块的AIO一直没有进入稳定内核版本(大部分都是使用用户线程模拟方法，在使用了NPTL的linux上面其实和windows的完成端口基本上差不多了)。2.6内核所支持的AIO特指磁盘的AIO---支持io_submit(),io_getevents()以及对Direct IO的支持(就是绕过VFS系统buffer直接写硬盘，对于流服务器在内存平稳性上有相当帮助)。

所以，剩下的select模型基本上就是我们在linux上面的唯一选择，其实，如果加上no-block socket的配置，可以完成一个"伪"AIO的实现，只不过推动力在于你而不是os而已。不过传统的select/poll函数有着一些无法忍受的缺点，所以改进一直是2.4-2.5开发版本内核的任务，包括/dev/poll，realtime signal等等。最终，Davide Libenzi开发的epoll进入2.6内核成为正式的解决方案

(2)epoll的优点

<1>支持一个进程打开大数目的socket描述符(FD)

select最不能忍受的是一个进程所打开的FD是有一定限制的，由FD_SETSIZE设置，默认值是2048。对于那些需要支持的上万连接数目的IM服务器来说显然太少了。这时候你一是可以选择修改这个宏然后重新编译内核，不过资料也同时指出这样会带来网络效率的下降，二是可以选择多进程的解决方案(传统的Apache方案)，不过虽然linux上面创建进程的代价比较小，但仍旧是不可忽视的，加上进程间数据同步远比不上线程间同步的高效，所以也不是一种完美的方案。不过epoll则没有这个限制，它所支持的FD上限是最大可以打开文件的数目，这个数字一般远大于2048,举个例子,在1GB内存的机器上大约是10万左右，具体数目可以cat /proc/sys/fs/file-max察看,一般来说这个数目和系统内存关系很大。

<2>IO效率不随FD数目增加而线性下降

传统的select/poll另一个致命弱点就是当你拥有一个很大的socket集合，不过由于网络延时，任一时间只有部分的socket是"活跃"的，但是select/poll每次调用都会线性扫描全部的集合，导致效率呈现线性下降。但是epoll不存在这个问题，它只会对"活跃"的socket进行操作---这是因为在内核实现中epoll是根据每个fd上面的callback函数实现的。那么，只有"活跃"的socket才会主动的去调用callback函数，其他idle状态socket则不会，在这点上，epoll实现了一个"伪"AIO，因为这时候推动力在os内核。在一些benchmark中，如果所有的socket基本上都是活跃的---比如一个高速LAN环境，epoll并不比select/poll有什么效率，相反，如果过多使用epoll_ctl,效率相比还有稍微的下降。但是一旦使用idle connections模拟WAN环境,epoll的效率就远在select/poll之上了。

<3>使用mmap加速内核与用户空间的消息传递。

这点实际上涉及到epoll的具体实现了。无论是select,poll还是epoll都需要内核把FD消息通知给用户空间，如何避免不必要的内存拷贝就很重要，在这点上，epoll是通过内核于用户空间mmap同一块内存实现的。而如果你想我一样从2.5内核就关注epoll的话，一定不会忘记手工mmap这一步的。

<4>内核微调

这一点其实不算epoll的优点了，而是整个linux平台的优点。也许你可以怀疑linux平台，但是你无法回避linux平台赋予你微调内核的能力。比如，内核TCP/IP协议栈使用内存池管理sk_buff结构，那么可以在运行时期动态调整这个内存pool(skb_head_pool)的大小---通过echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函数的第2个参数(TCP完成3次握手的数据包队列长度)，也可以根据你平台内存大小动态调整。更甚至在一个数据包面数目巨大但同时每个数据包本身大小却很小的特殊系统上尝试最新的NAPI网卡驱动架构。

(3)epoll的使用

令人高兴的是，2.6内核的epoll比其2.5开发版本的/dev/epoll简洁了许多，所以，大部分情况下，强大的东西往往是简单的。唯一有点麻烦是epoll有2种工作方式:LT和ET。

LT(level triggered)是缺省的工作方式，并且同时支持block和no-block socket.在这种做法中，内核告诉你一个文件描述符是否就绪了，然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作，内核还是会继续通知你的，所以，这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表．

ET(edge-triggered)是高速工作方式，只支持no-block socket。在这种模式下，当描述符从未就绪变为就绪时，内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪，并且不会再为那个文件描述符发送更多的就绪通知，直到你做了某些操作导致那个文件描述符不再为就绪状态了(比如，你在发送，接收或者接收请求，或者发送接收的数据少于一定量时导致了一个EWOULDBLOCK 错误）。但是请注意，如果一直不对这个fd作IO操作(从而导致它再次变成未就绪)，内核不会发送更多的通知(only once),不过在TCP协议中，ET模式的加速效用仍需要更多的benchmark确认。

epoll只有epoll_create,epoll_ctl,epoll_wait 3个系统调用，具体用法请参考http://www.xmailserver.org/linux-patches/nio-improve.html ，
在http://www.kegel.com/rn/也有一个完整的例子，大家一看就知道如何使用了

(4)Leader/follower模式线程pool实现，以及和epoll的配合

.....未完成，主要是要避免过多的epoll_ctl调用,以及尝试使用EPOLLONESHOT加速......

(5)benchmark

.......未完成
修改内核来提高FD＿SETSIZE的方法，网上到处都有，过程就不多说了，主要起作用的文件是:
1)修改/usr/src/linux/include/linux/posix_types.h
    设置fd_set支持的最大数量
    #define __FD_SETSIZE 1024 --->; 65536

2)修改/usr/src/linux/include/linux/fs.h
    设置最大打开文件数量（TCP连接数量）
    #define INR_OPEN 1024 --->; 65536
    #define NR_FILE 8192 --->; 65536
    #define NR_RESERVED_FILES 10 --->; 128

3)修改/usr/src/linux/include/net/tcp.h
    设置TIMEOUT的时间为1秒
    #define TCP_TIMEWAIT_LEN (60*HZ) 60 --->; 1*HZ
    设置在backlog队列里的半连接的重试次数，每次都会花相应的时间，本质上也是减少重试时间
    #define TCP_SYNACK_RETRIES 5 --->; 3

修改后重新编译内核。

接下去是最重要的部分，在网上总有这样的问题：

QUOTE:
不知道为什么
我编译后
还是不行
ulimit显示还是1024
是不是错了？
能否告知具体做法？我是菜鸟，不好意思！谢谢了！

QUOTE:
本人经过编译内核，open files 已经解决(ulimit -a显示)，但在程序使用中提示open files 还是1024，请问个位高手，这是何故？我修改了 linux/posix_types.h中得__FD_SETSIZE
linux/fs.h中得INR_OPEN
那么你就有必要看这篇文章，让我详细的说明一下：
1。能够影响ulimit的参数会有这几个文件，除了/etc/profile,/etc/init.d/functions,/etc/security/limits.conf几个系统默认文件外，以及任何写入的ulimit命令的脚本，如用户目录下的.bash_profile文件。
2。ulimit是随着进程的启动而生效的，它只能影响当前父进程以及由它衍生出来的子进程，一旦父进程结束，ulimit的值就将使用系统默认值。
3。进程启动所获得的ulimit值与用户登录进去用ulimit -a所查看的值是两个概念。这一点可能不太明白，因为linux启动的时候会启动init这个程序，调用
inittab->rc.sysinit->rcx.d->rc.local->minigetty开始侦听，因此进程启动时的ulimit只是在rcx.d下的启动脚本中设置，并在进程中继承，而用户登录系统时，会去读取/etc/profile配置文件，因而无关，这就是为什么那么多人迷惑的地方。
那么如何判断程序到底是得到了多少文件句柄呢？我们可以用GetMaxHandles这个函数而获得：GetMaxHandles，现在你可以在程序中写入一段代码把数字打印出来就明白了。