目录
一、背景
内核版本:linux 4.19
poll和select的区别不大,区别在于可以监控的描述符数量,select默认为1024(由glibc进行限制,通过宏__FD_SETSIZE进行限制),而poll则没有这个限制。
此外还有ppoll这个系统调用,可以等待纳秒级别的信号,以及可以不被其他信号(非指定信号,比如crtl + c)中断。一个使用ppoll轮询的进程,如果把ppoll的第四个参数sigmask设置为SIGINT,那么ctrl + c是无法结束的,只能等到ppoll超时。
本篇文章主要是还是给自己当笔记用的,主要分析都作为注释写到代码中了。
二、驱动开发中poll的用法
用户空间应编写程序,伪代码如下:
#include "poll.h"
// 打开设备文件
int fd = open("/dev/xxx", O_RDWR);
// 创建 struct polld 结构体,并为其中的成员赋值
struct pollfd fds[1];
fds[0].fd = fd; // 指定文件描述
fds[0].events = POLLIN; // 有数据可以读的时候返回
ret = poll(fds, 1, 5000);
// 情况1,只传入了一个描述符,就无所谓了,返回了>0的值就说明ok了
// =0表示超时,< 0则失败
if (ret > 0) {
// 如果poll有效,驱动给了返回值
ret = read(fd, &data, sizeof(data));
}
// 情况2,如果监听了多个描述符,要判断哪个设备发生了监听的事件
if (ret > 0) {
for(i=0; i< ARRAY_SIZE(fds); i++) {
// 每个描述符都要判断
if(pollfds[i].revents & POLLIN) {
// 做对应的处理
}
}
}
驱动中应实现对应的poll:
unsigned int imx6uirq_poll(struct file *filp, struct poll_table_struct *wait)
{
unsigned int mask = 0;
struct imx6uirq_dev *dev = (struct imx6uirq_dev *)filp->private_data;
// g, 此函数最终会调用传入的pt->_qproc,也就是__pollwait(),把当前current加入到等待队列dev->r_wait中
// g, 随后由do_poll()进行scheduel切换进程,开启睡眠
// g, 直到在某处调用wake_up_interruptible(&dev->r_wait),唤醒该进程
// g, 唤醒进程的实际工作是在wait_event绑定的回调函数pollwake()中做的,涉及到default_wake_function()->..->try_to_wake_up()
poll_wait(filp, &dev->r_wait, wait); /* 将等待队列头添加到poll_table中 */
if(atomic_read(&dev->releasekey)) {
/* 按键按下 */
mask = POLLIN | POLLRDNORM; /* 返回PLLIN */
}
return mask;
}
...
...
/* 设备操作函数 */
static struct file_operations imx6uirq_fops = {
.owner = THIS_MODULE,
.open = imx6uirq_open,
.read = imx6uirq_read,
.poll = imx6uirq_poll,
};
驱动的poll需要在某个设备事件(自己定义,可以是等待按键,也可以啥都不做直接返回也没问题,不过一般都是用来轮询数据有没有准备好)到来时,返回监听的事件,也就是POLLIN即可,就可以通知到用户层事件的发生,跳出poll的轮询。
三、poll()系统调用
关于系统调用(还在整理):Linux内核学习之 – ARMv8架构的系统调用
该系统调用的实现如下:
fs/select.c:
SYSCALL_DEFINE3(poll, struct pollfd __user *, ufds, unsigned int, nfds,
int, timeout_msecs)
{
struct timespec64 end_time, *to = NULL;
int ret;
if (timeout_msecs >= 0) {
to = &end_time;
// g, 将参数timeout_msecs转换到结构struct timespec
poll_select_set_timeout(to, timeout_msecs / MSEC_PER_SEC,
NSEC_PER_MSEC * (timeout_msecs % MSEC_PER_SEC));
}
ret = do_sys_poll(ufds, nfds, to);
// g, 当系统调用被其他信号中断时(此时并不是系统调用出错,而是被信号中断了)
if (ret == -EINTR) {
struct restart_block *restart_block;
restart_block = ¤t->restart_block;
restart_block->fn = do_restart_poll;
restart_block->poll.ufds = ufds;
restart_block->poll.nfds = nfds;
if (timeout_msecs >= 0) {
restart_block->poll.tv_sec = end_time.tv_sec;
restart_block->poll.tv_nsec = end_time.tv_nsec;
restart_block->poll.has_timeout = 1;
} else
restart_block->poll.has_timeout = 0;
// g, 返回了该错误码(ERESTART_RESTARTBLOCK),该错误码会使内核认为此次系统调用应该重启(不会返回到用户空间)
// g, 该restart_block会被存入current->restart_block中
// g, note 什么时候重启?我看好像是在系统调用退出执行do_notify_resume()->do_signal()时,若该信号设置了SA_RESTART,则会修改regs->pc,重新指向系统调用指令,也就是说退出后会重新执行一遍系统调用。
ret = -ERESTART_RESTARTBLOCK;
}
return ret;
}
该系统调用的执行过程可以分为三步:
- 转换用户传入的超时时间为struct timespec64
- 调用do_sys_poll()函数,这是处理poll的主函数
- 若在执行该系统调用时被其他信号打断,则设置重启操作。
第一步很好理解。第三步是系统调用重新执行相关的操作,涉及到系统调用退出时在entry.S中要执行的一个函数do_notify_resume(),该函数比较复杂,是否需要启动进程调度(need_reseched),是否重启系统调用,调试暂停(拦截内核的信号,暂停在这里并通知调试器)等都会在这里处理,暂时不进行分析,以后有空单独写一篇笔记。
真正起作用的是do_sys_poll()函数:
fs/select.c:
static int do_sys_poll(struct pollfd __user *ufds, unsigned int nfds,
struct timespec64 *end_time)
{
struct poll_wqueues table;
int err = -EFAULT, fdcount, len, size;
/* Allocate small arguments on the stack to save memory and be
faster - use long to make sure the buffer is aligned properly
on 64 bit archs to avoid unaligned access */
long stack_pps[POLL_STACK_ALLOC/sizeof(long)]; // g, 256/sizeof(long) = 256 / 8 = 32,分配了一个long[32],可以认为是分配了一段内存(内核栈中分配的)
struct poll_list *const head = (struct poll_list *)stack_pps; // g, 一个struct poll_list的大小为:int + int, 是一个long
struct poll_list *walk = head;
unsigned long todo = nfds; // g, 用户空间调用poll函数的第二个参数,要监听的文件个数
if (nfds > rlimit(RLIMIT_NOFILE)) // g, 这里明显对poll()可以监控的文件数量做了一个限制,也就是进程可以open的最大文件数量,那为什么都说poll()没有数量限制呢?
return -EINVAL;
// g, 下面的拷贝过程可以概括为:
// 1. 创建一个struct poll_list链表
// 2. 链表中的每一个节点,都会保存一部分用户传入的struct poll_fd,每一个节点占用内存不得超过一个PAGE_SIZE(内核页)。若超过了PAGE_SIZE,则重新创建一个结点插入到链表中,并为其申请所需的内存