Linux内核学习之 -- 系统调用poll()分析笔记

一、背景

内核版本:linux 4.19

poll和select的区别不大,区别在于可以监控的描述符数量,select默认为1024(由glibc进行限制,通过宏__FD_SETSIZE进行限制),而poll则没有这个限制。

此外还有ppoll这个系统调用,可以等待纳秒级别的信号,以及可以不被其他信号(非指定信号,比如crtl + c)中断。一个使用ppoll轮询的进程,如果把ppoll的第四个参数sigmask设置为SIGINT,那么ctrl + c是无法结束的,只能等到ppoll超时。

本篇文章主要是还是给自己当笔记用的,主要分析都作为注释写到代码中了。

二、驱动开发中poll的用法

用户空间应编写程序,伪代码如下:

	#include "poll.h"
	// 打开设备文件
	int fd = open("/dev/xxx", O_RDWR);

	// 创建 struct polld 结构体,并为其中的成员赋值
	struct pollfd fds[1];
	fds[0].fd = fd; 			// 指定文件描述
	fds[0].events = POLLIN; 	// 有数据可以读的时候返回

	ret = poll(fds, 1, 5000);
	
	// 情况1,只传入了一个描述符,就无所谓了,返回了>0的值就说明ok了
	// =0表示超时,< 0则失败
	if (ret > 0) {
   					// 如果poll有效,驱动给了返回值
		ret = read(fd, &data, sizeof(data));
	}
	
	// 情况2,如果监听了多个描述符,要判断哪个设备发生了监听的事件
	if (ret > 0) {
   						
		for(i=0; i< ARRAY_SIZE(fds); i++) {
   			// 每个描述符都要判断
			if(pollfds[i].revents & POLLIN) {
   
				// 做对应的处理
			}
		}
	}

驱动中应实现对应的poll:

unsigned int imx6uirq_poll(struct file *filp, struct poll_table_struct *wait)
{
   
	unsigned int mask = 0;
	struct imx6uirq_dev *dev = (struct imx6uirq_dev *)filp->private_data;

	// g, 此函数最终会调用传入的pt->_qproc,也就是__pollwait(),把当前current加入到等待队列dev->r_wait中
	// g, 随后由do_poll()进行scheduel切换进程,开启睡眠
	// g, 直到在某处调用wake_up_interruptible(&dev->r_wait),唤醒该进程
	// g, 唤醒进程的实际工作是在wait_event绑定的回调函数pollwake()中做的,涉及到default_wake_function()->..->try_to_wake_up()
	poll_wait(filp, &dev->r_wait, wait);	/* 将等待队列头添加到poll_table中 */
	
	if(atomic_read(&dev->releasekey)) {
   		/* 按键按下 */
		mask = POLLIN | POLLRDNORM;			/* 返回PLLIN */
	}
	return mask;
}
...
...
/* 设备操作函数 */
static struct file_operations imx6uirq_fops = {
   
	.owner = THIS_MODULE,
	.open = imx6uirq_open,
	.read = imx6uirq_read,
	.poll = imx6uirq_poll,
};

驱动的poll需要在某个设备事件(自己定义,可以是等待按键,也可以啥都不做直接返回也没问题,不过一般都是用来轮询数据有没有准备好)到来时,返回监听的事件,也就是POLLIN即可,就可以通知到用户层事件的发生,跳出poll的轮询。

三、poll()系统调用

关于系统调用(还在整理):Linux内核学习之 – ARMv8架构的系统调用

该系统调用的实现如下:

fs/select.c:
SYSCALL_DEFINE3(poll, struct pollfd __user *, ufds, unsigned int, nfds,
		int, timeout_msecs)
{
   
	struct timespec64 end_time, *to = NULL;
	int ret;

	if (timeout_msecs >= 0) {
   
		to = &end_time;
		// g, 将参数timeout_msecs转换到结构struct timespec
		poll_select_set_timeout(to, timeout_msecs / MSEC_PER_SEC,
			NSEC_PER_MSEC * (timeout_msecs % MSEC_PER_SEC));
	}

	ret = do_sys_poll(ufds, nfds, to);

	// g, 当系统调用被其他信号中断时(此时并不是系统调用出错,而是被信号中断了)
	if (ret == -EINTR) {
   
		struct restart_block *restart_block;

		restart_block = &current->restart_block;
		restart_block->fn = do_restart_poll;
		restart_block->poll.ufds = ufds;
		restart_block->poll.nfds = nfds;

		if (timeout_msecs >= 0) {
   
			restart_block->poll.tv_sec = end_time.tv_sec;
			restart_block->poll.tv_nsec = end_time.tv_nsec;
			restart_block->poll.has_timeout = 1;
		} else
			restart_block->poll.has_timeout = 0;

		// g, 返回了该错误码(ERESTART_RESTARTBLOCK),该错误码会使内核认为此次系统调用应该重启(不会返回到用户空间)
		// g, 该restart_block会被存入current->restart_block中
		// g, note 什么时候重启?我看好像是在系统调用退出执行do_notify_resume()->do_signal()时,若该信号设置了SA_RESTART,则会修改regs->pc,重新指向系统调用指令,也就是说退出后会重新执行一遍系统调用。
		ret = -ERESTART_RESTARTBLOCK;		
	}
	return ret;
}

该系统调用的执行过程可以分为三步:

  1. 转换用户传入的超时时间为struct timespec64
  2. 调用do_sys_poll()函数,这是处理poll的主函数
  3. 若在执行该系统调用时被其他信号打断,则设置重启操作。

第一步很好理解。第三步是系统调用重新执行相关的操作,涉及到系统调用退出时在entry.S中要执行的一个函数do_notify_resume(),该函数比较复杂,是否需要启动进程调度(need_reseched),是否重启系统调用,调试暂停(拦截内核的信号,暂停在这里并通知调试器)等都会在这里处理,暂时不进行分析,以后有空单独写一篇笔记。

真正起作用的是do_sys_poll()函数:

fs/select.c:
static int do_sys_poll(struct pollfd __user *ufds, unsigned int nfds,
		struct timespec64 *end_time)
{
   
	struct poll_wqueues table;
 	int err = -EFAULT, fdcount, len, size;
	/* Allocate small arguments on the stack to save memory and be
	   faster - use long to make sure the buffer is aligned properly
	   on 64 bit archs to avoid unaligned access */
	long stack_pps[POLL_STACK_ALLOC/sizeof(long)];					// g, 256/sizeof(long) = 256 / 8 = 32,分配了一个long[32],可以认为是分配了一段内存(内核栈中分配的)
	struct poll_list *const head = (struct poll_list *)stack_pps; 	// g, 一个struct poll_list的大小为:int + int, 是一个long
 	struct poll_list *walk = head;
 	unsigned long todo = nfds;										// g, 用户空间调用poll函数的第二个参数,要监听的文件个数

	if (nfds > rlimit(RLIMIT_NOFILE))				// g, 这里明显对poll()可以监控的文件数量做了一个限制,也就是进程可以open的最大文件数量,那为什么都说poll()没有数量限制呢?
		return -EINVAL;

	// g, 下面的拷贝过程可以概括为:
	// 1. 创建一个struct poll_list链表
	// 2. 链表中的每一个节点,都会保存一部分用户传入的struct poll_fd,每一个节点占用内存不得超过一个PAGE_SIZE(内核页)。若超过了PAGE_SIZE,则重新创建一个结点插入到链表中,并为其申请所需的内存
	
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值