Linux套接字与虚拟文件系统（2）：操作和销毁

最新推荐文章于 2023-08-20 08:11:51 发布

转载最新推荐文章于 2023-08-20 08:11:51 发布 · 841 阅读

《UNIX环境高级编程》学习笔记专栏收录该内容

101 篇文章

订阅专栏

本文详细解析了Linux套接字如何通过虚拟文件系统（VFS）进行读写操作及销毁过程，包括从系统调用到特定协议实现的路径追踪。

转载自：http://www.cppblog.com/qinqing1984/archive/2015/05/03/210522.html

Linux套接字与虚拟文件系统（2）：操作和销毁

接上篇初始化与创建，本篇阐述Socket操作和销毁两部分的实现。

Socket操作

系统调用read(v)、write(v)是用户空间读写socket的一种方法，为了弄清楚它们是怎么通过VFS将请求转发到特定协议的实现，下面以read为例（write同理），并假定文件描述符对应的是IPv4 TCP类型的socket，来跟踪它的执行流程。首先来看下sys_read的代码，定义在fs/read_write.c中。

SYSCALL_DEFINE3( read , unsigned int , fd, char __user * , buf, size_t, count)
2

{
3

struct file *file;
4

ssize_t ret = -EBADF;
5

int fput_needed;
6

file = fget_light(fd, &fput_needed);
8

if (file) {
9

loff_t pos = file_pos_read(file);
10

ret = vfs_read(file, buf, count, &pos);
11

}
13

return ret;
15

}

先调用fget_light得到fd对应的file，再调用vfs_read。接着跟踪vfs_read的代码，定义在fs/read_write.c中。

ssize_t vfs_read ( struct file * file, char __user * buf, size_t count, loff_t * pos)
2

{
3

ssize_t ret;
4

ret = rw_verify_area(READ, file, pos, count);
6

if (ret >= 0) {
7

count = ret;
8

if (file->f_op->read)
9

ret = file->f_op->read(file, buf, count, pos);
10

else
11

ret = do_sync_read(file, buf, count, pos);
12

}
14

return ret;
16

}

在上篇Socket创建一节已知，因为sockfs_file_ops没有定义read（即read指针为空），所以这儿实际调用了do_sync_read，继续跟踪它的代码，定义在fs/read_write.c中。

ssize_t d o_sync_read ( struct file * filp, char __user * buf, size_t len, loff_t * ppos)
2

{
3

struct iovec iov = { .iov_base = buf, .iov_len = len };
4

struct kiocb kiocb;
5

ssize_t ret;
6

for (;;) {
9

ret = filp->f_op->aio_read(&kiocb, &iov, 1, kiocb.ki_pos);
10

if (ret != -EIOCBRETRY)
11

break;
12

wait_on_retry_sync_kiocb(&kiocb);
13

}
14

if (-EIOCBQUEUED == ret)
16

ret = wait_on_sync_kiocb(&kiocb);
17

*ppos = kiocb.ki_pos;
18

return ret;
19

}

显而易见，这儿调用到了f_op->aio_read，使用异步读来实现同步读，若异步读没有完成，则调用wait_on_sync_kiocb等待。由上篇Socket创建一节可知sockfs_file_ops的aio_read设为sock_aio_read函数，定义在net/socket.c中，至此sys_read的实现完成了前一半(操作对象是file)而进入后一半（操作对象是socket），即socket层的实现。
在socket层跟踪sock_aio_read，可以得到最后调用的是sock->ops->recvmsg，由于socket类型为IPv4 TCP，因此sock->ops在socket创建过程中被设为inet_stream_ops，定义在net/ipv4/af_inet.c中。

const struct proto_ops inet_stream_ops = {
2

.family = PF_INET,
3

.release = inet_release,
5

.recvmsg = sock_common_recvmsg,
7

} ;

从上可知recvmsg设为sock_common_recvmsg，跟踪它的代码，定义在net/core/sock.c中。

int sock_common_recvmsg ( struct kiocb * iocb, struct socket * sock, struct msghdr * msg, size_t size, int flags)
2

{
3

struct sock *sk = sock->sk;
4

int addr_len = 0;
5

int err;
6

err = sk->sk_prot->recvmsg(iocb, sk, msg, size, flags & MSG_DONTWAIT,flags & ~MSG_DONTWAIT, &addr_len);
8

return err;
10

}

struct sock表示套接字的网络接口层，它的成员sk_prot表示网络协议块，在这它对应tcp_prot结构，定义在net/ipv4/tcp_ipv4.c中，由此可见进入到特定协议的实现。

struct proto tcp_prot = {
2

.name = "TCP",
3

.close = tcp_close,
5

.recvmsg = tcp_recvmsg,
7

} ;

recvmsg设为tcp_recvmsg，至此跟踪结束。对于sys_readv的实现，调用的是vfs_readv，后面的过程和sys_read相同，总结核心调用链如下图：

由此可知，sockfs_file_ops只须实现aio_read，就能支持普通和聚集两种方式的读操作。为了对比，这里也给出Berkeley Sockets API中recv的核心调用链如下图：

显而易见，recv内部实现调用的是sys_recvfrom，它没有经过VFS，而是先调用sock_lookup_light从fd得到socket，再调用sock_recvmsg，后面的流程和recv就是一样的了。

Socket销毁

Socket操作既可以调用文件IO，也可以调用Berkeley Sockets API。但销毁不同，系统调用close是用户空间销毁socket的唯一方法，它定义在fs/open.c中。

SYSCALL_DEFINE1( close , unsigned int , fd)
2

{
3

struct file * filp;
4

struct files_struct *files = current->files;
5

struct fdtable *fdt;
6

int retval;
7

spin_lock(&files->file_lock);
9

fdt = files_fdtable(files);
10

filp = fdt->fd[fd];
12

rcu_assign_pointer(fdt->fd[fd], NULL);
14

FD_CLR(fd, fdt->close_on_exec);
15

__put_unused_fd(files, fd);
16

spin_unlock(&files->file_lock);
17

retval = filp_close(filp, files);
18

}

首先从fd获取对应的file，若file非空则设置进程描述符数组对应项为空，并将fd从exec时关闭的文件描述符链表和打开的文件描述符链表中移除；最后调用filp_close，跟踪它的代码，定义在fs/open.c中。

int filp_close ( struct file * filp, fl_owner_t id)
2

{
3

int retval = 0;
4

if (!file_count(filp)) {
6

printk(KERN_ERR "VFS: Close: file count is 0\n");
7

return 0;
8

}
9

if (filp->f_op && filp->f_op->flush)
11

retval = filp->f_op->flush(filp, id);
12

dnotify_flush(filp, id);
14

locks_remove_posix(filp, id);
15

fput(filp);
16

return retval;
17

}

首先判断file的引用计数，若为0则打印一个错误日志（说明这是一个bug，因为file已经被释放）并返回；由于sockfs_file_ops中的flush没有定义即为空，因此跳过；dnotify_flush用于释放任何相关的dnotify（一种文件监控机制）资源，locks_remove_posix用于清除文件锁相关的资源，由于socket对应的inode没有使用文件锁，因此它什么也没做。最后调用fput来释放file，定义在fs/file_table.c中。

void fput ( struct file * file)
2

{
3

if (atomic_long_dec_and_test(&file->f_count))
4

__fput(file);
5

}

先递减引用计数，若为0则调用__fput释放file，它会调用到sockfs_file_ops定义的release函数即sock_close，它是sock_release的包装函数，sock_release定义在net/socket.c中。

void sock_release ( struct socket * sock)
2

{
3

if (sock->ops) {
4

struct module *owner = sock->ops->owner;
5

sock->ops->release(sock);
7

sock->ops = NULL;
8

module_put(owner);
9

}
10

if (sock->fasync_list)
11

printk(KERN_ERR "sock_release: fasync list not empty!\n");
12

percpu_sub(sockets_in_use, 1);
14

if (!sock->file) {
15

iput(SOCK_INODE(sock));
16

return;
17

}
18

sock->file = NULL;
19

}

先调用ops->release即特定协议的释放操作，对于IPv4 TCP，就是inet_stream_ops中定义的inet_release函数，它又会调用到tcp_prot中定义的close即tcp_close；对于关联inode的释放，这里要分2种情况：如果sock->file为空，就调用iput释放，否则返回到__fput中，会调用dput释放dentry，而dentry又关联着inode，最终调用iput释放inode；当最后一个iput被调用时，sockfs_ops中定义的sock_destroy_inode就会被调用，归还由sock_alloc_inode分配的struct socket_alloc对象到SALB缓存中。总结核心调用链如下图：