glibc分析一 系统调用

新博客地址(shankusu.me)

glibc源码分析(一)系统调用

pk2017

pk2017

程序员

13 人赞了该文章

1.1 什么是glibc

glibc是GNU发布的libc库,即c运行库。glibc是linux系统中最底层的api,几乎其它任何运行库都会依赖于glibc。glibc除了封装linux操作系统所提供的系统服务外,它本身也提供了许多其它一些必要功能服务的实现。由于 glibc 囊括了几乎所有的 UNIX 通行的标准,可以想见其内容包罗万象。而就像其他的 UNIX 系统一样,其内含的档案群分散于系统的树状目录结构中,像一个支架一般撑起整个操作系统。在 GNU/Linux 系统中,其C函式库发展史点出了GNU/Linux 演进的几个重要里程碑,用 glibc 作为系统的C函式库,是GNU/Linux演进的一个重要里程碑。

glibc支持不同的体系结构,不同的体系结构之上又支持不同的操作系统。

  • 支持的体系结构:alpha,arm,i386,ia64,powerpc等
  • 支持的操作系统:bsd,linux等

本文及以后的一系列文章将对glibc源码进行一系列的分析,这些分析都是基于i386体系结构linux操作系统。glibc版本号为glibc-2.26。

1.2 什么是系统调用

1.2.1 概要

顾名思义,系统调用(system call)是指操作系统提供给程序调用的接口。

操作系统的主要功能是为管理硬件资源和为应用程序开发人员提供良好的环境来使应用程序具有更好的兼容性,为了达到这个目的,内核提供一系列具备预定功能的多内核函数,通过一组称为系统调用(system call)的接口呈现给用户。系统调用把应用程序的请求传给内核,调用相应的的内核函数完成所需的处理,将处理结果返回给应用程序。

作为开发人员,我们调用系统调用来实现系统功能。

有过linux下开发经验的人一定对glibc中的open,read,write,close,stat,mkdir等函数有所了解。这些函数其实都是是系统调用,准确的讲是系统调用的封装函数。glibc将诸多系统调用都封装成函数,使我们可以以函数的方式,方便的调用系统调用。本文及后续章节将详细讲解glibc对系统调用封装的过程。

1.2.2 实例

#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>
#include <stdio.h>

int main(int argc,char **argv)
{

        struct stat buf;

        stat("/initrd.img",&buf);

        printf("size = %ld\n",buf.st_size);

        return 0;
}

1.3 系统调用的封装

系统调用的封装按照固定的规则进行。寄存器EAX传递系统调用号。系统调用号用来确定系统调用。寄存器EBX,ECX,EDX,ESI,EDI,EBP依次传递系统调用参数。参数个数决定设置寄存器的个数。int0x80指令切入内核执行系统调用。系统调用执行完成后返回。寄存器EAX保存系统调用的返回值。

glibc使用了多种不同的方式封装系统调用。但是,万变不离其宗,它们的封装过程一定是按照上面的规则进行的。

1.4 glibc封装系统调用

glibc实现了许多系统调用的封装。它们的封装方式大致可以分为两种:一 脚本生成汇编文件,汇编文件中汇编代码封装了系统调用。这种方式,简称脚本封装。二 .c文件中调用嵌入式汇编代码封装系统调用。一般使用.c文件封装系统调用,代码中除了嵌入式汇编封装代码外,还有一些C代码做其他处理。这种方式,简称.c封装。

1.5 脚本封装

1.5.1 概要

glibc中大多数系统调用都是使用脚本封装的方式封装的。

脚本封装的规则很简单。三种文件生成封装代码。一 make-syscall.sh文件 二 syscall-template.S文件 三 syscalls.list文件。

make-syscall.sh是shell脚本文件。它读取syscalls.list文件的内容,对文件的每一行进行解析。根据每一行的内容生成一个.S汇编文件,汇编文件封装了一个系统调用。

syscall-template.S是系统调用封装代码的模板文件。生成的.S汇编文件都调用它。

syscalls.list是数据文件,它的内容如下:

# File name Caller  Syscall name    Args    Strong name Weak names

accept      -   accept      Ci:iBN  __libc_accept   accept
access      -   access      i:si    __access    access
acct        -   acct        i:S acct
adjtime     -   adjtime     i:pp    __adjtime   adjtime
bind        -   bind        i:ipi   __bind      bind
chdir       -   chdir       i:s __chdir     chdir
......

它由许多行组成,每一行可分为6列。File name列指定生成的汇编文件的文件名。Caller指定调用者。Syscall name列指定系统调用的名称,系统调用名称可以转换为系统调用号以标示系统调用。Args列指定系统调用参数类型,个数及返回值类型。Strong name指定系统调用封装函数的函数名。Weak names列指定封装函数的别称,用户可以调用别称来调用封装函数。

make-syscall.sh分析syscalls.list每一行每一列的内容,生成汇编文件。以分析chdir行为例,生成的汇编文件内容为:

#define SYSCALL_NAME chdir
#define SYSCALL_NARGS 1
#define SYSCALL_SYMBOL __chdir
#define SYSCALL_CANCELLABLE 0
#define SYSCALL_NOERRNO 0
#define SYSCALL_ERRVAL 0
#include <syscall-template.S>
weak_alias (__chdir, chdir)
hidden_weak (chdir)

SYSCALL_NAME宏定义了系统调用的名字。是从Syscall name列获取。

SYSCALL_NARGS宏定义了系统调用参数的个数。是通过解析Args列获取。

SYSCALL_SYMBOL宏定义了系统调用的函数名称。是从Strong name列获取。

SYSCALL_CANCELLABLE宏在生成的所有汇编文件中都定义为0。

SYSCALL_NOERRNO宏定义为1,则封装代码没有出错返回。用于getpid这些没有出错返回的系统调用。是通过解析Args列设置。

SYSCALL_ERRVAL宏定义为1,则封装代码直接返回错误号,不是返回-1并将错误号放入errno中。生成的所有.S文件中它都定义为0。

weak_alias (__chdir, chdir)定义了__chdir函数的别称,我们可以调用chdir来调用__chdir。 chdir从Weak names列获取。

汇编文件中引用了模板文件syscall-template.S,所有的封装代码都集中在syscall-template.S文件中。

3种文件,make-syscall.sh文件在sysdeps/unix/make-syscall.sh。syscall-template.S文件在sysdeps/unix/syscall-template.S。syscalls.list文件则有多个,分别在sysdeps/unix/syscalls.list,sysdeps/unix/sysv/linux/syscalls.list,sysdeps/unix/sysv/linux/generic/syscalls.list,sysdeps/unix/sysv/linux/i386/syscalls.list。

1.5.2 syscall-template.S

syscall-template.S作为模板文件,包含了所有封装代码。

#if SYSCALL_CANCELLABLE
# include <sysdep-cancel.h>
#else
# include <sysdep.h>
#endif

#define syscall_hidden_def(SYMBOL)      hidden_def (SYMBOL)

#define T_PSEUDO(SYMBOL, NAME, N)       PSEUDO (SYMBOL, NAME, N)
#define T_PSEUDO_NOERRNO(SYMBOL, NAME, N)   PSEUDO_NOERRNO (SYMBOL, NAME, N)
#define T_PSEUDO_ERRVAL(SYMBOL, NAME, N)    PSEUDO_ERRVAL (SYMBOL, NAME, N)
#define T_PSEUDO_END(SYMBOL)            PSEUDO_END (SYMBOL)
#define T_PSEUDO_END_NOERRNO(SYMBOL)        PSEUDO_END_NOERRNO (SYMBOL)
#define T_PSEUDO_END_ERRVAL(SYMBOL)     PSEUDO_END_ERRVAL (SYMBOL)

#if SYSCALL_NOERRNO

T_PSEUDO_NOERRNO (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret_NOERRNO
T_PSEUDO_END_NOERRNO (SYSCALL_SYMBOL)

#elif SYSCALL_ERRVAL

T_PSEUDO_ERRVAL (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret_ERRVAL
T_PSEUDO_END_ERRVAL (SYSCALL_SYMBOL)

#else

T_PSEUDO (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret
T_PSEUDO_END (SYSCALL_SYMBOL)

#endif

syscall_hidden_def (SYSCALL_SYMBOL)

文件开头引入.h文件。如果SYSCALL_CANCELLABLE宏定义为1,则引入<sysdep-cancel.h>文件,否则引入<sysdep.h>文件。SYSCALL_CANCELLABLE宏在所有生成的汇编文件中都定义为0,所以汇编文件都是引用<sysdep.h>文件。<sysdep.h>文件位于sysdeps/unix/sysv/linux/i386/sysdep.h

#if SYSCALL_CANCELLABLE
# include <sysdep-cancel.h>
#else
# include <sysdep.h>
#endif

系统调用的封装代码由3种形式。

如果系统调用没有错误返回,则执行

T_PSEUDO_NOERRNO (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret_NOERRNO
T_PSEUDO_END_NOERRNO (SYSCALL_SYMBOL)

如果系统调用有错误返回且直接返回错误,则执行

T_PSEUDO_ERRVAL (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret_ERRVAL
T_PSEUDO_END_ERRVAL (SYSCALL_SYMBOL)

如果系统调用有错误返回且返回-1,errno设置错误号,则执行

T_PSEUDO (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret
T_PSEUDO_END (SYSCALL_SYMBOL)

1.5.3 T_PSEUDO_NOERRNO

在系统调用没有出错返回时,执行

T_PSEUDO_NOERRNO (SYSCALL_SYMBOL, SYSCALL_NAME, SYSCALL_NARGS)
    ret_NOERRNO
T_PSEUDO_END_NOERRNO (SYSCALL_SYMBOL)

T_PSEUDO_NOERRNO宏引用PSEUDO_NOERRNO宏

T_PSEUDO_END_NOERRNO宏引用PSEUDO_END_NOERRNO宏

#define T_PSEUDO_NOERRNO(SYMBOL, NAME, N)   PSEUDO_NOERRNO (SYMBOL, NAME, N)
#define T_PSEUDO_END_NOERRNO(SYMBOL)        PSEUDO_END_NOERRNO (SYMBOL)

#undef	 PSEUDO_NOERRNO
#define 	PSEUDO_NOERRNO(name, syscall_name, args)			      \
  .text;								      \
  ENTRY (name)								      \
    DO_CALL (syscall_name, args)

PSEUDO_NOERRNO宏在文件开头声明文件内容为代码段

.text;

定义了名字为name的函数

#define 	ENTRY(name)							      \
  .globl C_SYMBOL_NAME(name);						      \
  .type C_SYMBOL_NAME(name),@function;					      \
  .align ALIGNARG(4);							      \
  C_LABEL(name)								      \
  cfi_startproc;							      \
  CALL_MCOUNT

#ifndef C_SYMBOL_NAME
# define C_SYMBOL_NAME(name) name
#endif

#define ALIGNARG(log2) 1<<log2     //代码对齐

# define C_LABEL(name)	name##:      //函数名

# define cfi_startproc			.cfi_startproc

#define CALL_MCOUNT		/* Do nothing.  */

执行了系统调用

#undef	 DO_CALL
#define DO_CALL(syscall_name, args)			      		      \
    PUSHARGS_##args							      \
    DOARGS_##args							      \
    movl $SYS_ify (syscall_name), %eax;					      \
    ENTER_KERNEL							      \
    POPARGS_##args

DO_CALL宏根据命令行参数个数args的不同执行不同的宏。

当args为0时:

#define PUSHARGS_0	/* No arguments to push.  */
#define	 DOARGS_0	/* No arguments to frob.  */
#define	 POPARGS_0	/* No arguments to pop.  */
#define	 _PUSHARGS_0	/* No arguments to push.  */
#define _DOARGS_0(n)	/* No arguments to frob.  */
#define	 _POPARGS_0	/* No arguments to pop.  */

程序执行

movl $SYS_ify (syscall_name), %eax;					      
ENTER_KERNEL							      

//根据系统调用名,返回系统调用号
#undef SYS_ify
#define SYS_ify(syscall_name)	__NR_##syscall_name

//切入内核执行系统调用
#ifdef I386_USE_SYSENTER
# ifdef SHARED
#  define ENTER_KERNEL call *%gs:SYSINFO_OFFSET
# else
#  define ENTER_KERNEL call *_dl_sysinfo
# endif
#else
# define ENTER_KERNEL int $0x80
#endif

当args为1时:

#define PUSHARGS_1 	movl %ebx, %edx; L(SAVEBX1): PUSHARGS_0
#define	 DOARGS_1 	_DOARGS_1 (4)
#define	 POPARGS_1 	POPARGS_0; movl %edx, %ebx; L(RESTBX1):
#define	 _PUSHARGS_1 	pushl %ebx; cfi_adjust_cfa_offset (4); \
			cfi_rel_offset (ebx, 0); L(PUSHBX1): _PUSHARGS_0
#define _DOARGS_1(n)	 movl n(%esp), %ebx; _DOARGS_0(n-4)
#define	 _POPARGS_1	 _POPARGS_0; popl %ebx; cfi_adjust_cfa_offset (-4); \
			cfi_restore (ebx); L(POPBX1):

程序执行:

	movl %ebx, %edx;
movl 4(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;					      
ENTER_KERNEL
movl %edx, %ebx;

当args为2时:

#define PUSHARGS_2 	PUSHARGS_1
#define	 DOARGS_2 	_DOARGS_2 (8)
#define	 POPARGS_2	 POPARGS_1
#define _PUSHARGS_2 	_PUSHARGS_1
#define 	_DOARGS_2(n) 	movl n(%esp), %ecx; _DOARGS_1 (n-4)
#define	 _POPARGS_2	 _POPARGS_1

程序执行:

	movl %ebx, %edx;
	movl 8(%esp), %ecx;
movl 4(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;					      
ENTER_KERNEL
movl %edx, %ebx;

当args为3时:

#define PUSHARGS_3	 _PUSHARGS_2
#define DOARGS_3	 _DOARGS_3 (16)
#define POPARGS_3 	_POPARGS_3
#define _PUSHARGS_3 	_PUSHARGS_2
#define _DOARGS_3(n) 	movl n(%esp), %edx; _DOARGS_2 (n-4)
#define _POPARGS_3	 _POPARGS_2

程序执行

pushl %ebx;
movl 16(%esp), %edx;
movl 12(%esp), %ecx;
movl 8(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;
ENTER_KERNEL
popl %ebx

当args参数为4时:

#define PUSHARGS_4	 _PUSHARGS_4
#define DOARGS_4	 _DOARGS_4 (24)
#define POPARGS_4 	_POPARGS_4
#define _PUSHARGS_4 	pushl %esi; cfi_adjust_cfa_offset (4); \
			cfi_rel_offset (esi, 0); L(PUSHSI1): _PUSHARGS_3
#define _DOARGS_4(n) 	movl n(%esp), %esi; _DOARGS_3 (n-4)
#define _POPARGS_4 	_POPARGS_3; popl %esi; cfi_adjust_cfa_offset (-4); \
			cfi_restore (esi); L(POPSI1):

程序执行:

pushl %esi;
pushl %ebx;
movl 24(%esp), %esi;
movl 20(%esp), %edx;
movl 16(%esp), %ecx;
movl 12(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;
ENTER_KERNEL
popl %ebx;
popl %esi;

当参数为5时:

#define PUSHARGS_5	 _PUSHARGS_5
#define DOARGS_5	 _DOARGS_5 (32)
#define POPARGS_5 	_POPARGS_5
#define _PUSHARGS_5 	pushl %edi; cfi_adjust_cfa_offset (4); \
			cfi_rel_offset (edi, 0); L(PUSHDI1): _PUSHARGS_4
#define _DOARGS_5(n)	 movl n(%esp), %edi; _DOARGS_4 (n-4)
#define _POPARGS_5	 _POPARGS_4; popl %edi; cfi_adjust_cfa_offset (-4); \
			cfi_restore (edi); L(POPDI1):

程序执行

pushl %edi;
pushl %esi;
pushl %ebx;
movl 32(%esp), %edi;
movl 28(%esp), %esi;
movl 24(%esp), %edx;
movl 20(%esp), %ecx;
movl 16(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;
ENTER_KERNEL
popl %ebx;
popl %esi;
popl %edi;

当参数为6时:

#define PUSHARGS_6	 _PUSHARGS_6
#define DOARGS_6	 _DOARGS_6 (40)
#define POPARGS_6 	_POPARGS_6
#define _PUSHARGS_6 	pushl %ebp; cfi_adjust_cfa_offset (4); \
			cfi_rel_offset (ebp, 0); L(PUSHBP1): _PUSHARGS_5
#define _DOARGS_6(n) 	movl n(%esp), %ebp; _DOARGS_5 (n-4)
#define _POPARGS_6	 _POPARGS_5; popl %ebp; cfi_adjust_cfa_offset (-4); \
			cfi_restore (ebp); L(POPBP1):

程序执行

pushl %ebp; 
pushl %edi;
pushl %esi;
pushl %ebx;
movl 40(%esp), %ebp;
movl 36(%esp), %edi;
movl 32(%esp), %esi;
movl 28(%esp), %edx;
movl 24(%esp), %ecx;
movl 20(%esp), %ebx;
movl $SYS_ify (syscall_name), %eax;
ENTER_KERNEL
popl %ebx;
popl %esi;
popl %edi;
popl %ebp;

DO_CALL宏设置了系统调用参数,系统调用号,切入内核,并将系统调用返回值放入eax寄存器中。

接着,执行ret指令返回函数。

ret_NOERRNO
#define ret_NOERRNO ret

汇编文件结尾

#undef	PSEUDO_END_NOERRNO
#define	PSEUDO_END_NOERRNO(name)					      \
  END (name)

//汇编文件结束
#undef	END
#define END(name)							      \
  cfi_endproc;								      \
  ASM_SIZE_DIRECTIVE(name)

#define cfi_endproc			 .cfi_endproc
#define ASM_SIZE_DIRECTIVE(name) .size name,.-name;

到这里,整个封装代码已经全部完成。

1.5.4 T_PSEUDO_ERRVAL

#undef	PSEUDO_ERRVAL
#define	PSEUDO_ERRVAL(name, syscall_name, args) \
  .text;								      \
  ENTRY (name)								      \
    DO_CALL (syscall_name, args);					      \
    negl %eax

T_PSEUDO_ERRVAL宏定义了函数name,函数调用了系统调用syscall_name。执行完DO_CALL 宏后,系统调用执行完毕,系统调用返回值放入eax寄存器中。negl %eax取反eax寄存器的值。此时,eax寄存器中保存着错误号。

#define ret_ERRVAL ret

函数返回

#undef	PSEUDO_END_ERRVAL
#define	PSEUDO_END_ERRVAL(name) \
  END (name)

汇编文件结尾

1.5.5 T_PSEUDO

#undef	PSEUDO
#define	PSEUDO(name, syscall_name, args)				      \
  .text;								      \
  ENTRY (name)								      \
    DO_CALL (syscall_name, args);					      \
    cmpl $-4095, %eax;							      \
    jae SYSCALL_ERROR_LABEL

执行系统调用,如果其返回值大于等于-4095,则跳到SYSCALL_ERROR_LABEL处执行。

#define SYSCALL_ERROR_LABEL __syscall_error

SYSCALL_ERROR_LABEL指向__syscall_error函数。

int
__attribute__ ((__regparm__ (1)))
__syscall_error (int error)
{
  __set_errno (-error);
  return -1;
}

如果小于-4095,则直接返回

 ret

汇编文件结尾

#undef	PSEUDO_END
#define	PSEUDO_END(name)						      \
  SYSCALL_ERROR_HANDLER							      \
  END (name)

#define SYSCALL_ERROR_HANDLER	/* Nothing here; code in sysdep.c is used.  */

1.5.6 实例

chdir函数

umask函数

本文通过Glibc的内存暴增问题,主要介绍了系统的内存管理问题,具体如下: 目录 1. 问题 2. 基础知识 2.1 X86平台Linux进程内存布局 2.1.1 32位模式下进程内存经典布局 2.1.2 32位模式下进程默认内存布局 2.1.3 64位模式下进程内存布局 2.2 操作系统内存分配的相关函数 2.2.1 Heap操作相关函数 2.2.2 Mmap映射区域操作相关函数 3. 概述 3.1 内存管理般性描述 3.1.1 内存管理的方法 3.1.2 内存管理器的设计目标 3.1.3 常见C内存管理程序 3.2 Ptmalloc内存管理概述 3.2.1 简介 3.2.2 内存管理的设计假设 3.2.3 内存管理数据结构概述 3.2.4 内存分配概述 3.2.5 内存回收概述 3.2.6 配置选项概述 3.2.7 使用注意事项 4. 问题分析及解决 5. 源代码分析 5.1 边界标记法 5.2 分箱式内存管理 5.2.1 Small bins 5.2.2 Large bins 5.2.3 Unsorted bin 5.2.4 Fast bins 5.3 核心结构体分析 5.3.1 malloc_state 5.3.2 Malloc_par 5.3.3 分配区的初始化 5.4 配置选项 5.5 Ptmalloc的初始化 5.5.1 Ptmalloc未初始化时分配/释放内存 5.5.2 ptmalloc_init()函数 5.5.3 ptmalloc_lock_all(),ptmalloc_unlock_all(),ptmalloc_unlock_all2() 5.6 多分配区支持 5.6.1 Heap_info 5.6.2 获取分配区 5.6.3 Arena_get2() 5.6.4 _int_new_arena() 5.6.5 New_heap() 5.6.6 get_free_list()reused_arena() 5.6.7 grow_heap(),shrink_heap(),delete_heap(),heap_trim() 5.7 内存分配malloc 5.7.1 public_mALLOc() 5.7.2 _int_malloc() 5.8 内存释放free 5.8.1 Public_fREe() 5.8.2 _int_free() 5.8.3 sYSTRIm()munmap_chunk(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值