Linux内核之系统调用详解

请关注DeveloperQ公众号

DeveloperQ公众号

本章内容:

一、什么是系统调用?

      Linux内核中设置了一组用于实现各种系统功能的子程序,称为系统调用。用户可以通过系统调用命令在自己的应用程序中调用它们。从某种角度来看,系统调用和普通的函数调用非常相似。区别仅仅在于,系统调用由操作系统核心提供,运行于内核态;而普通的函数调用由函数库或用户自己提供,运行于用户态。   

     Linux内核还提供了一些C语言函数库,这些库对系统调用进行了一些包装和扩展,因为这些库函数与系统调用的关系非常紧密,所以习惯上把这些函数也称为系统调用。
       
用户程序通过系统调用从用户态(user mode)切换到内核态(kernel mode ),从而可以访问相应的资源。这样做的好处是:
1)为用户空间提供了一种硬件的抽象接口,使编程更加容易;
2)有利于系统安全;
3)有利于每个进程度运行在虚拟系统中,接口统一有利于移植。
二、系统调用是怎么工作的?

        首先要搞清楚以下三种概念:
1)运行模式(mode
        Linux
内核使用两种执行权限:特权级0和特权级,分别对应内核模式(kernel mode)和用户模式(user mode)
2)地址空间(space
        a
)每个进程的虚拟地址空间可以划分为两个部分:用户空间和内核空间;
        b
)在用户态下只能访问用户空间,而在核心态下,既可以访问用户空间,又可以访问内核空间; 
        c
)内核空间在每个进程的虚拟地址空间中都是固定的(虚拟地址为3G4G的地址空间);
3)上下文(context
       
一个进程的上下文可以分为三个部分:用户级上下文、寄存器上下文以及系统级上下文。
        a
)用户级上下文:正文、数据、用户栈以及共享存储区;
        b
)寄存器上下文:通用寄存器、程序寄存器(IP )、处理机状态寄存器(EFLAGS)、栈指针(ESP);
        c
)系统级上下文:进程控制块task_struct 、内存管理信息(mm_struct vm_area_structpgdpmdpte)、核心栈等。


三、系统调用、APIC

1Linux 的应用编程接口(API)遵循POSIX标准;
2Linux的系统调用作为c库的一部分提供。c库中实现了Linux 的主要API,包括标准c库函数和系统调用;
3)应用编程接口(API)其实是一组函数定义,这些函数说明了如何获得一个给定的服务;而系统调用是通过软中断向内核发出一个明确的请求,每个系统调用对应一个封装例程(wrapper routine,唯一目的就是发布系统调用)。一些API应用了封装例程。@a@ API还包含各种编程接口,如:C库函数、OpenGL 编程接口等;
4)系统调用的实现是在内核完成的,而用户态的函数是在函数库中实现。

四、系统调用与操作系统命令
1)操作系统命令相对应用编程接口更高一层,每个操作系统命令都是一个可执行程序,比如lscdcpmv等;
2)操作系统命令的实现调用了系统调用;
3)通过 strace 命令可以查看操作系统命令所调用的系统调用,如:
   strace ls
   strace hostname

五、系统调用与内核函数
1)内核函数在形式上与普通函数一样,但它是在内核实现的,需要满足一些内核编程的要求;
2)系统调用是用户进程进入内核的接口层,它本身并非内核函数,但它是由内核函数实现的;
3)进入内核后,不同的系统调用会找到各自对应的内核函数,这些内核函数被称为系统调用的“服务例程”;

六、系统调用处理程序及服务例程
1)当用户态的进程调用一个系统调用时,CPU切换到内核态并开始执行一个内核函数;
2)系统调用处理程序执行下列操作:
        a
)在内核栈保存大多数寄存器的内容;
        b
)调用名为系统调用服务例程(system call service routine)的相应的C函数来处理系统调用;
         c
)通过ret_from_sys_call() 函数从系统调用返回系统调用流程。


七、系统调用中参数传递
1)每个系统调用至少有一个参数,即通过 eax寄存器传递来的系统调用号;(2)用寄存器传递参数必须满足两个条件: 
        a
)每个参数的长度不能超过寄存器的长度;
        b
)参数的个数不能超过6个(包括eax中传递的系统调用号),否则,用一个单独的寄存器指向进程地址空间中这些参数值所在的一个内存区;
        c
)在少数情况下,系统调用不使用任何参数;
        d
)服务例程的返回值必须写到eax 寄存器中。
       
很多系统调用需要不止一个参数,普通C函数的参数传递是通过把参数值写入堆栈(用户态堆栈或内核态堆栈)来实现的。但因为系统调用是一种特殊函数,它由用户态进入了内核态,所以既不能使用用户态的堆栈,也不能直接使用内核态堆栈。

        int $0x80汇编指令之前,系统调用的参数被写入CPU的寄存器。然后,在进入内核态调用系统调用服务例程之前,内核再把存放在CPU寄存器中的参数拷贝到内核态堆栈中。因为毕竟服务例程是C函数,它还是要到堆栈中去寻找参数。

 

八、调用性能问题

    系统调用需要从用户空间陷入内核空间,处理完后,又需要返回用户空间。其中除了系统调用服务例程的实际耗时外,陷入/返回过程和系统调用处理程序(查系统调用表、存储\恢复用户现场)也需要花销一些时间,这些时间加起来就是一个系统调用的响应速度。系统调用不比别的用户程序慢,它对性能要求很苛刻,因为它需要陷入内核执行,所以和其他内核程序一样要求代码简洁、执行迅速。幸好Linux具有令人难以置信的上下文切换速度,使得其进出内核都被优化得简洁高效;同时所有Linux系统调用处理程序和每个系统调用本身也都非常简洁。

    绝大多数情况下,Linux系统调用性能是可以接受的,但是对于一些对性能要求非常高的应用来说,它们虽然希望利用系统调用的服务,但却希望加快相应速度,避免陷入/返回和系统调用处理程序带来的花销,因此采用由内核直接调用系统调用服务例程,最好的例子就HTTPD——它为了避免上述开销,从内核调用socket等系统调用服务例程。

九、Linux系统调用列表

1)进程控制

fork 创建一个新进程

clone 按指定条件创建子进程

execve 运行可执行文件

exit 中止进程

_exit 立即中止当前进程

getdtablesize 进程所能打开的最大文件数

getpgid 获取指定进程组标识号

setpgid 设置指定进程组标志号

getpgrp 获取当前进程组标识号

setpgrp 设置当前进程组标志号

getpid 获取进程标识号

getppid 获取父进程标识号

getpriority 获取调度优先级

setpriority 设置调度优先级

modify_ldt 读写进程的本地描述表

nanosleep 使进程睡眠指定的时间

nice 改变分时进程的优先级

pause 挂起进程,等待信号

personality 设置进程运行域

prctl 对进程进行特定操作

ptrace 进程跟踪

sched_get_priority_max取得静态优先级的上限

sched_get_priority_min取得静态优先级的下限

sched_getparam 取得进程的调度参数

sched_getscheduler取得指定进程的调度策略

sched_rr_get_interval取得按RR算法调度的实时进程的时间片长度

sched_setparam 设置进程的调度参数

sched_setscheduler 设置指定进程的调度策略和参数

sched_yield 进程主动让出处理器,并将自己等候调度队列队尾

vfork 创建一个子进程,以供执行新程序,常与execve等同时使用

wait 等待子进程终止

wait3 参见wait

waitpid 等待指定子进程终止

wait4 参见waitpid

capget 获取进程权限

capset 设置进程权限

getsid 获取会晤标识号

setsid 设置会晤标识号

2)文件系统控制

a)文件读写操作

fcntl 文件控制

open 打开文件

creat 创建新文件

close 关闭文件描述字

read 读文件

write 写文件

readv 从文件读入数据到缓冲数组

writev 将缓冲数组里的数据写入文件

pread 对文件随机读

pwrite 对文件随机写

lseek 移动文件指针

_llseek 64地址空间里移动文件指针

dup 复制已打开的文件描述字

dup2 按指定条件复制文件描述字

flock 文件加/解锁

poll I/O多路转换

truncate 截断文件

ftruncate 参见truncate

umask 设置文件权限掩码

fsync 把文件在内存中的部分写回磁盘

b)文件系统操作

access 确定文件的可存取性

chdir 改变当前工作目录

fchdir 参见chdir

chmod 改变文件方式

fchmod 参见chmod

chown 改变文件的属主或用户组

fchown 参见chown

lchown 参见chown

chroot 改变根目录

stat 取文件状态信息

lstat 参见stat

fstat 参见stat

statfs 取文件系统信息

fstatfs 参见statfs

readdir 读取目录项

getdents 读取目录项

mkdir 创建目录

mknod 创建索引节点

rmdir 删除目录

rename 文件改名

link 创建链接

symlink 创建符号链接

unlink 删除链接

readlink 读符号链接的值

mount 安装文件系统

umount 卸下文件系统

ustat 取文件系统信息

utime 改变文件的访问修改时间

utimes 参见utime

quotactl 控制磁盘配额

3)系统控制

ioctl I/O总控制函数

_sysctl /系统参数

acct 启用或禁止进程记账

getrlimit 获取系统资源上限

setrlimit 设置系统资源上限

getrusage 获取系统资源使用情况

uselib 选择要使用的二进制函数

ioperm 设置端口I/O权限

iopl 改变进程I/O权限级别

outb 低级端口操作

reboot 重新启动

swapon 打开交换文件和设备

swapoff 关闭交换文件和设备

bdflush 控制bdflush守护进程

sysfs 取核心支持的文件系统类型

sysinfo 取得系统信息

adjtimex 调整系统时钟

alarm 设置进程的闹钟

getitimer 获取计时器

setitimer 设置计时器

gettimeofday 取时间和时区

settimeofday 设置时间和时区

stime 设置系统日期和时间

time 取得系统时间

times 取进程运行时间

uname 获取当前UNIX系统的名称、版本和主机等信息

vhangup 挂起当前终端

nfsservctl NFS守护进程进行控制

vm86 进入模拟8086模式

create_module 创建可装载的模块项

delete_module 删除可装载的模块项

init_module 初始化模块

query_module 查询模块信息

*get_kernel_syms 取得核心符号,已被query_module代替

4)内存管理

brk 改变数据段空间的分配

sbrk 参见brk

mlock 内存页面加锁

munlock 内存页面解锁

mlockall 调用进程所有内存页面加锁

munlockall 调用进程所有内存页面解锁

mmap 映射虚拟内存页

munmap 去除内存页映射

mremap 重新映射虚拟内存地址

msync 将映射内存中的数据写回磁盘

mprotect 设置内存映像保护

getpagesize 获取页面大小

sync 将内存缓冲区数据写回硬盘

cacheflush 将指定缓冲区中的内容写回磁盘

5)网络管理

getdomainname 取域名

setdomainname 设置域名

gethostid 获取主机标识号

sethostid 设置主机标识号

gethostname 获取本主机名称

sethostname 设置主机名称

socket控制

socketcall socket系统调用

socket 建立socket

bind 绑定socket到端口

connect 连接远程主机

accept 响应socket连接请求

send 通过socket发送信息

sendto 发送UDP信息

sendmsg 参见send

recv 通过socket接收信息

recvfrom 接收UDP信息

recvmsg 参见recv

listen 监听socket端口

select 对多路同步I/O进行轮询

shutdown 关闭socket上的连接

getsockname 取得本地socket名字

getpeername 获取通信对方的socket名字

getsockopt 取端口设置

setsockopt 设置端口参数

sendfile 在文件或端口间传输数据

socketpair 创建一对已联接的无名socket

6)用户管理

getuid 获取用户标识号

setuid 设置用户标志号

getgid 获取组标识号

setgid 设置组标志号

getegid 获取有效组标识号

setegid 设置有效组标识号

geteuid 获取有效用户标识号

seteuid 设置有效用户标识号

setregid 分别设置真实和有效的的组标识号

setreuid 分别设置真实和有效的用户标识号

getresgid 分别获取真实的,有效的和保存过的组标识号

setresgid 分别设置真实的,有效的和保存过的组标识号

getresuid 分别获取真实的,有效的和保存过的用户标识

setresuid 分别设置真实的,有效的和保存过的用户标识

setfsgid 设置文件系统检查时使用的组标识号

setfsuid 设置文件系统检查时使用的用户标识号

getgroups 获取后补组标志清单

setgroups 设置后补组标志清单

7)进程间通信

ipc 进程间通信总控制调用

a)信号

sigaction 设置对指定信号的处理方法

sigprocmask 根据参数对信号集中的信号执行阻塞/解除阻塞等操作

sigpending 为指定的被阻塞信号设置队列

sigsuspend 挂起进程等待特定信号

signal 参见signal

kill 向进程或进程组发信号

*sigblock 向被阻塞信号掩码中添加信号,已被sigprocmask代替

*siggetmask 取得现有阻塞信号掩码,已被sigprocmask代替

*sigsetmask 用给定信号掩码替换现有阻塞信号掩码,已被sigprocmask代替

*sigmask 将给定的信号转化为掩码,已被sigprocmask代替

*sigpause 作用同sigsuspend,已被sigsuspend代替

sigvec 为兼容BSD而设的信号处理函数,作用类似sigaction

ssetmask ANSI C的信号处理函数,作用类似sigaction

b)消息

msgctl 消息控制操作

msgget 获取消息队列

msgsnd 发消息

msgrcv 取消息

c)管道

pipe 创建管道

d)信号量

semctl 信号量控制

semget 获取一组信号量

semop 信号量操作

f)共享内存

shmctl 控制共享内存

shmget 获取共享内存

shmat 连接共享内存

shmdt 拆卸共享内存

十、系统调用小结
       
程序执行系统调用大致可归结为以下几个步骤:
1)程序调用libc库的封装函数;
2)调用软中断int 0x80 进入内核;
3)在内核中首先执行system_call函数(首先将系统调用号(eax)和可以用到的所有CPU寄存器保存到相应的堆栈中(由SAVE_ALL完成)),接着根据系统调用号在系统调用表中查找到对应的系统调用服务例程;
4)执行该服务例程;
5)执行完毕后,转入ret_from_sys_call 例程,从系统调用返回。








相关问题推荐