python 中的进程 ,线程 和 亲缘性

本文详细阐述了进程和线程的概念及其区别,包括它们在操作系统中的作用、资源管理和调度方式等,并介绍了进程和线程的并发性和执行效率,以及如何在多CPU环境下设置进程和线程的亲和性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

进程和线程都是由操作系统所体会的程序运行的基本单元,系统利用该基本单元实现系统对应用的并发性。进程和线程的区别在于:
简而言之,一个程序至少有一个进程,一个进程至少有一个线程.
线程的划分尺度小于进程,使得多线程程序的并发性高。
另外,进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率。
线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制。

进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.
线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.

进程和线程的主要差别在于它们是不同的操作系统资源管理方式。进程有独立的地址空间,一个进程崩溃后,在保护模式下不会对其它进程产生影响,而线程只是一个进程中的不同执行路径。线程有自己的堆栈和局部变量,但线程之间没有单独的地址空间,一个线程死掉就等于整个进程死掉,所以多进程的程序要比多线程的程序健壮,但在进程切换时,耗费资源较大,效率要差一些。

线程是独立运行的,它且并不知道进程中还有其他线程存在。线程的执行是抢占式的,也就是说,当前运行的线程在任何时候都可能被挂起,以便另外一个线程可以运行。

每一个线程都设置了优先限权;在任何时候,只要线程已经准备就绪,具有高优先权的线程总是首先运行。如果线程具有相同的悠闲权,则根据时间片进行轮转调度。上下文的切换包括了保存和恢复线程状态。这个状态不仅仅包含了处理器寄存器(进程上下文)而且还包含了线程可访问的地址空间(进程上下文)。只有在重新调度是在两个进程间进行的时候,进程上下文才被切换。

线程创建以后,它具有EPriorityNormal的默认优选级。线程被初始化并处于挂起状态,这意味着在线程开始运行前,线程的运行优先级可以被改变。

[size=large][color=red]Affinity[/color][/size]

在系统引导的时候,系统决定该计算机中有几个CPU可以被使用。在应用程序中,可以呼叫GetSystemInfo函数来取得CPU的数量。

  一般地,线程可以运行在任何一个CPU上,当然,你可以使用Windows自带的“soft affinity”机制,让Windows自动分配CPU给一个线程。

  或许,你更希望能够对分配给线程的CPU有一些限制,使用“hard affinity”机制。
  SetProcessAffinityMask函数限制一个特定的进程只能运行在CPU的一个子集上。

   BOOL SetProcessAffinityMask(HANDLE hProcess,   DWORD_PTR dwProcessAffinityMask);


  该函数得第一个参数指明了要被限制的进程,第二个参数是一个“位屏蔽”数据,里面的每个位表示一个CPU代号(从0开始标号),比如0x00000001表示选中CPU 0,也就是“该进程中的线程”只能运行在CPU 0上了;0x00000005表示同时选中CPU 0和CPU 2。

  一个进程中的子进程可以继承该进程的相关性,也可以使用作业内核对象对某些进程限制在要求的一组CPU上执行。

  BOOL GetProcessAffinityMask(
HANDLE hProcess,
PDWORD_PTR pdwProcessAffinityMask,
PDWORD_PTR pdwSystemAffinityMask);


  该函数通过第二个参数返回指定进程的CPU的相关性信息,同时可以通过第三个参数返回系统相关性信息。系统相关性指明系统的哪些CPU可以处理线程,进程的相关性始终是系统相关性的子集。

  以上讨论的是如何把一个进程中的所有线程限制在一组CPU上。有的时候想要把进程的一个具体线程限制在一组CPU上。

  SetThreadAffinityMask函数可以限制某一个线程只能运行在一组CPU上。
D
WORD_PTR SetThreadAffinityMask(
HANDLE hThread,
DWORD_PTR dwThreadAffinityMask);


  该函数的第二个参数的意义和SetProcessAffinityMask函数中的第二个参数相同。也必须指明了一个正确的CPU子集,限制指定的线程只能运行在这个CPU子集上。该函数返回原来的线程的相关信息。
  比如,现在有4个线程和4个可用的CPU,你想让线程1独占CPU 0,让其他3个线程只能运行在CPU 1、CPU 2、CPU 3上,可以如下编码:

SetThreadAffinityMask(hThread0, 0x00000001); 0001
SetThreadAffinityMask(hThread1, 0x0000000E); 1110
SetThreadAffinityMask(hThread2, 0x0000000E); 1110
SetThreadAffinityMask(hThread3, 0x0000000E); 1110


python 中的Affinity:
[url]http://pypi.python.org/pypi/affinity[/url]

查看你的服务器有几个核:
cat /proc/cpuinfo |grep -c processor


[size=large][color=red] python fastcgi中的多进程和多线程[/color]
[/size]

多进程:
 
while len(self._children) < self._maxSpare:
if not self._spawnChild(sock): break

def _spawnChild(self, sock):
"""
Spawn a single child. Returns True if successful, False otherwise.
"""
# This socket pair is used for very simple communication between
# the parent and its children.
parent, child = socket.socketpair()
parent.setblocking(0)
setCloseOnExec(parent)
child.setblocking(0)
setCloseOnExec(child)
try:
pid = os.fork()
except OSError, e:
if e[0] in (errno.EAGAIN, errno.ENOMEM):
return False # Can't fork anymore.
raise
if not pid:
# Child
child.close()
# Put child into its own process group.
pid = os.getpid()
os.setpgid(pid, pid)
# Restore signal handlers.
self._restoreSignalHandlers()
# Close copies of child sockets.
for f in [x['file'] for x in self._children.values()
if x['file'] is not None]:
f.close()
self._children = {}
try:
# Enter main loop.
self._child(sock, parent)
except KeyboardInterrupt:
pass
sys.exit(0)
else:
# Parent
parent.close()
d = self._children[pid] = {}
d['file'] = child
d['avail'] = True
return True


多线程:


 
while self._idleCount < self._minSpare and \
self._workerCount < self._maxThreads:
self._workerCount += 1
self._idleCount += 1
thread.start_new_thread(self._worker, ())


def _worker(self):
"""
Worker thread routine. Waits for a job, executes it, repeat.
"""
self._lock.acquire()
while True:
while not self._workQueue:
self._lock.wait()

# We have a job to do...
job = self._workQueue.pop(0)

assert self._idleCount > 0
self._idleCount -= 1

self._lock.release()

try:
job.run()
except:
# FIXME: This should really be reported somewhere.
# But we can't simply report it to stderr because of fcgi
pass

self._lock.acquire()

if self._idleCount == self._maxSpare:
break # NB: lock still held
self._idleCount += 1
assert self._idleCount <= self._maxSpare

# Die off...
assert self._workerCount > self._maxSpare
self._workerCount -= 1

self._lock.release()


:arrow:

自己动手编写fork

def mprocess(info):
pid = os.fork()
if pid == 0:
pid = os.getpid()
print "child pid",pid
while True:
time.sleep(1)
print info
sys.exit(0)
else:
pid = os.getpid()
print "parent id",pid

if __name__ == "__main__":
for i in range(2):
mprocess("haha_%s" % i)


child pid 26994
child pid 26993
parent id 26992
parent id 26991
child pid 26995
child pid 26996
parent id 26991
parent id 26992

haha_0
haha_0
haha_1
haha_1
haha_0
haha_0
haha_1
haha_1
haha_0
<think>好的,我现在需要回答用户关于进程线程间通信方式的问题,以及相关的常见面试问题解析。首先,用户提到可能是为了准备面试,所以需要结构清晰、重点突出,同时覆盖常见考点易错点。 首先,我要回顾自己已有的知识。进程间通信(IPC)线程间通信的主要方式有哪些呢?进程是独立的执行单位,而线程属于同一进程,共享内存空间,因此它们的通信方式有所不同。 对于进程间通信,常见的方法包括管道、命名管道、消息队列、共享内存、信号量、信号套接字等。而线程间通信由于共享同一进程的内存,通常通过共享变量、锁、信号量、条件变量等机制来实现同步互斥,避免竞态条件。 接下来,我需要查阅提供的引用资料来确认补充这些信息。根据引用[2],线程间通信关注的是多线程竞争共享资源的问题,可以使用信号量实现互斥与同步。引用[4]提到面试中可能问到进程线程通信方式的区别,需要明确各自的机制。引用[5]强调了线程安全,即通过加锁机制确保数据一致。 用户的问题还要求生成相关问题,所以需要列出几个相关问题,比如比较进程线程通信的区别,或者实际应用场景中的选择依据。同时,回答需要引用提供的参考资料,注意标注引用标识。 需要注意的是,回答的结构要清晰,分点列出进程线程各自的通信方式,然后比较它们的区别,最后总结常见面试问题。同时,要避免技术错误,比如正确区分管道命名管道的使用场景,或者共享内存的实现方式。 现在开始组织内容,先介绍进程间通信的方式,每种方式简要说明;然后线程间通信的方式,强调同步机制。之后对比两者的区别,最后总结面试中可能的问题注意事项。确保引用正确,例如引用[2]关于线程间共享变量信号量的使用,引用[4]关于通信方式差异的比较。 最后,检查是否有遗漏的重要点,比如信号量在进程线程中的应用是否不同,或者套接字是否也可以用于线程间通信(虽然通常用于进程或网络)。确保回答准确,语言简洁,符合用户准备面试的需求。</think>### 进程线程间通信方式及面试解析 #### 一、进程间通信(IPC)方式 1. **管道(Pipe)** 适用于父子进程间的单向通信,数据流遵循先进先出原则。例如: ```bash echo "test" | grep "t" ``` 2. **命名管道(FIFO)** 通过文件系统中的特殊文件实现无亲缘关系进程间的通信[^3]。 3. **消息队列(Message Queue)** 允许进程通过发送/接收结构化消息实现异步通信,支持多对多交互。 4. **共享内存(Shared Memory)** 多个进程共享同一块内存区域,是**最快的IPC方式**,但需配合信号量解决同步问题[^4]。 5. **信号量(Semaphore)** 用于进程间同步,控制对共享资源的访问。例如: ```c sem_wait(&sem); // 进入临界区 sem_post(&sem); // 离开临界区 ``` 6. **信号(Signal)** 通过操作系统发送异步通知,如`SIGKILL`终止进程。 7. **套接字(Socket)** 支持跨网络通信,如TCP/IP协议实现进程间数据传输。 --- #### 二、线程间通信方式 线程共享进程资源,通信核心在于**同步与互斥**: 1. **共享变量** 直接通过全局变量或堆内存传递数据,但需同步机制保障线程安全[^2][^5]。 2. **互斥锁(Mutex)** 确保任意时刻只有一个线程访问临界资源: ```python import threading lock = threading.Lock() with lock: # 临界区代码 ``` 3. **信号量(Semaphore)** 控制同时访问资源的线程数量,如限制数据库连接池大小。 4. **条件变量(Condition Variable)** 实现线程间的状态通知,例如生产者-消费者模型: ```python condition.acquire() while buffer.empty(): condition.wait() # 等待资源 # 消费资源 condition.notify() condition.release() ``` 5. **事件(Event)** 通过标志位广播状态变化,如`threading.Event()`的`set()``wait()`方法。 --- #### 三、进程线程通信的核心差异 | **维度** | **进程间通信** | **线程间通信** | |----------------|------------------------------|------------------------------| | 资源隔离 | 完全独立 | 共享进程资源 | | 通信复杂度 | 高(需内核介入) | 低(直接共享内存) | | 同步机制 | 信号量、消息队列等 | 互斥锁、条件变量等 | | 典型应用场景 | 分布式系统、跨程序交互 | 高并发任务、资源共享优化 | --- #### 四、常见面试问题解析 1. **为什么共享内存是最快的IPC方式?** 答:共享内存省去了数据复制到内核缓冲区的步骤,直接通过用户空间映射实现高效访问。 2. **互斥锁与信号量的区别?** 答:互斥锁用于保护临界区(一次仅一个线程进入),信号量可控制多个线程同时访问资源(如限流)。 3. **线程安全如何实现?** 答:通过锁机制(如互斥锁、读写锁)、原子操作(CAS)或无锁数据结构,避免竞态条件。 4. **何时选择多进程而非多线程?** 答:CPU密集型任务(避免GIL限制)、需要高隔离(如安全沙箱)时优先用多进程[^1]。 --- #### 五、易错点与应对策略 - **死锁风险**:线程间多锁未按顺序获取可能导致死锁。 **解决**:统一锁的获取顺序,或使用超时机制(如`threading.Lock.acquire(timeout=5)`)。 - **信号丢失**:进程间使用信号时可能因未注册处理函数导致信号被忽略。 **解决**:显式注册信号处理器(如`signal.signal(signal.SIGINT, handler)`)。 - **共享内存同步问题**:直接操作共享内存可能引发数据不一致。 **解决**:结合信号量或互斥锁实现原子操作。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值