Python-多任务-优快云博客

一、多任务

1-进程和线程

进程是操作系统分配资源的最小单元

线程执行程序的的最小单元

线程依赖进程，可以获取进程的资源

一个程序执行先要创建进程分配资源，然后使用线程执行任务

默认情况下一个进程中有一个线程

2-多任务介绍

运行多个进程或线程执行代码逻辑

多个进程或线程同时执行叫做并行执行

多个进程或线程交替执行叫做并发执行

必行还是并发有cpu个数决定

5个进程 cpu核心是3个计算时时并发执行 5个进程需要抢占cpu资源，谁抢到谁执行代码计算

5个进程 cpu核心10个计算时时并行执行不需要抢占资源，没个进程都已一个独立的cpu核心使用完成计算

多任务在执行计算时，可以执行的同一的计算任务，也可以执行不同的任务

3-多进程

多进程实现多任务就是创建多个进程执行任务函数

任务1 唱歌任务2 跳舞任务3 弹吉他

不使用多任务执行

程序执行顺序是从上往下依次执行，如果上一个函数没有执行完成，那么下一个函数，不会被执行

使用多进程实现多任务

import time
from multiprocessing import Process

def cook():
    print('做饭')
    time.sleep(4)
    print('饭已做好')

def clean():
    print('扫地')
    time.sleep(4)
    print('打扫完成')

def play():
    print('玩游戏')

if __name__ == '__main__':
    # 创建进程
    p1 = Process(target=cook)
    p2 = Process(target=clean)
    p3 = Process(target=play)


    # 执行进程
    p1.start()
    p2.start()
    p3.start()

I-任务中的参数传递

import time
from multiprocessing import Process

def cook(name):
    print(f'做{name}')
    time.sleep(4)
    print('饭已做好')

def clean(a,b,c):
    print(f'打扫{a},{b},{c}')
    time.sleep(4)
    print('打扫完成')

def play(name):
    print(f'玩{name}游戏')

if __name__ == '__main__':
    # 创建进程
    p1 = Process(target=cook,args=['红烧肉'])
    p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
    p3 = Process(target=play,args=['dota'])


    # 执行进程
    p1.start()
    p2.start()
    p3.start()

II-获取进程编号

getpid
getppid

import time
from multiprocessing import Process
import os
def cook(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')

    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')

    print(f'做{name}')
    time.sleep(4)
    print('饭已做好')

def clean(a,b,c):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')
    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')

    print(f'打扫{a},{b},{c}')
    time.sleep(4)
    print('打扫完成')

def play(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')
    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')


    print(f'玩{name}游戏')

if __name__ == '__main__':
    # 创建子进程
    p1 = Process(target=cook,args=['红烧肉'])
    p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
    p3 = Process(target=play,args=['dota'])
    # 执行进程
    p1.start()
    p2.start()
    p3.start()

    # 主进程自己的任务
    print('主进程')
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前主进程编号{num}')

主进程默认情况下是等待子进程结束后在结束整个进程的

也可以通过exit()方法强制退出主进程，所有进程都结束

III-保证进程的执行顺序

会影响执行效率

如果进程之间没有对应的数据传递关系，可以不用保证顺序，多个进程可以同时执行

如果进程之间有数据传递需求，就要保证执行顺序，通过join操作，但是该操作会影响执行效率

import time
from multiprocessing import Process
import os
def cook(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')

    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')

    print(f'做{name}')
    time.sleep(4)
    print('饭已做好')

def clean(a,b,c):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')
    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')

    print(f'打扫{a},{b},{c}')
    time.sleep(4)
    print('打扫完成')

def play(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前子进程编号{num}')
    # 获取父进程编号
    p_num = os.getppid()
    print(f'当前子进程父进程编号{p_num}')


    print(f'玩{name}游戏')

if __name__ == '__main__':
    # 创建子进程
    p1 = Process(target=cook,args=['红烧肉'])
    p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
    p3 = Process(target=play,args=['dota'])
    # 执行进程
    p1.start()
    # 使用jion方法保证执行顺序  变成单任务
    p1.join()
    p2.start()
    p2.join()
    p3.start()
    p3.join()

    # 主进程自己的任务
    print('主进程')
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前主进程编号{num}')

IV-进程间的数据不共享

每个进程的资源时独立。数据就不共享

from multiprocessing import Process
a = 1


def func1():
    global a
    a = a + 1
    print(f'子进程1中的a:{a}')


def func2():
    global a
    a = a + 1
    print(f'子进程2中的a:{a}')


if __name__ == '__main__':

    # 创建进程
    p1 = Process(target=func1)
    p2 = Process(target=func2)

    p1.start()
    p2.start()

    print(f'主进程中的a:{a}')

4-多线程

线程依赖进程，可以创建一个进程，在一个进程下创建多个线程执行任务

# 多线程实现多任务
import time
from threading import Thread
import os
def cook(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'做{name}')
    time.sleep(4)
    print('饭已做好')

def clean(a,b,c):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'打扫{a},{b},{c}')
    time.sleep(4)
    print('打扫完成')

def play(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'玩{name}游戏')

if __name__ == '__main__':

    # 创建线程
    t1 = Thread(target=cook,args=['梅菜扣肉'])
    t2 = Thread(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
    t3 = Thread(target=play,args=['魔兽世界'])

    t1.start()

    t2.start()

    t3.start()


    num = os.getpid()
    print(f'当前进程编号{num}')

线程任务传参

# 多线程实现多任务
import time
from threading import Thread
import os
def cook(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'做{name}')
    time.sleep(4)
    print('饭已做好')

def clean(a,b,c):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'打扫{a},{b},{c}')
    time.sleep(4)
    print('打扫完成')

def play(name):
    # 使用os模块获取当前进程编号
    num = os.getpid()
    print(f'当前进程编号{num}')

    print(f'玩{name}游戏')

if __name__ == '__main__':

    # 创建线程
    t1 = Thread(target=cook,args=['梅菜扣肉'])
    t2 = Thread(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
    t3 = Thread(target=play,args=['魔兽世界'])

    t1.start()

    t2.start()

    t3.start()


    num = os.getpid()
    print(f'当前进程编号{num}')

线程执行任务顺序保证

线程的执行顺序也是无序的，如果需要保证线程执行顺讯也是通过join保证

from threading import Thread
import os
def sing(username,singname):
    print(f'线程1的编号{os.getpid()}')
    print(f'唱{username}的{singname}歌')

def dance(name):
    print(f'线程2的编号{os.getpid()}')
    print(f'跳{name}舞')


def tanzou():
    print(f'线程3的编号{os.getpid()}')
    print('弹吉他')

if __name__ == '__main__':
    # 创建线程传递参数
    t1 = Thread(target=sing,kwargs={'username':'凤凰传奇','singname':'月亮之上'})
    t2 = Thread(target=dance,args=['圆桌舞'])
    t3 = Thread(target=tanzou)

    t1.start()
    t1.join()
    t2.start()
    t2.join()
    t3.start()
    t3.join()

线程键共享数据

多个线程是在一个进程下运行，他们可以使用同一个进程下的资源

from threading import Thread
a = 1


def func1():
    global a
    a = a + 1
    print(f'线程中的a:{a}')


def func2():
    global a
    a = a + 1
    print(f'线程中的a:{a}')


if __name__ == '__main__':

    # 创建进程
    t1 = Thread(target=func1)
    t2 = Thread(target=func2)

    t1.start()
    t2.start()

    print(f'主进程中的a:{a}')

当共享数据是，多个线程操作同一个数据，那么有可能会因为资源抢占造成计算错误

可以通过join保证数据能完整计算

from threading import Thread
a = 0


def func1():
    global a
    for i in range(1000000):
        a = a + 1
    print(f'func1线程中的a:{a}')


def func2():
    global a
    for i in range(1000000):
        a = a + 1
    print(f'func2线程中的a:{a}')


if __name__ == '__main__':

    # 创建进程
    t1 = Thread(target=func1)
    t2 = Thread(target=func2)

    t1.start()
    t1.join()
    t2.start()
    t2.join()

    print(f'主进程中的a:{a}')

5-多任务总结

进程和线程

进程是分配资源的最小单元线程是执行任务的最小单元

实现多任务可以使用多进程或多线

为什么要使用多任务？

提升计算效率，当cpu资源充足是，可以实现多个任务同时执行。

后续spark底层实现采用的多线程方式，spark计算效率很高。spark已经封装实现，开发不需要写多线程。

mapreduce的计算是使用多进程方式实现多任务

实际开发为什么不用多进程实现多任务？更多是采用多线程?

创建进程的开销加大，创建时间长。每创建一个进程都需要额外有计算机分配资源，分配资源也会耗费时间

多进程间不共享数据

多线程会共享数据，如果发生资源抢占会造成数据计算错误

主进程会等到所有任务结束后再结束