一、多任务
1-进程和线程
进程是操作系统分配资源的最小单元
线程执行程序的的最小单元
线程依赖进程,可以获取进程的资源
一个程序执行 先要创建进程分配资源,然后使用线程执行任务
默认情况下一个进程中有一个线程
2-多任务介绍
运行多个进程或线程执行代码逻辑
多个进程或线程同时执行叫做并行执行
多个进程或线程交替执行叫做并发执行
必行还是并发有cpu个数决定
5个进程 cpu核心是3个 计算时时并发执行 5个进程需要抢占cpu资源,谁抢到谁执行代码计算
5个进程 cpu核心10个 计算时时并行执行 不需要抢占资源,没个进程都已一个独立的cpu核心使用完成计算
多任务在执行计算时,可以执行的同一的计算任务,也可以执行不同的任务
3-多进程
多进程实现多任务就是创建多个进程执行任务函数
任务1 唱歌 任务2 跳舞 任务3 弹吉他
不使用多任务执行
程序执行顺序是从上往下依次执行,如果上一个函数没有执行完成,那么下一个函数,不会被执行
使用多进程实现多任务
import time
from multiprocessing import Process
def cook():
print('做饭')
time.sleep(4)
print('饭已做好')
def clean():
print('扫地')
time.sleep(4)
print('打扫完成')
def play():
print('玩游戏')
if __name__ == '__main__':
# 创建进程
p1 = Process(target=cook)
p2 = Process(target=clean)
p3 = Process(target=play)
# 执行进程
p1.start()
p2.start()
p3.start()
I-任务中的参数传递
import time
from multiprocessing import Process
def cook(name):
print(f'做{name}')
time.sleep(4)
print('饭已做好')
def clean(a,b,c):
print(f'打扫{a},{b},{c}')
time.sleep(4)
print('打扫完成')
def play(name):
print(f'玩{name}游戏')
if __name__ == '__main__':
# 创建进程
p1 = Process(target=cook,args=['红烧肉'])
p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
p3 = Process(target=play,args=['dota'])
# 执行进程
p1.start()
p2.start()
p3.start()
II-获取进程编号
-
getpid
-
getppid
import time
from multiprocessing import Process
import os
def cook(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'做{name}')
time.sleep(4)
print('饭已做好')
def clean(a,b,c):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'打扫{a},{b},{c}')
time.sleep(4)
print('打扫完成')
def play(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'玩{name}游戏')
if __name__ == '__main__':
# 创建子进程
p1 = Process(target=cook,args=['红烧肉'])
p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
p3 = Process(target=play,args=['dota'])
# 执行进程
p1.start()
p2.start()
p3.start()
# 主进程自己的任务
print('主进程')
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前主进程编号{num}')
主进程默认情况下是等待子进程结束后在结束整个进程的
也可以通过exit()方法强制退出主进程,所有进程都结束
III-保证进程的执行顺序
会影响执行效率
如果进程之间没有对应的数据传递关系,可以不用保证顺序,多个进程可以同时执行
如果进程之间有数据传递需求,就要保证执行顺序,通过join操作,但是该操作会影响执行效率
import time
from multiprocessing import Process
import os
def cook(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'做{name}')
time.sleep(4)
print('饭已做好')
def clean(a,b,c):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'打扫{a},{b},{c}')
time.sleep(4)
print('打扫完成')
def play(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前子进程编号{num}')
# 获取父进程编号
p_num = os.getppid()
print(f'当前子进程父进程编号{p_num}')
print(f'玩{name}游戏')
if __name__ == '__main__':
# 创建子进程
p1 = Process(target=cook,args=['红烧肉'])
p2 = Process(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
p3 = Process(target=play,args=['dota'])
# 执行进程
p1.start()
# 使用jion方法保证执行顺序 变成单任务
p1.join()
p2.start()
p2.join()
p3.start()
p3.join()
# 主进程自己的任务
print('主进程')
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前主进程编号{num}')
IV-进程间的数据不共享
每个进程的资源时独立。数据就不共享
from multiprocessing import Process
a = 1
def func1():
global a
a = a + 1
print(f'子进程1中的a:{a}')
def func2():
global a
a = a + 1
print(f'子进程2中的a:{a}')
if __name__ == '__main__':
# 创建进程
p1 = Process(target=func1)
p2 = Process(target=func2)
p1.start()
p2.start()
print(f'主进程中的a:{a}')
4-多线程
线程依赖进程,可以创建一个进程,在一个进程下创建多个线程执行任务
# 多线程实现多任务
import time
from threading import Thread
import os
def cook(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'做{name}')
time.sleep(4)
print('饭已做好')
def clean(a,b,c):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'打扫{a},{b},{c}')
time.sleep(4)
print('打扫完成')
def play(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'玩{name}游戏')
if __name__ == '__main__':
# 创建线程
t1 = Thread(target=cook,args=['梅菜扣肉'])
t2 = Thread(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
t3 = Thread(target=play,args=['魔兽世界'])
t1.start()
t2.start()
t3.start()
num = os.getpid()
print(f'当前进程编号{num}')
线程任务传参
# 多线程实现多任务
import time
from threading import Thread
import os
def cook(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'做{name}')
time.sleep(4)
print('饭已做好')
def clean(a,b,c):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'打扫{a},{b},{c}')
time.sleep(4)
print('打扫完成')
def play(name):
# 使用os模块获取当前进程编号
num = os.getpid()
print(f'当前进程编号{num}')
print(f'玩{name}游戏')
if __name__ == '__main__':
# 创建线程
t1 = Thread(target=cook,args=['梅菜扣肉'])
t2 = Thread(target=clean,kwargs={'a':'客厅','b':'厨房','c':'卧室'})
t3 = Thread(target=play,args=['魔兽世界'])
t1.start()
t2.start()
t3.start()
num = os.getpid()
print(f'当前进程编号{num}')
线程执行任务顺序保证
线程的执行顺序也是无序的,如果需要保证线程执行顺讯也是通过join保证
from threading import Thread
import os
def sing(username,singname):
print(f'线程1的编号{os.getpid()}')
print(f'唱{username}的{singname}歌')
def dance(name):
print(f'线程2的编号{os.getpid()}')
print(f'跳{name}舞')
def tanzou():
print(f'线程3的编号{os.getpid()}')
print('弹吉他')
if __name__ == '__main__':
# 创建线程传递参数
t1 = Thread(target=sing,kwargs={'username':'凤凰传奇','singname':'月亮之上'})
t2 = Thread(target=dance,args=['圆桌舞'])
t3 = Thread(target=tanzou)
t1.start()
t1.join()
t2.start()
t2.join()
t3.start()
t3.join()
线程键共享数据
多个线程是在一个进程下运行,他们可以使用同一个进程下的资源
from threading import Thread
a = 1
def func1():
global a
a = a + 1
print(f'线程中的a:{a}')
def func2():
global a
a = a + 1
print(f'线程中的a:{a}')
if __name__ == '__main__':
# 创建进程
t1 = Thread(target=func1)
t2 = Thread(target=func2)
t1.start()
t2.start()
print(f'主进程中的a:{a}')
当共享数据是,多个线程操作同一个数据,那么有可能会因为资源抢占造成计算错误
可以通过join保证数据能完整计算
from threading import Thread
a = 0
def func1():
global a
for i in range(1000000):
a = a + 1
print(f'func1线程中的a:{a}')
def func2():
global a
for i in range(1000000):
a = a + 1
print(f'func2线程中的a:{a}')
if __name__ == '__main__':
# 创建进程
t1 = Thread(target=func1)
t2 = Thread(target=func2)
t1.start()
t1.join()
t2.start()
t2.join()
print(f'主进程中的a:{a}')
5-多任务总结
进程和线程
进程是分配资源的最小单元 线程是执行任务的最小单元
实现多任务可以使用多进程或多线
为什么要使用多任务?
提升计算效率,当cpu资源充足是,可以实现多个任务同时执行。
后续spark底层实现采用的多线程方式,spark计算效率很高。spark已经封装实现,开发不需要写多线程。
mapreduce的计算是使用多进程方式实现多任务
实际开发为什么不用多进程实现多任务?更多是采用多线程?
创建进程的开销加大,创建时间长。每创建一个进程都需要额外有计算机分配资源,分配资源也会耗费时间
多进程间不共享数据
多线程会共享数据,如果发生资源抢占会造成数据计算错误
主进程会等到所有任务结束后再结束