python 多线程、多进程编写

最新推荐文章于 2021-12-07 16:40:54 发布

Stride Max Zz

最新推荐文章于 2021-12-07 16:40:54 发布

阅读量246

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_35324057/article/details/115979998

版权

python 专栏收录该内容

3 篇文章

订阅专栏

写在前面

程序效率有点低，搞了下多线程提高下效率，记录在这里。

多线程

有很多编写方式，首先推荐几个包：

threading
concurrent

我实用的是concurrent这个包，因为它里面有现成的线程池，只需设置并发执行的线程数即可，代码：

    thread_list = []
    if args.domainfile:
        executor = ThreadPoolExecutor(max_workers=1000)
        domain_list = process_file(args.domainfile)
        # lock = threading.Lock()
        for domain in domain_list:
            thread_list.append(executor.submit(scrape_and_verify_scts,
                                               domain, args.port,
                                               args.verification_tasks,
                                               ctlogs, basedir))
        executor.shutdown(wait=True)
    wait(thread_list, return_when=ALL_COMPLETED)

首先要说的是，每个线程里面的局部变量是互相不影响的（查阅了很多资料得出，但不是很确定）。所以如果有全局变量则需要上锁。总结下我遇到的几种上锁的情况：

打印输出数据混乱，因为并发执行的原因，所以打印需要上锁。
输出到文件混乱，同上。

上锁之后效率会受影响，所以我采用将每个线程写入到一个文件，后面再将文件整合的方式，目前来看整合文件也有点慢。

说一下代码中的意思：

submit：提交一个线程到线程池
ThreadPoolExecutor：创建线程池
shutdown：等所有的线程结束，释放资源
wait：主线程阻塞，等待所有线程执行完毕

包的导入： from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED, FIRST_COMPLETED

再说一下Thread重写类：

# 做一些改变，目前程序效率极低，希望采用多进程来解决这个问题，目前想法是将每个domain name看作一个进程，并行来处理。
# class ConnThread(threading.Thread):
#     def __init__(self, func, domain, port, verification_tasks, logs, lock):
#         threading.Thread.__init__(self)
#         # super(ConnThread, self).__init__()
#         self.func = func
#         self.domain = domain
#         self.port = port
#         self.verification_tasks = verification_tasks
#         self.logs = logs
#         self.lock = lock
#
#     def run(self):
#         self.func(self.domain, self.port, self.verification_tasks, self.logs, self.lock)