工作中遇到的问题:百万条数据的查询、删除、修改效率提高的一些思考,解决方案(二)

本文深入探讨了在数据库中为特定字段创建索引以提高查询效率的方法,并详细介绍了如何利用多进程技术进一步提升大规模数据更新操作的性能。通过案例分析,展示了在特定场景下,合理运用索引和多进程策略可以显著减少数据处理时间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、在数据库中为需要where的字段建立索引:


create index mesh_idex on road_2015(mesh);(create index 索引名 on 表名(字段名))


在数据库中按照mesh字段建立索引后,对于15905283条数全部的version字段按照mesh字段进行update的单进程耗时为32分钟。


2、使用多进程:

python多线程:

#第个进行程的执行函数

def in_one_thread(partition, job_conf):

        ...

        ...

def   do_first_diff_multi_thread(job_conf, name_dict):
logger.notice_log("now begin first diff job!")

mid_data_path = job_conf["mid_data_path"]
if os.path.exists(mid_data_path):
shutil.rmtree(mid_data_path)
os.makedirs(mid_data_path)
thread_num = 6

city_list = sorted(name_dict.keys())

###对全部城市按照线程进行任务分区

partition_num = len(name_dict)/thread_num
thread_list = []

for i in range(thread_num):

              ####如果是最后一组,就将多余的城市分到最后一组

if i == thread_num - 1:
partition = city_list[i*partition_num:]
proc = Process(target=in_one_thread, args=(partition, job_conf,))
thread_list.append(proc)
continue

partition = city_list[i*partition_num: (i+1)*partition_num]

#####这一步极为重要进程函数的调用

proc = Process(target=in_one_thread, args=(partition, job_conf))

thread_list.append(proc)

        ###启动全部进程

for p in thread_list: p.start()

###等待全部进程反回

for p in thread_list: p.join()


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值