用字典替代双重循环实现快速查找

最新推荐文章于 2021-04-07 09:45:47 发布

原创最新推荐文章于 2021-04-07 09:45:47 发布 · 1.8k 阅读

5 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一种使用字典结构优化文件比对的方法，通过建立字典索引提高查找速度，尤其适用于处理大规模文件。相较于传统的双层循环比对方式，此方法能显著提升效率。

1、需求是比对两个文件然后将具有的相同行写入另一个文件(大概是这个意思)；最直接的的做法肯定是双重循环分别遍历然后比较行是否相同，相同则写入，对于较小的文件还可以忍受，对于相对较大的几万甚至几十万的处理起来速度不可谓不慢，慢到难以忍受！然后如何实现快速查找呢，想到利用字典(速度快了不只几百倍啊！)：其原理是先在字典的索引表里（比如部首表）查这个行对应的页码，然后直接翻到该页，找到这一行，无论找哪一行，这种查找速度都非常快，不会随着字典大小的增加而变慢。

2、具体实例代码(基于python)

import codecs
import os

#定义字典
dic=dict()
#根据文件一创建字典
img_full_path = '/home/ubuntu/handle1.txt'
ann_file = codecs.open(img_full_path, 'r', encoding='utf-8')
lines = ann_file.readlines()

q=open("./handle01.txt","w")
count=0
#按行创建字典(这里的一行中间有空格分成两部分)
for path in lines:
    image_text = path.strip('\n').split(' ')
    text_path = image_text[0]
    dic[text_path]=path #一行的第一部分作为键，整体一行作为值
    #print dic
#根据文件二查找字典
dir="/home/ubuntu/handle1"
for root, dirs, files in os.walk(dir):
    for name in files:
        if count%200==0:
            print count
        img_path=os.path.join(root,name)
        if dic.has_key(img_path):  #判断键是否存在，这里还有一种方法为 if img_path in dic.keys()
            q.write(dic.get(img_path))#写入文件三
            count+=1

3、效率对比：
因为这里处理的文件都是几十万行的，处理速度相差实在太大，就不在展示；

4、字典原理
dict内部存放的顺序和key放入的顺序是没有关系的。
查找和插入的速度极快，不会随着key的增加而增加；
需要占用大量的内存，内存浪费多。
dict是用空间来换取时间的一种方法。
dict的key必须是不可变对象。这是因为dict根据key来计算value的存储位置，如果每次计算相同的key得出的结果不同，那dict内部就完全混乱了。这个通过key计算位置的算法称为哈希算法（Hash）。要保证hash的正确性，作为key的对象就不能变。在Python中，字符串、整数等都是不可变的，因此，可以放心地作为key。而list是可变的，就不能作为key；

总结：知道有这么个东西，但是当实际需求的时候却不一定立刻想得起来，还是欠思考、用的少啊！