python字符串过滤性能比较

最新推荐文章于 2025-06-06 15:09:23 发布

原创最新推荐文章于 2025-06-06 15:09:23 发布 · 2.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #字符串 #性能

python 专栏收录该内容

12 篇文章

订阅专栏

本文通过编程实验对比了五种不同的从字符串中提取数字的方法：循环、正则表达式、函数式编程、列表生成式及string.translate()方法。实验在相同条件下运行，通过测量每种方法处理大量随机字符串所需的时间来评估其效率。

总共比较5种方法。直接看代码：

import random
import time
import os
import string

base = string.digits+string.punctuation
total = 100000

def loop(ss):
    """循环"""
    rt = ''
    for c in ss:
        if c in '0123456789':
            rt = rt + c
    return rt

def regular(ss):
    """正则表达式"""
    import re
    rt = re.sub(r'\D', '', ss)
    return rt

def filter_mt(ss):
    """函数式"""
    return filter(lambda c:c.isdigit(), ss)

def list_com(ss):
    """列表生成式"""
    isdigit = {'0': 1, '1': 1, '2': 1, '3': 1, '4': 1,
                        '5':1, '6':1, '7':1, '8':1, '9':1}.has_key
    return ''.join([x for x in ss if isdigit(x)])

def str_tran(ss):
    """string.translate()"""
    table = string.maketrans('', '')
    ss = ss.translate(table,string.punctuation)
    return ss

if __name__ == '__main__':
    lst = []
    for i in xrange(total):
        num = random.randrange(10, 50)
        ss = ''
        for j in xrange(num):
            ss = ss + random.choice(base)
        lst.append(ss)

    s1 = time.time()
    map(loop,lst)
    print "loop: ",time.time() - s1
    print '*'*20
    s1 = time.time()
    map(regular, lst)
    print "regular: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(str_tran, lst)
    print "str_tran: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(filter_mt, lst)
    print "filter_mt: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(list_com, lst)
    print "list_com: ", time.time() - s1