python字符串过滤性能比较

本文通过编程实验对比了五种不同的从字符串中提取数字的方法:循环、正则表达式、函数式编程、列表生成式及string.translate()方法。实验在相同条件下运行,通过测量每种方法处理大量随机字符串所需的时间来评估其效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

总共比较5种方法。直接看代码:

import random
import time
import os
import string

base = string.digits+string.punctuation
total = 100000

def loop(ss):
    """循环"""
    rt = ''
    for c in ss:
        if c in '0123456789':
            rt = rt + c
    return rt

def regular(ss):
    """正则表达式"""
    import re
    rt = re.sub(r'\D', '', ss)
    return rt

def filter_mt(ss):
    """函数式"""
    return filter(lambda c:c.isdigit(), ss)

def list_com(ss):
    """列表生成式"""
    isdigit = {'0': 1, '1': 1, '2': 1, '3': 1, '4': 1,
                        '5':1, '6':1, '7':1, '8':1, '9':1}.has_key
    return ''.join([x for x in ss if isdigit(x)])

def str_tran(ss):
    """string.translate()"""
    table = string.maketrans('', '')
    ss = ss.translate(table,string.punctuation)
    return ss

if __name__ == '__main__':
    lst = []
    for i in xrange(total):
        num = random.randrange(10, 50)
        ss = ''
        for j in xrange(num):
            ss = ss + random.choice(base)
        lst.append(ss)

    s1 = time.time()
    map(loop,lst)
    print "loop: ",time.time() - s1
    print '*'*20
    s1 = time.time()
    map(regular, lst)
    print "regular: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(str_tran, lst)
    print "str_tran: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(filter_mt, lst)
    print "filter_mt: ", time.time() - s1
    print '*' * 20
    s1 = time.time()
    map(list_com, lst)
    print "list_com: ", time.time() - s1
<think>嗯,用户想了解如何进行字符串过滤的方法和示例。首先,我需要回忆一下字符串过滤的基本概念,可能涉及不同的编程语言。记得字符串过滤通常是指从字符串中移除或替换不需要的字符或模式,比如敏感词、非数字字符等。 用户提供的引用里有Python、PHP和C的例子,应该覆盖这些语言。先整理每个引用中的方法。引用[1]提到Python中使用列表推导式过滤字符串列表,比如检查子字符串是否存在。引用[2]是PHP的敏感词过滤,用正则表达式替换。引用[3]是C语言过滤非数字字符,通过循环和条件判断处理字符数组。 接下来,我需要分步骤解释字符串过滤的一般思路,然后给出不同语言的示例。要注意用户可能对不同语言感兴趣,所以每个例子要清晰标明语言。比如,Python可能用列表推导式和正则表达式,PHP用str_replace和preg_replace,C则需要手动操作字符数组。 用户的问题可能还包括如何过滤不同类型的字符,比如数字、字母或特定敏感词。可能需要提到正则表达式在过滤中的强大功能,比如匹配模式、替换等。同时,敏感词过滤需要注意效率,比如预处理敏感词库,使用Trie树结构优化,这在引用中没有提到,但可以补充作为优化方法。 还要注意代码示例的正确性。比如,在C语言的例子中,用户提供的代码可能有问题,比如循环条件和数组处理是否正确。需要检查并指出可能的改进点,比如使用isalpha函数判断字母,或者更安全的输入方式避免缓冲区溢出。 另外,用户可能想知道实际应用场景,比如数据清洗、敏感词过滤、输入验证等。需要结合实际例子说明每个方法的适用情况。 最后,生成相关问题时要涵盖性能优化、不同语言实现、应用场景和特殊字符处理等方面,帮助用户深入理解。</think>### 字符串过滤方法及示例 字符串过滤的核心是通过条件判断或模式匹配,从原始字符串中提取或替换特定内容。以下是具体方法和示例: --- #### 一、通用过滤思路 1. **明确过滤目标**:例如过滤非数字字符、敏感词、特定符号等。 2. **选择匹配方式**: - **条件遍历**:逐个字符判断是否符合要求(如C语言示例)[^3]。 - **正则表达式**:通过模式匹配高效筛选或替换(如PHP示例)[^2]。 3. **结果处理**:保留目标字符或替换/删除非目标内容。 --- #### 二、不同语言实现示例 ##### 1. Python - **过滤非数字字符**: ```python s = "a1b2c3" filtered = ''.join([c for c in s if c.isdigit()]) # 输出"123"[^1] ``` - **敏感词过滤**: ```python sensitive_words = ["bad", "block"] text = "This is a bad word." for word in sensitive_words: text = text.replace(word, "*" * len(word)) # 输出"This is a *** word." ``` ##### 2. PHP - **正则表达式替换敏感词**: ```php $text = "This is a forbidden word."; $pattern = '/forbidden|word/'; $replacement = '***'; echo preg_replace($pattern, $replacement, $text); // 输出"This is a *** ***."[^2] ``` ##### 3. C语言 - **过滤字母保留数字**: ```c #include <stdio.h> #include <ctype.h> int main() { char str[] = "ab12cd34"; int j = 0; for (int i = 0; str[i]; i++) { if (isdigit(str[i])) { // 仅保留数字字符 str[j++] = str[i]; } } str[j] = '\0'; printf("%s", str); // 输出"1234" } ``` > 改进点:使用`isdigit()`函数更安全,原示例的循环逻辑可能导致数组越界[^3]。 --- #### 三、关键技巧 - **正则表达式**:如`\d`匹配数字,`[a-zA-Z]`匹配字母。 - **性能优化**:敏感词过滤可预处理词库为Trie树结构加速匹配。 - **输入安全**:过滤用户输入时需防止缓冲区溢出(如C语言中限制输入长度)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值