5个影响Python性能的错误及提升代码效率技巧

最新推荐文章于 2024-11-09 15:39:51 发布

原创最新推荐文章于 2024-11-09 15:39:51 发布 · 1.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

本文探讨了Python脚本运行速度慢的常见问题，如过度循环、使用不当的工具、盲目优化、DIY陷阱和磁盘I/O过高等，并提供了相应的修复方法和代码示例，强调了利用NumPy、数据结构和Python标准库的重要性。

大家好，Python 脚本的运行速度过慢通常会影响所有相关人员的体验，甚至可能威胁到项目的成功。本文将介绍一些常见的影响性能的错误，并提供可行的修复方法和代码示例。

1.循环过度

许多开发人员都钟爱精心设计的 for 循环。它们是处理大量工作的基石。然而，当涉及纯粹的速度问题，尤其是在处理大型数据集时，这些可靠的循环可能会变得更像负担，而不是动力。

比如，需要对一个巨大的数字列表的平方进行求和。以下是低效的循环方法：

numbers = [1, 2, 3, 4, 5, ... , 10000]  # 一个大列表
total = 0
for number in numbers:
    squared = number * number
    total += squared

看起来似乎没有问题，但在背后，Python 为每个元素执行了大量的单独计算。

修复方法：NumPy 来拯救

NumPy 的核心是矢量化--一次性对整个数组执行操作。重写一下这个例子：

import numpy as np

numbers = np.array([1, 2, 3, 4, 5, ... , 10000])  
squared = numbers * numbers  # 向量化的平方！
total = squared.sum()

这样就不再逐个元素地计算，NumPy 一次性处理了整个计算过程。

2.用错工具

想象一下，如果只用一把锤子来建造一座房子，或许能完成，但结果会相当混乱。同样，对于 Python 编程来说，仅仅依赖列表来完成所有任务，就像只用一只手在编程。

假设有一个联系人列表，如下所示：

contacts = [
    {"name": "Alice", "phone": "123-4567"},
    {"name": "Bob", "phone": "789-0123"},
    # ... 更多联系人
]

要找到 Bob 的电话号码，需要扫描整个列表，可能要检查每个联系人，操作非常麻烦。

解决方案：拥有超能力的数据结构

字典：快速查找伙伴如果要通过关键字（如 "name"）进行搜索，字典就是救星。

contacts_dict = {
    "Alice": "123-4567",
    "Bob": "789-0123",
    # ... 更多联系人
}
bobs_number = contacts_dict["Bob"]  # 瞬间获取！

集合：强制执行唯一性

如果想要跟踪网站的唯一访问者，可以使用集合（Set）来实现。集合会自动去除重复的项，因此可以确保每个访问者只被计数一次。

unique_visitors = set()
unique_visitors.add("192.168.1.100")
unique_visitors.add("124.58.23.5")
unique_visitors.add("192.168.1.100")  # 不会添加重复项

当你熟悉了 Python 工具包，会发现它不仅提供了通用的内置容器（如字典、列表、集合和元组），还包含了一些专门化的容器。这些工具在编写脚本时非常有用，能够提高代码的效率和可读性。了解和掌握何时使用这些工具，会使你的脚本从普通走向卓越。

3.盲目优化

开发人员有时会有这种感觉，确信自己的代码运行缓慢，但却不知道原因，不知如何进行修补。

假设编写了一个复杂的函数，用于计算斐波那契数列中的数字，花费了大量时间来优化数学运算，但是计算速度仍然很慢。最终发现，瓶颈可能出现在某些不太起眼的地方，比如如何将计算结果记录到文件中。

解决方案：cProfile 来拯救

Python 内置的cProfile模块可以解决，以下为使用方法：

import cProfile

def my_function():
    # 要进行性能分析的代码

cProfile.run('my_function()')

这将生成大量统计数据，主要内容如下：

ncalls：函数被调用的次数。
tottime：在函数内部总共花费的时间。
cumtime：类似于 tottime，但包括在其内部调用的所有函数所花费的时间。

通过分析这些数字，可以找到真正的瓶颈，帮助开发人员将优化工作集中在影响最大的地方。

4.DIY 陷阱

有时往往有想从零开始构建一切的冲动，但是重新发明轮子就像决定徒步穿越整个国家，而不选择坐飞机一样。Python 提供了内置的高度优化函数，可以帮助开发者更高效地完成任务。

如果需要对数字列表排序吗，可以编写自己的冒泡排序实现，或者使用 Python 的sorted()：

my_list = [5, 3, 1, 4, 2]

# 传统的方式（可能非常慢）
def my_bubble_sort(list): 
   # ... 你的排序代码在这里

# Pythonic 的方式
sorted_list = sorted(my_list)

很可能，自定义的排序算法甚至无法达到内置算法的效率。

修正方法：探索宝库

Python 标准库是开发者最好的朋友。了解以下强大的模块：

itertools：为迭代器增添动力
heapq：用于管理堆
bisect：保持有序列表的顺序，速度极快。

花时间学习内置函数，将来就会节省优化的时间。

5.过多的磁盘读写

将电脑内存（RAM）视为超快速工作区，将硬盘视为城市另一端的存储仓库。每次访问或修改文件，就好比派遣一名信使来回奔波传递信息。如果往返次数过多，代码就会开始感到等待的煎熬。

假设正在处理一个庞大的日志文件：

with open("huge_log.txt", "r") as file:
    for line in file:
        # 逐行处理

每读取一行都意味着从硬盘中获取一次数据。

解决方法：更聪明地工作，而不是更努力地工作

如果文件较小，有时最快的方法是一次性将整个文件读入内存：

with open("huge_log.txt", "r") as file:
    contents = file.read() 
    # 在内存中处理内容

缓冲区的拯救：当需要精细控制时，缓冲区可以帮助解决：

with open("huge_log.txt", "r") as file:
    while True:
        chunk = file.read(4096)  # 分块读取
        if not chunk:
            break
        # 处理块数据

以块为单位思考，而不是字节，可以大大减少访问“仓库”的次数。