Python的迭代器和生成器

已于 2024-06-19 14:07:34 修改 · 359 阅读

文章标签：

#python #开发语言

于 2024-06-17 21:41:14 首次发布

Python学习专栏收录该内容

16 篇文章

订阅专栏

Python中的迭代器和生成器是处理序列数据的重要工具，可以有效地管理内存并提高代码的可读性和可维护性。在这篇博客中，我们将简单探讨迭代器和生成器的原理、用法及其实际应用

引言

迭代器和生成器是Python中实现惰性求值的两种方式，允许你逐步处理大型数据集而不会一次性加载整个数据集到内存中。这在处理大文件或无限序列时既能充分利用到cpu，用能有效控制程序内存占用。

迭代器

什么是迭代器

迭代器是实现了迭代器协议的对象，简单来说，就是实现了__iter__()和__next__()两个魔法函数(注：实现了__getitem__()**应该也是迭代器)。迭代器用于逐个访问容器的元素，而不用暴露容器的底层表示。

创建迭代器

下面代码展示一个简单的迭代器类

class MyIterator:
    def __init__(self, data):
        self.data = data
        self.index = 0

    def __iter__(self):
        return self

    def __next__(self):
        if self.index < len(self.data):
            result = self.data[self.index]
            self.index += 1
            return result
        else:
            raise StopIteration

# 使用迭代器
my_iter = MyIterator([1, 2, 3, 4])
for item in my_iter:
    print(item)

迭代器的实际应用

迭代器在需要逐步处理数据的大型数据集或数据流时非常有肖，比如读取大文件

class FileIterator:
    def __init__(self, filename):
        self.file = open(filename, 'r')
    
    def __iter__(self):
        return self
    
    def __next__(self):
        line = self.file.readline()
        if line:
            return line.strip()
        else:
            self.file.close()
            raise StopIteration

# 使用FileIterator
file_iter = FileIterator('large_file.txt')
for line in file_iter:
    print(line)

一个10G或者更大的文件，不可能一次性将所有内容都读到内存，使用迭代器，就可以分批次处理。

生成器

什么是生成器

生成器是简化迭代器创建的一种方法。生成器是使用yield关键字的函数，可以在每次迭代时生成一个值，而不是一次性返回所有值。生成器在每次生成值后会自动暂停并记住其位置，下一次调用时从暂停处继续执行。生成器可以理解为一种特殊的迭代器。

创建生成器

生成器很简单，只需要定义一个包含yield的语句函数

def my_generator():
    yield 1
    yield 2
    yield 3

# 使用生成器
for value in my_generator():
    print(value)

生成器表达式

生成器表达式是生成器的一种简洁表示法，类似于列表推导式，但使用小括号：

gen_expr = (x * x for x in range(5))
for value in gen_expr:
    print(value)

生成器的实际应用

生成器在处理无限序列或达数据集时，非常有用，比如斐波那契数列的生成：

def fibonacci():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b

# 使用生成器生成斐波那契数列
fib = fibonacci()
for _ in range(10):
    print(next(fib))

在生成器中，yield能够让函数“暂停”，直到下一次数据传入，才会执行，有点像生产者消费者，来一个处理一个，绝不会有冗余的内存占用，能充分利用cpu，在内存资源比较紧张的时候，生成器是很好的选择，生成器也是Python协程的基础，这个后面再聊。