[Python学习]Iterator 和 Generator的学习心得

最新推荐文章于 2024-11-29 19:32:11 发布

转载最新推荐文章于 2024-11-29 19:32:11 发布 · 77 阅读

文章标签：

#python #数据结构与算法

本文探讨了Python中迭代器（Iterator）与生成器（Generator）的概念及其应用。介绍了两者之间的区别，展示了如何使用生成器简化树形结构的遍历，并讨论了自定义迭代器的方法。

[Python学习]Iterator 和 Generator的学习心得

Iterator是迭代器的意思，它的作用是一次产生一个数据项，直到没有为止。这样在 for 循环中就可以对它进行循环处理了。那么它与一般的序列类型(list, tuple等)有什么区别呢？它一次只返回一个数据项，占用更少的内存。但它需要记住当前的状态，以便返回下一数据项。它是一个有着next()方法的对象。而序列类型则保存了所有的数据项，它们的访问是通过索引进行的。

使用Iterator的好处除了节省内存外，还有一个好处就是可以把非线性化的处理转换成线性化的方式来进行处理。如对一棵树的访问，传统的方法可以使用递归函数来处理，下面是对树的一个中序遍历的示例：

例1:

def deal_tree(node):
    if not node:
        return
    if node.leftnode:
        deal_tree(node.leftnode)
    process(node)
    if node.rightnode:
        deal_tree(node.rightnode)

deal_tree(root)

可以看出，对结点的处理函数与递归函数是混在一起的，不是很清晰。使用Iterator的方式改写后为：

例2:

1    def walk_tree(node):
2        if not node:
3            return
4        if node.leftnode:
5            for i in walk_tree(node.leftnode):
6                yield i
7        yield node
8        if node.rightnode:
9            for i in walk_tree(node.rightnode):
10               yield i
11
12   for node in wald_tree(root):
13       process(node)

生成结点的过程仍然是一个递归过程，但对于返回后的结点的处理就变成了线性化的处理，结构上要清晰多了。第5-6,9-10行要特别注意，如果不这样处理直接调用walk_tree的话，其实返回的是一个Iterator对象，而不是想要的元素。

象上面的walk_tree函数在 Python 中可以叫作Generator–产生器，它的作用是生成一个Iterator的对象。那么它主要是将一个函数过程进行封装，转化为Iterator对象，每执行到yield语句时，函数的状态，数据都保存起来，然后返回相应的值。取下一个值的时候，再从上次运行的地方继续运行，如果遇上yield语句，则再次保存状态，返回结果，如果不存在值了，则自动引发一个异常StopIteration，从而Iterator不再产生新的值。从此处我们可以了解，这里的Iterator只可以遍历一次，但并非所有的都是这样，你完全可以对其进行控制。

下面我再介绍一下如何构造自已的Iterator。很简单，创建一个类，满足Iterator的协议，也就是要定义__iter__方法，它返回一个Iterator对象，这个对象必须有next方法，因此我们可以总结出两种对象模式：

class A:
    def __iter__(self):
        return self

    def next(self):
        if has_next_value(self):
            return next_value
        else:
            raise StopIteration

class B:
    def __iter__(self):
        return iterator_obj

A,B分别为两种对象模式(都是示例代码)。模式A表示，在A中定义了next方法，因此__iter__简单地返回自身即可。当不存在下一个值时，引发StopIteration异常。模式B表示，它使用了其它的Iterator对象，因此只需要定义__iter__即可，next不需要定义，因为返回的Iterator对象已经含有next方法了。如果是自已实现next方法，那么在返回值之前需要记住当前的状态，以便下一次运行时，可以取下一个值。

第2个例子好象与这里讲的不一样啊。这就是前面讲的Generator，它的作用就是把一个函数转换成一个Iterator，它自动保存状态，中间数据，引发异常，全部是自动化了。而且它只可以遍历一次。如果想再次遍历，只有重新生成新的Iterator对象才可以。

在最新的 Python 2.4 版中新增了Genetaor Expression方式，它是用来生成简单的，在函数调用需要序列参数时的一种Iterator写法，语法就象是list comprehension的格式，如：