關于我
一個有思想的程序猿,終身學習實踐者,目前在一個創業團隊任team lead,技術棧涉及Android、Python、Java和Go,這個也是我們團隊的主要技術棧。
Github:https://github.com/hylinux1024
微信公眾號:終身開發者(angrycode)

Python 中可迭代( Iterable )、迭代器( Iterator )和生成器( Generator )這幾個概念是經常用到的,初學時對這幾個概念也是經常混淆,現在是時候把這幾個概念搞清楚了。

0x00 可迭代(Iterable)

簡單的說,一個對象(在Python里面一切都是對象)只要實現了只要實現了 __iter__() 方法,那么用 isinstance() 函數檢查就是 Iterable 對象;

例如

            
              class IterObj:

    def __iter__(self):
        # 這里簡單地返回自身
        # 但實際情況可能不會這么寫
        # 而是通過內置的可迭代對象來實現
        # 下文的列子中將會展示
        return self 
            
          

上面定義了一個類 IterObj 并實現了 __iter__() 方法,這個就是一個 可迭代(Iterable)對象

            
                  it = IterObj()
    print(isinstance(it, Iterable))  # true
    print(isinstance(it, Iterator))  # false
    print(isinstance(it, Generator)) # false
            
          

記住這個類,下文我們還會看到這個類的定義。

常見的可迭代對象

Python 中有哪些常見的可迭代對象呢?

  1. 集合或序列類型(如 list tuple set dict str
  2. 文件對象
  3. 在類中定義了 __iter__() 方法的對象,可以被認為是 Iterable 對象,但自定義的可迭代對象要能在 for 循環中正確使用,就需要保證 __iter__() 實現必須是正確的(即可以通過內置 iter() 函數轉成 Iterator 對象。關于 Iterator 下文還會說明,這里留下一個坑,只是記住 iter() 函數是能夠將一個可迭代對象轉成迭代器對象,然后在 for 中使用)
  4. 在類中實現了如果只實現 __getitem__() 的對象可以通過 iter() 函數轉化成迭代器但其本身不是可迭代對象。所以當一個對象能夠在 for 循環中運行,但不一定是 Iterable 對象。

關于 第1、2點 我們可以通過以下來驗證

            
                  print(isinstance([], Iterable))  # true list 是可迭代的
    print(isinstance({}, Iterable))  # true 字典是可迭代的
    print(isinstance((), Iterable))  # true 元組是可迭代的
    print(isinstance(set(), Iterable))  # true set是可迭代的
    print(isinstance('', Iterable))  # true 字符串是可迭代的

    currPath = os.path.dirname(os.path.abspath(__file__))
    with open(currPath+'/model.py') as file:
        print(isinstance(file, Iterable)) # true
            
          

我們再來看 第3點

            
                  print(hasattr([], "__iter__")) # true
    print(hasattr({}, "__iter__")) # true
    print(hasattr((), "__iter__")) # true
    print(hasattr('', "__iter__")) # true
            
          

這些內置集合或序列對象都有 __iter__ 屬性,即他們都實現了同名方法。但這個可迭代對象要在 for 循環中被使用,那么它就應該能夠被內置的 iter() 函數調用并轉化成 Iterator 對象。
例如,我們看內置的可迭代對象

            
                  print(iter([])) # 
              
                
    print(iter({})) # 
                
                  
    print(iter(())) # 
                  
                    
    print(iter('')) # 
                    
                  
                
              
            
          

它們都相應的轉成了對應的迭代器( Iterator )對象。
現在回過頭再看看一開始定義的那個 IterObj

            
              class IterObj:

    def __iter__(self):
        return self 

it = IterObj()
print(iter(it))
            
          

我們使用了 iter() 函數,這時候將再控制臺上打印出以下信息:

            
              Traceback (most recent call last):
  File "/Users/mac/PycharmProjects/iterable_iterator_generator.py", line 71, in 
              
                
    print(iter(it))
TypeError: iter() returned non-iterator of type 'IterObj'
              
            
          

出現了類型錯誤,意思是 iter() 函數不能將‘非迭代器’類型轉成迭代器。

那如何才能將一個可迭代( Iterable )對象轉成迭代器( Iterator )對象呢?
我們修改一下 IterObj 類的定義

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

    def __iter__(self):
        return iter(self.a)
            
          

我們在構造方法中定義了一個名為 a 的列表,然后還實現了 __iter__() 方法。

修改后的類是可以被 iter() 函數調用的,即也可以在 for 循環中使用

            
                  it = IterObj()
    print(isinstance(it, Iterable)) # true
    print(isinstance(it, Iterator)) # false
    print(isinstance(it, Generator)) # false
    print(iter(it)) # 
              
                
    for i in it:
        print(i) # 將打印3、5、7、11、13、17、19元素
              
            
          

因此 在定義一個可迭代對象時,我們要非常注意 __iter__() 方法的內部實現邏輯,一般情況下,是通過一些已知的可迭代對象(例如,上文提到的集合、序列、文件等或其他正確定義的可迭代對象)來輔助我們來實現

關于 第4點 說明的意思是 iter() 函數可以將一個實現了 __getitem__() 方法的對象轉成迭代器對象,也可以在 for 循環中使用,但是如果用 isinstance() 方法來檢測時,它不是一個可迭代對象。

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

    def __getitem__(self, i):
        return self.a[i]

it = IterObj()
print(isinstance(it, Iterable)) # false
print(isinstance(it, Iterator)) # false
print(isinstance(it, Generator)) false
print(hasattr(it, "__iter__")) # false
print(iter(it)) # 
              
                

for i in it:
    print(i) # 將打印出3、5、7、11、13、17、19
              
            
          

這個例子說明了可以 for 中使用的對象,不一定是可迭代對象。

現在我們做個小結:

  1. 一個可迭代的對象是實現了 __iter__() 方法的對象
  2. 它要在 for 循環中使用,就必須滿足 iter() 的調用(即調用這個函數不會出錯,能夠正確轉成一個 Iterator 對象)
  3. 可以通過已知的可迭代對象來輔助實現我們自定義的可迭代對象。
  4. 一個對象實現了 __getitem__() 方法可以通過 iter() 函數轉成 Iterator ,即可以在 for 循環中使用,但它不是一個可迭代對象(可用isinstance方法檢測())

0x01 迭代器(Iterator)

上文很多地方都提到了 Iterator ,現在我們把這個坑填上。
當我們對可迭代的概念了解后,對于迭代器就比較好理解了。
一個對象實現了 __iter__() __next__() 方法,那么它就是一個迭代器對象。 例如

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

        self.n = len(self.a)
        self.i = 0

    def __iter__(self):
        return iter(self.a)

    def __next__(self):
        while self.i < self.n:
            v = self.a[self.i]
            self.i += 1
            return v
        else:
            self.i = 0
            raise StopIteration()
            
          

IterObj 中,構造函數中定義了一個列表 a ,列表長度 n ,索引 i

            
                  it = IterObj()
    print(isinstance(it, Iterable)) # true
    print(isinstance(it, Iterator)) # true
    print(isinstance(it, Generator)) # false
    print(hasattr(it, "__iter__")) # true
    print(hasattr(it, "__next__")) # true
            
          

我們可以發現上文提到的
集合和序列對象是可迭代的但不是迭代器

            
                  print(isinstance([], Iterator)) # false
    print(isinstance({}, Iterator)) # false
    print(isinstance((), Iterator)) # false
    print(isinstance(set(), Iterator)) # false
    print(isinstance('', Iterator)) # false
            
          

文件對象是迭代器

            
                  currPath = os.path.dirname(os.path.abspath(__file__))
    with open(currPath+'/model.py') as file:
        print(isinstance(file, Iterator)) # true
            
          

一個迭代器( Iterator )對象不僅可以在 for 循環中使用,還可以通過內置函數 next() 函數進行調用。 例如

            
              it = IterObj()
next(it) # 3
next(it) # 5
            
          

0x02 生成器(Generator)

現在我們來看看什么是生成器?
一個生成器既是可迭代的也是迭代器

定義生成器有兩種方式:

  1. 列表生成器
  2. 使用 yield 定義生成器函數

先看第1種情況

            
                  g = (x * 2 for x in range(10)) # 0~18的偶數生成器 
    print(isinstance(g, Iterable)) # true
    print(isinstance(g, Iterator)) # true
    print(isinstance(g, Generator)) # true
    print(hasattr(g, "__iter__")) # true
    print(hasattr(g, "__next__")) # true
    print(next(g)) # 0
    print(next(g)) # 2
            
          

列表生成器可以不需要消耗大量的內存來生成一個巨大的列表,只有在需要數據的時候才會進行計算。
再看第2種情況

            
              def gen():
    for i in range(10):
        yield i 
            
          

這里 yield 的作用就相當于 return ,這個函數就是順序地返回 [0,10) 的之間的自然數,可以通過 next() 或使用 for 循環來遍歷。
當程序遇到 yield 關鍵字時,這個生成器函數就返回了,直到再次執行了 next() 函數,它就會從上次函數返回的執行點繼續執行,即 yield 退出時保存了函數執行的位置、變量等信息,再次執行時,就從這個 yield 退出的地方繼續往下執行。
Python 中利用生成器的這些特點可以實現協程。協程可以理解為一個輕量級的線程,它相對于線程處理高并發場景有很多優勢。

看下面一個用協程實現的 生產者-消費者模型

            
              def producer(c):
    n = 0
    while n < 5:
        n += 1
        print('producer {}'.format(n))
        r = c.send(n)
        print('consumer return {}'.format(r))

def consumer():
    r = ''
    while True:
        n = yield r
        if not n:
            return
        print('consumer {} '.format(n))
        r = 'ok'

if __name__ == '__main__':
    c = consumer()
    next(c)  # 啟動consumer
    producer(c)
            
          

這段代碼執行效果如下

            
              producer 1
consumer 1 
producer return ok
producer 2
consumer 2 
producer return ok
producer 3
consumer 3 
producer return ok
            
          

協程實現了 CPU 在兩個函數之間進行切換從而實現并發的效果。

0x04 引用

  1. https://docs.python.org/3.7/