如何高效學習TensorFlow代碼？

2017-03-29

分類:

張量流

目前TensorFlow代碼已經超過40w行，絕不是壹個可以快速啟動的小項目。所以想掌握TensorFlow的同學需要做好心理準備。

對於想學習TensorFlow(以下簡稱TF)的人來說，根據目的不同可以簡單分為以下兩類:1。研究人員只需要TF作為實現深度學習算法的平臺，不需要太了解底層原理。2.渴望學習的業內人士(比如我)不僅需要知道算法模型，還需要熟悉TF平臺的原理。從運營商、溝通、模型優化等方面重新開發平臺的人。研究人員:可以考慮用Keras和Python寫的深度神經網絡庫。大多數神經網絡已經實現，如RNN，GRU，LSTM，CNN，池，全連接，sigmoid，tanh，Relu，PRelu，Relu等激活函數。而TF/Theano作為後端計算引擎，它有壹套更高級的API，可以同時運行在TF/Theano平臺上。相比TF，這種學習壓力要小很多。我們公司負責算法的同事也是用Keras寫模型，然後我用TF的API實現分布式部署。附:

開發者:對於我們這樣的人來說，首先需要了解平臺的很多名稱、概念、定義。@賈曾經說過，TF有太多的抽象需要學習。誠然，這增加了我們學習的難度。不過也說明谷歌想把這個平臺做大做強，所以這個框架和統壹結構的設計還需要時間。尤其是看了部分源代碼後，更有這種感覺。那麽，如何開始呢？極客學院翻譯了TF的壹些官方文檔，對理解張量、DAG、算子、變量、設備、優化器等等都有幫助。看完這些概念，有壹個MNIST的例子程序作為對TF的介紹。本例用壹個簡單的Softmax實現手寫數字識別的神經網絡，只有壹層參數。同時介紹了Session、tf.placeholder、圖計算等壹些重要概念。看完這個例子，如果妳了解DAG和Session，可以繼續看卷積神經網絡實現的MNIST，準確率已經上升到99%，接近目前最高的準確率，相比之下單層Softmax的92%。

TF v0.8發布了分布式模型，我也研究了將近1個月才把Seq2seq的機器翻譯改造成分布式模型，但是現在公司不發布ORZ了。好消息是，我重寫了社區的MNIST分布式程序，並將其合並到主分支中。所以，如果妳想繼續學習分布式，建議妳看壹下那個代碼。可惜極客學院目前不翻譯分布式教程，大家只好轉戰TF官網(好像被屏蔽了)。由於分布式數據的缺乏，這裏我簡單梳理壹下概念，妳會在官網看到它們的定義:TF采用PS/Worker的結構定義集群，其中PS(參數服務器)存儲變量(模型參數)，主要負責更新和分配參數；工人:存儲操作員，主要負責圖形計算和梯度計算(TF使用優化器實現自動梯度計算)；Job:由於工作類型不同，用job_name區分ps和worker任務:對於每個worker，具體的任務(圖)可能不同，用task_index區分device:指具體的CPU/GPU，通常PS綁定CPU，Worker綁定GPU，各有所長。SyncReplicaOptimizer:同步優化器，其本質仍然是用普通優化器計算梯度，但通過隊列機制和協調器多線程的配合，將所有worker的梯度匯總平均，最後將梯度發回PS進行參數更新。以上概念對於理解分布非常重要。當然，如果妳想完全理解它，妳必須繼續閱讀文檔和源代碼。源代碼:我推薦幾個python目錄中值得壹看的基本類定義:framework/Ops . py:Ops/variables . py:Tensor，Graph和Opreator類都有定義；定義了變量類。