引言
本文摘錄《Deep Learning深度學習基礎》一書第五章的要點。內文摘錄
第五章 卷積神經網路
基本上來說,我們終究要在傳統電腦程式(由人類定義所有邏輯)和機器學習方法(由電腦完成所有繁重工作)之間權衡得失,找出一種折衷的做法。在這個折衷的做法中,人類負責挑選出他認為分類時特別重要的特徵(可能有好幾百或好幾千個)。這麼一來,人類就可以針對這個學習問題,製作出較低維度的表達方式。接著機器學習演算法再使用這些新的「特徵向量(feature vectors)」,進一步做出分類判斷。由於「特徵提取(feature extraction)」的過程確實改善了信噪比(假設我們確實選擇了適當的特徵),因此這種做法與當時的技術發展程度相比,確實獲得了相當成功的結果。如果要運用傳統機器學習技術教電腦學會怎麼「看」,我們就必須為程式提供更多的特徵,以做出正確的判斷。在深度學習出現之前,人數龐大的電腦視覺研究人員往往需要花費數年的時間,討論各種不同特徵的用處。隨著辨識問題變得越來越複雜,研究人員也越來越窮於應付各種複雜性增加的狀況。
把深度學習應用於電腦視覺的基本目標,就是設法消除掉那些既繁瑣又會造成局限性的特徵選取程度。正如我們在第一章的討論,以這個程度來說,深度神經網路簡直可說是完美的選擇,因為神經網路每一層都是透過學習來找出特徵,然後用這些特徵來表達它所接收到的輸入資料。
由於我們知道分析的對象是圖片,因此卷積網路利用這個事實,明智地約束了深度網路的結果,從而大大減少了模型中參數的數量。
由於人類視覺運作原理的啟發,卷積網路中每一層的神經元都是以三維的方式排列,因此每一層都有寬度、高度和深度。
卷積層中每個神經元都只連接到前一層的小小局部區域,從而避免了全連接神經元(fully-connected neurons)所造成的浪費。
卷積層的功能,可以用以下方式來簡單描述:處理三維「訊息體(volume of information)」,以產生新的三維「訊息體」。
沒有留言:
張貼留言