2020/01/31

Deep Learning深度學習基礎–第九章–摘錄

引言

本文摘錄《Deep Learning深度學習基礎》一書第九章的要點。

內文摘錄

第九章 深度強化學習

從本質上來說,強化學習(reinforcement learning)就是透過與環境互動的方式來學習的一種做法。這種學習的過程,牽涉到「環境(environment)」、「動作(action)」以及「獎勵(reward)」信號。動作者(actor,也就是我們的代理者(agent))會在「環境」中選擇做出某個「動作」,以得到相應的「獎勵」。動作者選擇動作的方式,就稱為「策略(policy)」。如果動作者想增加它所得到的獎勵,就必須學會與環境互動的最佳策略。
強化學習與目前已經介紹過的其他型態學習方式有所不同。在傳統監督式(supervised)學習中,我們會給模型一些資料和相應的標記(答案),然後訓練模型,讓它在遇到其他資料時,也能預測出相應的標記(答案)。在無監督式(unsupervised)學習中,我們只給資料,模型則必須學習找出資料中相應的結構。而在強化學習中,我們既沒有資料也沒有相應的標記(答案)。我們的學習信號,來自於環境提供給代理者的獎勵。





參考文獻

http://books.gotop.com.tw/v_A553


沒有留言:

張貼留言