"阿爾法狗之父"答疑 新版解決了哪些遺留問題?
來源:網易科技 發布日期:2017-10-20
【網易智能訊 10 月 20 日消息】DeepMind 首席研究員、“AlphaGo 之父”David Silver 和 Julian Schrittwieser(AlphaGo Zero 作者之一)在 Reddit 回答網友提問。
資料顯示,“AlphaGo 之父”David Silver 畢業于劍橋大學,獲得了艾迪生威斯利獎,隨后與人共同創立了視頻游戲公司 Elixir Studios,2004 年,成為倫敦大學學院的講師,Silver 起初是 DeepMind 的顧問,直到 2013 年正式加入 DeepMind。
以下是我們精選的Q&A,全文請前往 Reddit.com
當被問到為什么 AlphaGo Zero 的訓練如此穩定?
David Silver 說,AlphaGo Zero 所用的算法與策略梯度、Q-learning 之類的傳統(無模型)算法不同,通過使用 AlphaGo search,我們極大地改進了策略和自我對弈的結果,然后我們應用簡單的、基于梯度的更新來訓練下一個策略+價值網絡(policy+value network)。這比漸進的、基于梯度的策略改進(policy improvement)要穩定的多。
為什么這次 Zero 就訓練了 40 天?訓練 3 個月會怎樣?
David Silver 認為,這是一個人力和資源優先級的問題,如果訓練 3 個月,我想你會問訓練 6 個月會發生什么。
為什么一開始選擇用人類對局數據來訓練 AlphaGo,而不是通過自我對弈來從 0 開始?之前的 AlphaGo 瓶頸在哪里?
David Silver 表示,創造一個完全自學的系統,一直是強化學習中的一個開放式問題,之前都非常不穩定,之后我們做了很多實驗,發現 AlphaGo Zero 的算法是最有效率的。
DeepMind 和 Facebook 幾乎同時開始研究這一課題,為什么你們能達到這個水平?
David Silver 說,Facebook 更專注于監督學習,我們關注強化學習,是因為相信它最終會超越人類的知識,研究表明,僅使用監督學習能夠獲得令人驚訝的表現,但如果要遠超人類水平,強化學習才是關鍵。
AlphaGo Zero 是 AlphaGo 的最終版本嗎?
David Silver:我們已經不再主動研究如何讓 AlphaGo 變得更強,但我們仍然用它嘗試新的想法。
AlphaGo 有沒有開源計劃?
David Silver:我們在過去已經開源了許多代碼,但 AlphaGo 始終是一個復雜的過程,它是一個非常復雜的代碼。
背景閱讀:
谷歌子公司 DeepMind 日前發布了一款新版本的 AlphaGo 程序,它能通過自學玩轉多種游戲,這套系統名為“AlphaGo Zero”,它通過一種名為“強化學習”的機器學習技術,可以在與自己游戲中吸取教訓。
僅三天時間,AlphaGo Zero 自行掌握了圍棋的下法,還發明了更好的棋步。這期間,除了被告知圍棋的基本規則,它未獲得人類的幫助。隨著 AlphaGo Zero 被不斷訓練時,它開始在圍棋游戲中學習先進的概念,并挑選出一些有利的位置和序列。
經過三天的訓練,該系統能夠擊敗 AlphaGo Lee,后者是去年擊敗了韓國選手李世石(Lee Sedol)的 DeepMind 軟件,勝率是 100 比0,經過大約 40 天的訓練(約 2900 萬場自玩游戲),AlphaGo Zero 擊敗了 AlphaGo Master (今年早些時候擊敗了世界冠軍柯潔)。
阿甲科技