→ tlchen: 照這樣講,輸入棋譜也算是沒用到人類知識 11/09 16:21
→ tlchen: 但這邊是因為它在模型參數的訓練沒用到人類棋譜,才說沒用 11/09 16:21
→ tlchen: 人類知識.而我要說的是,模型的大架構,還是偷偷用到了 11/09 16:22
除了上一篇推文下版友已經幫你解答的"何時停止下棋"之外,你能舉出哪部分的大架構
是使用或參考圍棋知識所設計的? AlphaGO當然有許多設計上的眉角,但沒有跡象顯示
這些跟圍棋知識有關。
→ Uizmp: 圍棋知識 謝謝 11/09 16:54
※ 編輯: oldTim (36.226.155.40), 11/09/2017 18:15:13
推 tlchen: 你現在的圍棋知識,棋譜到底算不算?不算的話,先前版本也沒 11/09 18:37
→ tlchen: 用到圍棋知識 11/09 18:37
→ Uizmp: 棋譜已經含有每盤的手順和勝敗, 如何不算? 11/09 18:38
推 ddavid: 棋譜算是人類知識啊 11/09 18:38
→ ddavid: 不然打前人的譜學習在學什麼? 11/09 18:39
→ tlchen: 算的話,先前alphago的架構,alphago zero 是延用的.只是參 11/09 18:39
→ Uizmp: 並沒有沿用 11/09 18:40
→ tlchen: 數的估計,之前是根據人類棋譜,現在是根據自戰 11/09 18:40
→ Uizmp: tl你所謂的"架構" 頂多是儲存的方式, 而非儲存的資料 11/09 18:41
→ tlchen: 不算是上面說的,不是我說的 11/09 18:41
→ tlchen: 我說的架構是深度類神經網路的架構 11/09 18:42
→ tlchen: 這架構不是隨便設,然後就可以成功的 11/09 18:42
→ Uizmp: 至於這個儲存方式, zero也因此把兩個神經網路合併 11/09 18:42
→ tlchen: 通常是對於不同的領域,然後不斷去試,試出一個好的架構 11/09 18:42
→ tlchen: 今天 alphago 試出一個好的架構,好的學習方法.這可是有用 11/09 18:43
→ tlchen: 到人類棋譜 11/09 18:44
→ Uizmp: 至於這個深度類神經的網路是否與圍棋相關 這只有DM的人知道 11/09 18:44
→ tlchen: 我之前說的,若是連整個架構的選取都是由自戰來評估,那我就 11/09 18:44
→ tlchen: 認為是沒有用到人類的圍棋知識 11/09 18:45
推 ddavid: 好吧,如果你把定義弄得如此廣義的話也不能說徹底沒用到人 11/09 18:47
→ ddavid: 類圍棋知識,但一般常用定義下並不會把學習架構也定義進去 11/09 18:48
→ ddavid: ,自我決定架構這種事情Cost太高了,不太可能在這個等級的 11/09 18:49
→ ddavid: 問題上實現(這等於是在圍棋學習問題上面又架了一層架構學 11/09 18:49
→ ddavid: 習問題,最糟的是這個層次其實可以無限上綱) 11/09 18:50
推 birdy590: 事實上程式的架構仍然不算運用人類圍棋知識 11/09 18:51
→ ddavid: 一般我們還是接受先拿部分人類知識來試一下可能比較好用的 11/09 18:51
→ birdy590: 不然就不用試那麼多次才從裡面選擇效率比較好的架構 11/09 18:51
→ ddavid: 學習架構,之後清空人類知識保留架構開始自我學習,這樣還 11/09 18:52
→ ddavid: 是可以算後面這次的學習沒有用到人類知識作為訓練 11/09 18:52
→ ddavid: 要用非常非常非常廣的廣義才會把架構也當成人類圍棋知識建 11/09 18:54
→ ddavid: 立出來的東西 11/09 18:54
→ ddavid: 因為其實這些架構標準來說是人類知識,可是不算是人類圍棋 11/09 18:55
→ Uizmp: 他的意思, 如果是因為棋譜導致使用A架構而非B架構, 就算有 11/09 18:55
→ ddavid: 知識所建立的,我們是從已知類型的架構中選取一個結果好的 11/09 18:55
→ birdy590: 開發過程決定用架構或參數也不是看棋譜 是看對戰狀況吧 11/09 18:56
→ birdy590: 在沒有真的試過以前, 有誰知道怎麼做比較好? 11/09 18:56
→ ddavid: ,而不是從圍棋知識建立出一個專下圍棋的架構 11/09 18:57
→ Uizmp: 但可能不管是從人類棋譜或AG的自戰棋譜 結論可能都一樣 11/09 18:57
→ ddavid: @Uizmp 對,他就是那個意思,而其實那就是超級廣義XD 11/09 18:57
→ birdy590: 這裡面圍棋知識其實幾乎沒有, 應該說是寫程式的知識 11/09 18:58
→ Uizmp: 但或許是因為拋棄人類棋譜,才兩個網路合一,這就不得而知了 11/09 18:59
推 birdy590: 兩個網路合一是方便自我訓練~ 其實本來就有人在猜會合一 11/09 19:00
→ tlchen: 開發過程決定架構你說是看對戰,不是看棋譜.請問是看誰的對 11/09 19:06
→ tlchen: 戰? 11/09 19:06
→ birdy590: 訓練都是用從自己亂下開始的自戰棋譜 11/09 19:07
→ tlchen: 若像你之前說的, 阿貓阿狗的對戰,不是人類的,那就沒用到 11/09 19:07
→ birdy590: 架構要說圍棋知識不如說是寫程式的知識更合適 11/09 19:07
→ tlchen: 看人類對戰,或是跟人對戰,那就用到人類圍棋知識 11/09 19:08
不是程式中有用到圍棋知識,而是用傳統圍棋知識來驗證程式架構是否有效
→ birdy590: 因為 DM 是在完全未知的領域 怎麼做比較強 -- 試了才知 11/09 19:08
推 tlchen: 就說不只是寫程式的知識.每個領域的應用,要用怎樣的架構合 11/09 19:13
→ tlchen: 適,要實際去試才知道.而先前 alphago 版本決定用的架構,並 11/09 19:13
→ birdy590: 還是要試過才能決定 那跟圍棋知識有什麼關係? 11/09 19:13
→ tlchen: 不是根據對戰的 11/09 19:13
→ tlchen: 因為試它好不好,餵的資料,裡面有人類的圍棋知識在 11/09 19:14
→ Uizmporm: 我說了 那個可能用人類棋譜或自戰結論相同 那要怎麼算 11/09 19:21
輸入data跟輸入人類對圍棋的理解有根本的不同
這也是你講半天無法說服大家對Deepmind說法產生懷疑的原因
因為你對人類知識的定義跟AI界裡面所說的人類知識也根本是兩回事,雞同鴨講
※ 編輯: oldTim (36.226.155.40), 11/09/2017 20:05:55
推 birdy590: 試它好不好 直接兩個程式對下不就得了 11/09 20:28
推 tlchen: 以你的說法,前一版 master,用人類棋譜學,也是沒用到人類圍 11/09 21:51
→ tlchen: 棋知識 11/09 21:51
不是我的說法,麻煩你看看文章裡的連結,我是引用台大資工系教授林守德的說法
將圍棋知識提煉成規則後,依此規則設計程式是第一波AI(專家系統)的作法
而即使是初代AlphaGO也是第二代AI,輸入的人類棋譜只是做為訓練用的Data
由機器學習自行提取出特徵,若依照第一代AI作法是要由人來決定用哪些特徵或是規則
→ birdy590: 訓練過程隱含著從棋譜提取特徵的意思 11/09 21:56
→ birdy590: 廣義來說用人類棋譜可以解釋成接收人類的觀念 11/09 22:07
→ birdy590: 所以從亂下開始完全自己產生棋譜自己學的意義重大 11/09 22:07
用棋譜訓練跟接受人類觀念還是兩回事,當然不可否認輸入棋譜的版本會受人類招法
的引導而可能比較容易出現跟人類圍棋觀念相似的選點,但這些觀念終究是機器學習
由data中挖掘出來的,而非人類在演算法中已經預設
※ 編輯: oldTim (36.226.155.40), 11/09/2017 23:12:39
※ 編輯: oldTim (36.226.155.40), 11/09/2017 23:23:11
推 jamesho8743: 的確是這樣沒錯 應該是這樣説 master程式的確也沒用 11/09 23:22
→ jamesho8743: 到人類圍棋知識 但是master在run 以人類棋譜輸入訓練 11/09 23:22
→ jamesho8743: 出來的成品 就受到人類知識的影響 11/09 23:22
推 jamesho8743: 之前版本的alpha go 本來就沒一定要用人類棋譜 它也 11/09 23:27
→ jamesho8743: 可靠自我對戰訓練 只是初期版本演算法不夠好 收斂地 11/09 23:27
→ jamesho8743: 不夠快 如果完全從0開始 訓練時間會很久 11/09 23:27