推 jackcselab: 我覺的是他一開始舉了一個錯誤的例子(棋局停止),突 11/11 10:29
→ jackcselab: 顯他不了解圍棋規則,導致後續討論就充滿了火藥味了 11/11 10:29
→ jackcselab: 進而讓他的原意失焦了 11/11 10:29
推 HeterCompute: 風向就是從那個棋子不能自殺的時候被帶起的QQ 11/11 10:54
推 tetratio: 我真的有用quick sort排過一大堆亂掉的書... 11/11 11:49
→ tetratio: 不過大概不影響你的舉例啦 11/11 11:49
推 HeterCompute: 人類可以學sort,但是不能學神經網路,有種來把 11/11 12:08
→ HeterCompute: 神經網路背起來啊 11/11 12:10
推 ztdxqa: XD 這舉例好傳神耶 但原po還是不懂quicksort阿 11/11 12:12
→ HeterCompute: t大都說數學統計出身會learning,說他不會QS會不會 11/11 12:17
→ HeterCompute: 太侮辱人 11/11 12:17
推 s891234: 人類用Quick Sort幹嘛啦XDDD只會比較煩而已 11/11 12:58
推 ForeverOrz: 譬喻不錯 但原po懷疑是有理也沒錯 11/11 14:04
推 hannocps: quicksort是啥…是否可以解釋一下 11/11 14:11
推 HanaYukii: 隨機取中點 小丟左大丟右 遞迴到每區剩一個 11/11 14:32
→ jpg31415926: 人類比較偏向insert或select不過不影響你的舉例XD 11/11 16:36
推 oldTim: 推,好比煉金術士和化學家的關係,化學家有參考煉金術士 11/11 17:33
→ oldTim: 的實驗結果,用完全不同的一套理論體系去篩選、解釋 11/11 17:36
→ oldTim: 最終產生新的一套科學事實,裡面雖有部分認定煉金術士經驗 11/11 17:44
→ oldTim: 也符合科學事實,但這顯然跟認同煉金術士的經驗是兩回事 11/11 17:46
推 tlchen: 板主舉的例子,從 Bubble Sort 變成 Quick Sort, 是屬於我 11/11 18:46
→ tlchen: 說的模型不同. 而不是 master 與 Zero 的最大差別在參數優 11/11 18:47
→ tlchen: 化 11/11 18:47
→ tlchen: 參數優化, Zero 不同於 master, 沒用到人類棋譜,這沒爭議 11/11 18:48
→ tlchen: 但在模型上, 並沒有太大的改變 11/11 18:49
→ tlchen: 我要質疑的是, 這模型是否用到人類圍棋知識 11/11 18:49
呃…
就算沒讀過論文,也應該看過相關報導吧
兩者用的模型天差地遠
詳細要討論要另開一篇文,請自行爬文或google
→ capita: 模型差別很大啊 11/11 18:51
→ Uizmp: 我可不可以問一下tl一直要追究這個問題的原因是甚麼? 11/11 18:53
推 oldTim: Zero只用一個policy network這樣模型的差別還不夠明顯嗎? 11/11 19:07
※ 編輯: staristic (111.185.153.145), 11/11/2017 20:56:37
推 HeterCompute: master哪有跟zero模型天差地遠 11/11 21:05
推 HeterCompute: 差rollout和一開始是監督學習而已,神經網路一樣 11/11 21:09
還有原本兩個網路(價值網路、走子網路)變成一個不是?
我個人會覺得差非常大的原因在此。兩個變成一個@@
※ 編輯: staristic (111.185.153.145), 11/11/2017 21:14:18
推 HeterCompute: 你搞錯了吧,master就已經合併了 11/11 21:14
這樣的話我前面說的天差地別確實要收回來
我也沒辦法再說什麼了
※ 編輯: staristic (111.185.153.145), 11/11/2017 21:17:17
推 birdy590: 其實主要差別只有訓練吃的棋譜不一樣 11/11 21:54
我有回去找文章
基本上這邊是我搞錯了Orz
※ 編輯: staristic (111.185.153.145), 11/11/2017 22:22:41
→ CGary: 一樣的 他們只是選用了不同參數 給了不同資源 因為他們想 11/12 00:35
→ CGary: 試試看Master的模型能不能通用 但是我覺得實作的內部可能還 11/12 00:36
→ CGary: 是差很多 因為如果事情只是rollout跟開始的監督部分 就不會 11/12 00:36
→ CGary: 需要請aja把有內建圍棋知識的code拿掉了 想必那邊有很多細 11/12 00:36
→ CGary: 微的優化是他們沒講(也不開源,所以應該就是不會講了) 11/12 00:37
→ staristic: 意思是這部份反正他不開源,只能相信Deepmind的宣佈 11/12 00:46
→ staristic: 再吵也沒意義,對吧? 11/12 00:46
推 HeterCompute: 就算他是先射箭再畫靶,你也沒辦法啊XD 11/12 00:48
→ CGary: 這個其實有個方法 就是別人照著DM的paper實作 做不出來攻擊 11/12 01:28
→ CGary: 他們, 但目前沒有太多公司有這麼強的運算資源做這種驗證... 11/12 01:28
推 birdy590: 大概只有騰訊出的起 願不願意花就難講了 11/12 01:36
→ birdy590: google自己搞TPU就先省一大筆 11/12 01:36
→ aegis43210: 光訓練一個20block res-net,沒百張1080ti就免談... 11/12 03:58
→ OverInfinity: master的時候還是有兩個網路啦 zero才只有一個 11/12 23:40
推 sunev: 樓上可參考HeterCompute的筆記:[情報] 黃博士今日演講內容 11/13 00:22
→ OverInfinity: 感謝,確實論文也是這樣寫的沒錯 11/13 01:35
→ staristic: 我發現搞錯的不止我一個,稍微得到一點安慰XD 11/13 01:51
→ OverInfinity: XDD 11/13 01:55
推 elfkiller: 其實我不懂質疑論文標題有甚麼意義...... 11/16 02:01
→ elfkiller: 當然是可以質疑拉...... 頂多就是用字不精確罷了 11/16 02:02
→ elfkiller: 給人家的感覺就是好像網路筆戰抓錯字一樣...... 11/16 02:03