→ aaaba: alphaGo論文參數都出來了,起跑線就是定死在這邊,幹嘛要跟 11/25 22:23
→ aaaba: 劉知青合作,那樣還得派車回頭把他接來起跑線 11/25 22:23
→ aaaba: 看這文章只說明了他是局外人 11/25 22:27
→ arthurwang: 就為了中國人的面子,堅持要搞一個完全自己的AI嘛 11/25 23:21
→ Lordaeron: @aaaba你確定照論文可以出一個打敗一般業餘選手的? 11/25 23:40
→ aaaba: 不是我講的話你問我確不確定幹嘛...我上面推文中哪邊可以得 11/26 00:18
→ aaaba: 出你問題裡的敘述 11/26 00:18
噓 MonkeyCL: 台灣又被偷渡在中國國內裡面了 11/26 01:00
推 semihumanity: 都過多久了還在解讀論文,有點弱啊! 11/26 04:20
→ jpg31415926: 硬體規格就是錢堆出來的 怎麼用才是重點吧 11/26 08:39
→ Lordaeron: see?alphaGo論文參數都出來了,起跑線就是定死在這邊. 11/26 09:44
→ Lordaeron: 從alphago的論文, 有定出起跑線? 11/26 09:44
→ aaaba: 所以跟5F的陳述有關聯嗎?不要亂生話啊 11/26 10:19
→ aaaba: 生完還想塞到別人嘴裡要別人解釋,莫名其妙 11/26 10:24
→ nanlong: 前陣子的訊息是中國有AI已跟一般圍甲棋手打的差不多 11/26 12:28
→ nanlong: 估計應不輸這次上場的Zen。後面1年大概仍是AlphaGo一支獨 11/26 12:29
→ nanlong: 秀, 日本跟中國爭大老二。但拉到3年後? 就不好預測了。 11/26 12:31
→ nanlong: 怕google沒興趣繼續投入圍棋AI。 11/26 12:33
→ aaaba: alphaGo的論文是中國軟體業大公司的起跑線,應該不為過,不 11/26 12:48
→ aaaba: 認同也就罷了,個人自由。但硬是想出一句風馬牛不相及的論 11/26 12:48
→ aaaba: 點然後要求對方解釋,還真的不曉得下限為何。 11/26 12:48
→ Lordaeron: @aaaba,話是你講的, 我是沒看到什麼起跑線的. 11/26 12:55
→ Lordaeron: 不然請你指出在哪? 11/26 12:55
→ aaaba: 你先解釋5樓的言論吧? 11/26 12:56
→ Lordaeron: @aaaba,解釋什麼? 你自己說, 起跑線就在哪. 11/26 13:26
→ Lordaeron: 又說參數都有. 當然得問說是不是照招就有alphago囉 11/26 13:26
→ Lordaeron: 至於你說是aja講的, 最少你給出的圖, 我看不出來他有講 11/26 13:27
→ aaaba: “照論文可以出一個打敗一般業餘選手的” <-- 這句話到底 11/26 13:31
→ aaaba: 是誰說的? 11/26 13:31
→ Lordaeron: 你的意思就是這樣, 不然是什麼? 11/26 13:32
→ Lordaeron: 還是你想AJA的話, 又解釋成你的樣子? 11/26 13:33
→ aaaba: 我的意思不是這樣,不要生話塞給別人秀下限 11/26 13:35
→ aaaba: 我是在說騰訊為何不用跟劉知青合作,你想到哪去了我可無法 11/26 13:37
→ aaaba: 理解 11/26 13:37
→ Lordaeron: 起跑線跟騰訊為何不用跟劉知青合作有何關係? 11/26 13:39
→ aaaba: 這跟你隨便找一個人來複製論文,卻打不過業餘棋手根本兩回 11/26 13:39
→ aaaba: 事 11/26 13:39
→ Lordaeron: 更妙的是aja 沒講過你的:中國軟體業大公司的起跑線. 11/26 13:40
→ Lordaeron: 這樣的話, 是誰塞話給別人了? 11/26 13:40
→ aaaba: 你先承認幫別人生話吧你 11/26 13:40
→ aaaba: 你質疑的點換來換去,我就問你5樓的話是不是你生的? 11/26 13:41
→ Lordaeron: 我沒幫你塞話, 話是你講的, 變我了? 11/26 13:42
噓 forfunmerely: OUI 11/26 13:42
→ Lordaeron: aaaba:alphaGo論文參數都出來了,起跑線就是定死在這邊 11/26 13:43
→ Lordaeron: 英譯:flow alpahgo paper and you will get the same 11/26 13:43
→ aaaba: 呵,我那句提了某人複製論文的棋力跟業餘棋手的關係 11/26 13:44
→ Lordaeron: as alphago. 11/26 13:44
→ Lordaeron: 還需要中譯一次嗎? 11/26 13:45
→ Lordaeron: 另外, 塞別人話的人是你,你的截圖中AJA 什麼都沒講. 11/26 13:45
→ Lordaeron: 結果到你口中, 變成中國企業的起跑線了. 11/26 13:46
→ aaaba: 你複製論文不成功,干我屁事? 11/26 13:46
→ Lordaeron: 哪你複製成功了? 11/26 13:47
→ Lordaeron: 你知什麼是supervise ? 11/26 13:47
→ aaaba: 我又沒說複製論文就一定成功,你還要翻成flow什麼的,紅藍 11/26 13:48
→ aaaba: 式翻譯嗎? 11/26 13:48
→ Lordaeron: 你沒說一定成功啊,意思是成功就是? 你知supervise? 11/26 13:49
→ aaaba: 我那句說一定成功,你又在生話 11/26 13:50
→ aaaba: 我不用知道supervise也知道你生話塞給別人 11/26 13:51
噓 forfunmerely: 癢癢 11/26 13:51
→ Lordaeron: 不成功, 哪來起跑線? 還要轉? 11/26 13:52
→ Lordaeron: 你知什麼是deep learning 是supervise 的? 11/26 13:52
→ Lordaeron: 不知什麼是supervise, 就別亂講, 照論文可以出起跑線. 11/26 13:53
→ Lordaeron: 還有,aja也沒講過什麼中國企業的起跑線之類的話. 11/26 13:53
→ Lordaeron: 愛塞話的人是你. 別轉了. 11/26 13:54
噓 forfunmerely: 旋轉跳躍我B著眼~ 11/26 13:58
→ aaaba: 你起跑失敗也要怪東怪西?他論文寫在那邊,你複製的效果是 11/26 13:59
→ aaaba: 你家的事 11/26 13:59
推 ztdxqa: 插個話 Lordaeron語文能力不太好 對話看得有點辛苦 11/26 14:01
→ ztdxqa: 中文英文都不大好XD 11/26 14:02
→ aaaba: 至少那些公司是先試圖重現alphaGo部分成果,不用回頭找劉知 11/26 14:03
→ aaaba: 青。然後你生那些英文,顯得可笑,沒有論述的單詞一直屁有 11/26 14:03
→ aaaba: 什麼用? 11/26 14:03
噓 forfunmerely: 一群銅牌 11/26 14:04
推 ztdxqa: 說實在話 要複製AlphaGo的論文太難了 有太多訓練的技巧 11/26 14:06
→ Lordaeron: 如果不知什麼是supervise,哪麼, 你的重現是什麼鬼? 11/26 14:06
→ ztdxqa: 深度強化學習比普通的CNN要難訓練太多了 DeepMind那群人 11/26 14:07
→ Lordaeron: @ztdxqa, 你是? 11/26 14:07
→ ztdxqa: 是這方面的大師 別人複製不了很正常的 至少要花很久時間 11/26 14:07
→ ztdxqa: 我是棋迷啊~ 11/26 14:08
→ Lordaeron: @ztdxqa,又來幫別人講話了. 11/26 14:08
→ Lordaeron: 你等DeepMind? 11/26 14:08
→ Lordaeron: 還是有試圖複製過AlphaGo的論文? 11/26 14:09
→ aaaba: z大說法中肯,哪像某人一副我如果複製失敗你來負責的拽樣 11/26 14:09
→ Lordaeron: 連supervise 都不懂是什麼的人, 還可以幫別人生話. 11/26 14:10
→ Lordaeron: 說什麼起跑線的. 11/26 14:10
推 ztdxqa: 我沒有複製過 但是知道非常的困難 11/26 14:10
噓 forfunmerely: 最i你der人4我 你怎麼捨der窩難過~ 11/26 14:11
→ Lordaeron: 沒你也知, 這麼強? 11/26 14:11
→ ztdxqa: 你是要說監督是學習嗎 幫你更正一下supervise"d" learning 11/26 14:11
→ Lordaeron: @aaaba, 我沒要你負責啊, 你從哪裏看出來? 11/26 14:11
→ forfunmerely: 買個錶買個錶 11/26 14:12
→ Lordaeron: 我只看到你說, 複製alphago 的論文, 就有alphago 而已. 11/26 14:12
→ Lordaeron: 而不知道, 什麼是supervised 11/26 14:12
→ aaaba: 呵,z大人好好,我還真希望聽他多烙一些高深的英文詞彙 11/26 14:13
→ Lordaeron: 不用多高深, 只是看到有人說複製alphago 的論文, 就有 11/26 14:13
→ Lordaeron: alphago而已, 11/26 14:14
推 forfunmerely: One night in古亭 我liu下許多情~~~~ 11/26 14:14
→ aaaba: 又開始生話 11/26 14:14
→ Lordaeron: 還敢拿出aja的對話,來塞他話。 11/26 14:14
→ Lordaeron: 又開始裝傻了, 一樓的推文就在哪. 要吃回去? 11/26 14:15
噓 forfunmerely: 唉 原來妳也在這裡 11/26 14:16
→ Lordaeron: 還有你根據aja說法的哪一段, 也要吃回去了? 11/26 14:16
→ forfunmerely: 小心手榴彈! 11/26 14:16
→ aaaba: 你自己定義起跑線=複製成功,然後賴來我頭上,我的意思是那 11/26 14:20
→ aaaba: 些公司先從著手複製論文起步,你不要再生話了行不行 11/26 14:20
→ forfunmerely: 妙筆生花 省話一哥 11/26 14:23
→ Lordaeron: 哈...aaaba, 複製論文,參數都在哪, 不就是複製成功, 就 11/26 14:27
→ Lordaeron: 有alphago了的意思? 11/26 14:28
→ Lordaeron: 但明明就不知什麼是需要supervise的. 11/26 14:28
→ Lordaeron: 意思是, 結果的好壞, 是需要人去定義的. 11/26 14:29
→ Lordaeron: 連它是supervised 的方法要人去supervise都不知. 11/26 14:29
→ aaaba: 更可笑的是還翻成英文然後更改文意,哪招? 11/26 14:29
→ Lordaeron: 還敢說出, 複製論文就好了. 11/26 14:30
噓 forfunmerely: 你從不知道 我想做的不只是朋友~ 11/26 14:33
→ aaaba: 你不懂有參數代表可以少走很多冤枉路,也來在那邊秀下限? 11/26 14:34
→ aaaba: 這篇論文分享得很有誠意了,但能否成功,是看你自己的造化 11/26 14:34
→ aaaba: 有參數又代表複製成功了喔?這招一直用,你煩不煩啊 11/26 14:35
噓 forfunmerely: 煩哪煩哪煩得沒有力氣煩哪 我煩啊 11/26 14:38
→ forfunmerely: 煩哪煩哪煩得不敢相信 11/26 14:38
→ forfunmerely: 煩哪煩哪煩得歇斯底里煩哪 11/26 14:38
推 BRANFORD: f君吃了什麼?我也點一份^_^ 11/26 14:53
推 semihumanity: AlphaGO的重點明明是reinforcement learning... 11/26 15:39
→ semihumanity: 不懂為什麼一直提"supervise" 11/26 15:39
→ semihumanity: 我只知道supervised learning 11/26 15:40
→ semihumanity: 而且supervised learning也不是「人」去監督啊... 11/26 15:42
→ Lordaeron: 不然是誰去教他哪個是對錯? 你懂參數會少走? 11/26 15:49
→ Lordaeron: AlphaGO的重點明明是reinforcement learning? 哪來的? 11/26 15:51
→ Wush978: 樓上要不要先去學一下再來問? 11/26 22:18
→ Wush978: 否則說的內容像外行,口氣卻很衝,很不協調 11/26 22:19
→ forb9823018: 論文有不少細節和參數沒有寫上去 11/26 22:27
→ Lordaeron: @Wush978, 哪還得讓你來教我一下呢. 11/26 22:30
→ Lordaeron: @forb9823018, 要不要先去學一下再來講,不然Wush978... 11/26 22:31
→ forb9823018: 我花了好幾個小時論文看過好幾次了 11/26 22:32
→ forb9823018: 看你的推文不知你又學了多少 11/26 22:34
→ forb9823018: 不如指教一下 11/26 22:34
→ forb9823018: 光是一堆feature的詳細定義和怎麼得出來的都沒講了 11/26 22:35
→ Lordaeron: 咦, 不是我說參數都在裏面的哦, 別扯到我頭上來. 11/26 22:36
→ forb9823018: 不如你講一下一些feature怎麼實作 11/26 22:36
→ Lordaeron: 這你得去問aaaba, 不是我. 11/26 22:36
→ Lordaeron: 而我還得去重學呢. 11/26 22:36
→ forb9823018: 所以我說論文有不少細節和參數沒有寫上去 11/26 22:37
→ forb9823018: 這句話哪裡有錯? 11/26 22:37
→ forb9823018: 自己說自己也要去重學的人叫別人學一下再來講... 11/26 22:38
→ Lordaeron: 請看清楚, 不然Wush978要怎麼講. 11/26 22:40
推 forb9823018: 論文有不少細節和參數沒有寫上去=>這句話哪裡有錯 11/26 22:42
→ forb9823018: 又不是他對我的話有疑問是你有疑問當然問你 11/26 22:42
→ forb9823018: 我管他怎麼講我又不是回他 11/26 22:42
→ Lordaeron: 我覺得你沒錯, 但不代表aaaba及wush978, 而既然只是我 11/26 22:42
→ Lordaeron: 覺得沒錯, 而Wush978叫我回去重學了, 只好提醒你囉. 11/26 22:43
→ forb9823018: 你覺得我沒錯那你又怎麼知道我沒學過? 11/26 22:43
→ forb9823018: 我也沒再回你是你自己跳出來對叫我回去學的 11/26 22:44
→ Lordaeron: 我跟你都覺得沒錯, 而我要重學, 推得. 11/26 22:44
→ forb9823018: 我覺得就算能100%還原原文也頂多只能追到 11/26 22:46
→ forb9823018: 跟原本發表時差不多的結果alphago這時不知又進步多 11/26 22:46
→ forb9823018: 少 11/26 22:46
→ Lordaeron: 哦, aaaba就說了, 照論文就能100%的了, 就是人家的起 11/26 22:47
→ Lordaeron: 跑線了. 11/26 22:48
→ forb9823018: 機器學習很多時候都是想出一些看似可行的方法 11/26 22:48
→ forb9823018: 但實際效果如何沒跑過不知道 11/26 22:49
→ forb9823018: 除非可以問deepmind團隊裡面個個名字的細節 11/26 22:49
→ forb9823018: 不然很有可能光是複製就走很多冤枉路 11/26 22:49
→ Lordaeron: 直接copy code 比較快吧. 11/26 22:49
→ forb9823018: 隨便找一個人來複製論文...就算是專家如果只有一個人 11/26 22:51
→ Lordaeron: @forb9823018, 哇, 你完全和aaaba說法相反了呢. 11/26 22:51
→ forb9823018: 光是要複製不知要花幾年 11/26 22:51
→ forb9823018: 我又沒說我認同他說的 11/26 22:51
→ forb9823018: 問題是他們研究那麼久的成果不可能你要就給你 11/26 22:52
→ forb9823018: 因為要花很多時間訓練,然後發現某個步驟的名字定義 11/26 22:52
→ Lordaeron: 當然不可能一篇就全講, 也不可能講得清的. 11/26 22:53
→ forb9823018: 不一樣就要整個打掉重來 11/26 22:53
→ Lordaeron: anyway,我在等Wush978開alphago 論文的課當中, 期待... 11/26 22:53
→ forb9823018: 有論文當然比沒方向好 但deepmind團隊 11/26 22:55
→ forb9823018: 機器學習的專家全世界最頂尖的100人中裡面就佔好幾 11/26 22:56
→ forb9823018: 個了 11/26 22:56
→ forb9823018: 他們重確定架構到微調成之後的強度也花了不少時間 11/26 22:57
→ forb9823018: 其他人不想做的原因是花很多人力物力只複製出很之前 11/26 22:58
→ forb9823018: 的進度 11/26 22:58
→ forb9823018: 目前其他還有在座的團隊的目標大概是 11/26 22:58
→ forb9823018: 能做出一般電腦能跑 齊力有一般職業水準 11/26 22:59
→ forb9823018: 的電腦 11/26 22:59
→ forb9823018: 最頂尖大概只會留給deepmind自己做了 11/26 22:59
→ aaaba: 我只說了其他公司以複製該篇論文起步,然後論文裡有滿多訓 11/26 23:29
→ aaaba: 練時的參數非常有參考價值(沒完整卻也足夠讓其他公司做出超 11/26 23:29
→ aaaba: 越v13的版本了),而找劉知青來幫助不大。至於什麼保證百分 11/26 23:29
→ aaaba: 之百成功這些我沒說,有點羞恥心就別一直玩抹黑這套 11/26 23:29
→ Lordaeron: 這麼快吃回去了? 還好推文還在呢. 11/26 23:41
→ Lordaeron: 等等等alphago 教學中.... 11/26 23:41
推 HeterCompute: 樓上這些人只是因為ptt不知道語氣於是在為了說話 11/26 23:46
→ HeterCompute: 細節上爭吵,有點可愛XD本來這些都是不需要爭的XD 11/26 23:46
推 Eric0605: 最強的軟體人才都去歐美了 中國最強的軟體人都搞電商了 11/27 00:17
→ Eric0605: 至於AI 中國人大概還只拿來當遊戲 跟本沒有公司想做 11/27 00:17
→ aaaba: 我就不信狂問別人supervise是什麼的人能有多少料,結果一說 11/27 00:31
→ aaaba: 到feature就說自己要重學,然後靠著嘴炮到別人懶得回就在那 11/27 00:32
→ aaaba: 邊得意... 11/27 00:32
→ Lordaeron: @aaaba,我需不需要重學你不知道, 但你絕對是連哪是什麼 11/27 00:40
→ Lordaeron: 都不知, 就將話講滿了, 連AJA沒講的都塞給他了. 11/27 00:40
→ Lordaeron: 我就等大師來教我ALPHAGO 的論文. 11/27 00:40
→ Lordaeron: Wush978, 快來一篇吧. 11/27 00:41
推 semihumanity: 不知道reinforcement learning?肯定沒看論文 11/27 02:55
推 semihumanity: 明明是machine learning外行人,講話還這麼衝… 11/27 02:59
→ Lordaeron: 我有沒有看論文, 是不是外行人, 就等你來教. 11/27 08:51
→ Lordaeron: 你真內行, 就開一篇看看. 看你看論文看得怎樣. 11/27 08:52
→ Lordaeron: Wush978, 快來一篇吧. 11/27 08:53
推 ddavid: 我怎麼覺得起跑線跟複製完全是兩回事,複製成功明明就是 11/27 09:23
→ ddavid: 終點線不是嗎XD 11/27 09:23
→ ddavid: 然後Supervised中所謂好壞確實是人定義的,但不代表學習過 11/27 09:25
→ ddavid: 程中需要人去看……,人類的Supervised是運作在學習前對使 11/27 09:26
→ ddavid: 用的資料進行定義,以及學習後回顧檢查並解讀一下結果,學 11/27 09:27
→ ddavid: 習中人力是不介入的 11/27 09:27
→ ddavid: 學習中要有人力介入的,叫做Semi-supervised learning 11/27 09:28
→ ddavid: 不管是Supervised還是Unsupervised learning都是學習過程 11/27 09:30
→ ddavid: 中不用人力監督的,因為那個Supervised根本不是在指學習過 11/27 09:31
→ ddavid: 程 11/27 09:31
推 ddavid: 至於AlphaGo並非Supervised learning,這又是另一回事了 11/27 09:35
推 semihumanity: 連深度學習基礎都沒有、只會嗆的人該怎麼教… 11/27 11:09
→ semihumanity: 這已經不是半瓶水響叮噹了,根本是空瓶子吵死人XD 11/27 11:10
推 semihumanity: 如果你真的有興趣請去下載論文,搜尋reinforcement 11/27 11:31
→ semihumanity: 等你把論文看完再來發問好嗎?不要再亂嗆人了唷 11/27 11:31
→ Lordaeron: @semihumanity, 就等你開一篇, 少在這reinforcement. 11/27 12:23
→ Lordaeron: Wush978, 沒開, 你可以來開. 11/27 12:24
→ Lordaeron: 你的Deep learning 的課,快開。 11/27 12:24
→ Lordaeron: 別在這一直跳針式的扯reinforcement. 11/27 12:25
→ Lordaeron: 提醒你們一件事, 自monte carlo方法出來後, 圍棋 11/27 12:47
→ Lordaeron: AI 就有一次大的進展了, 而這些作AI 的人, 照你們的說 11/27 12:47
→ Lordaeron: 法, 都是笨蛋, 將monte carlo和reinforcement結合. 11/27 12:48
→ Lordaeron: 不就解決了, 等什麼BBC之類的呢。 11/27 12:49
推 semihumanity: 死不看論文,只會嗆人...你沒付錢,憑什麼要人教? 11/27 13:06
→ semihumanity: AlphaGO就是MCTS結合deep learning用reinforcement 11/27 13:06
→ semihumanity: learning學習,才得到這樣的棋力。 11/27 13:06
→ semihumanity: 結果還是不小心教了...伸手黨真是不可取 11/27 13:07
→ Wush978: 同領域的看推文就知道有沒有料了 11/27 13:22
→ Wush978: 樓上太佛了 11/27 13:23
→ Lordaeron: @semihumanity,Wush978. 台大剛好有篇文章, 自己看. 11/27 13:38
→ Lordaeron: 太佛了. 11/27 13:39
→ Lordaeron: 要是單單reinforcement有用, 還用等到CNN的加入? 11/27 13:43
→ Lordaeron: 而通過自下的方式增強棋力, 正是AJA 的畢業論文. 11/27 13:45
→ Lordaeron: 而他的畢業作品程式, 就嬴過一次圍棋AI 冠軍. 11/27 13:46
→ Lordaeron: 要是單單這個可這麼強, 哪就不會只有一次了. 11/27 13:48
→ aaaba: 又在生話了,別人沒說“單單”,自己在那邊單單 11/27 13:54
→ Lordaeron: 哈....不是用XXX才有嗎? 哪不用就沒有了呢. 11/27 14:10
→ Lordaeron: 所以主要是reinforcement 啊. 11/27 14:10
→ Lordaeron: 但偏偏aja的畢業論文就是value net 哪套了. 11/27 14:10
→ roujuu: 「神威‧太湖之光」嗎?她平常每日CPU time不是只用到60% 11/27 14:11
→ Lordaeron: 還好我們不同領域,也還好我也可以看推文就知道有沒有料 11/27 14:12
→ roujuu: ,可以用她寫類似AlphaGO的東東,也可以不用使用DeepMind 11/27 14:12
→ roujuu: 的程式構想方式,只要找對人,應該很快就可以和AlphaGO分 11/27 14:13
→ roujuu: 先了。 11/27 14:14
→ Wush978: 那你前面講的supervised 用你自己論點打不就更可笑嗎?XD 11/27 15:00
→ Lordaeron: 啊?我打什麼了? alphago的重點是supervised. 11/27 15:01
→ Lordaeron: 是誰跳出來加持一下reinforcement? 11/27 15:02
→ Lordaeron: 有沒有料, 一看就知道... 11/27 15:02
→ Lordaeron: fuego 就是用CNN supervised加強可以贏GNU GO 達97% 11/27 15:04
→ aaaba: 無知還狂問別人supervise是什麼,哈哈哈 11/27 15:04
→ Lordaeron: 而你們兩位口中的reinforcement 在aja的論文就有了。 11/27 15:04
→ Wush978: alpha go 的重點是過去人類的棋譜還是他自己下的? 11/27 15:05
→ Lordaeron: 重點在reinforcement的話, aja 的程式的結果要比fuego 11/27 15:05
→ Lordaeron: 好才對. 11/27 15:05
→ Wush978: 所以說你外行啊,這行哪有這麼簡單「有用這個就會強」 11/27 15:06
→ Wush978: 「因為aja過去的AI只拿一次冠軍所以reinforcement learni 11/27 15:08
→ Wush978: ng 不重要」 能下出這種推理,我是覺得也太... 11/27 15:08
→ aaaba: 而且連reinforcement是一個類別也不知道,說什麼早就有用, 11/27 15:09
→ aaaba: 用起來學問可大了,不是一句有用過就完事了 11/27 15:09
推 semihumanity: 越講破綻越多XD連訓練方式和網路架構都分不清楚 11/27 15:55
→ semihumanity: 你以為reinforcement learning只有一個algorithm? 11/27 15:58
→ semihumanity: CNN只有一種訓練方法? 11/27 15:58
噓 ggoutoutder: 原來是AI版 我還以為是圍棋版 11/27 15:59
推 semihumanity: AlphaGO如果沒用reinforcement learning, 11/27 16:01
→ semihumanity: 只用人類棋譜做supervised learning,程度就是業餘 11/27 16:02
→ semihumanity: 段位而已 11/27 16:02
→ semihumanity: 不讀論文,只會講一些似是而非的東西 11/27 16:03
推 wjmd92: 真精彩!看到這裡,先打個卡,明天續看 11/27 16:12
→ Lordaeron: @semihumanity,Wush978, 有用到又如何? 11/27 16:12
→ Lordaeron: @Wush978, 不然主要是什麼? 11/27 16:13
→ Lordaeron: 還要轉嗎? 11/27 16:13
→ Lordaeron: 我有說過AlphaGO沒用reinforcement learning? 11/27 16:14
→ Wush978: Alpha GO棋力會強是因為過去人類的棋譜還是他自己對自己 11/27 16:15
→ Wush978: 的棋譜? 11/27 16:15
→ Lordaeron: 還是說重點不是reinforcement learning. 11/27 16:15
→ Lordaeron: @Wush978, 當然是過去人類的譜. 11/27 16:15
→ Lordaeron: 要是自己對下的譜, 哪aja 的論文就夠了. 11/27 16:16
→ Lordaeron: 內行? 11/27 16:17
→ Lordaeron: 就有人一直鬼扯別人都不懂. 懂不懂, 很清楚. 11/27 16:20
推 semihumanity: 真的是活在自己的世界耶~AlphaGO是靠自我對奕三千萬 11/27 16:21
→ semihumanity: 盤才達到職業九段以上的棋力好嗎? 11/27 16:21
→ semihumanity: 論文和DeepMind的宣傳都有講,您為什麼要這樣呢? 11/27 16:22
推 ztdxqa: Lordaeron還是先去看論文好了 別再秀下限了 11/27 16:23
→ Lordaeron: @semihumanity,誰不得論文, 很清楚的. 11/27 16:25
推 ztdxqa: 真正把AlphaGo推到職業頂尖的關鍵就是DRL 11/27 16:27
→ Lordaeron: 文中清楚的跟你講, 它是improving SL. 11/27 16:27
→ Lordaeron: 但是在SL 的基礎上作的. 11/27 16:27
→ Lordaeron: 中譯, 就是你沒有SL 作底, 你是什麼? 11/27 16:28
→ Wush978: 論文裡面的描述是學習有三階段, SL of policy network, 11/27 16:28
→ Wush978: RL of policy network, RL of value network 11/27 16:29
→ Wush978: 我是不太喜歡爭論SL重要還是RL重要,因為這種行為本身就 11/27 16:29
→ Wush978: 外行。但是說RL不重要,我是笑了 11/27 16:29
推 semihumanity: 算了算了~他活在自己的世界開心就好XD 11/27 16:29
推 ztdxqa: 餵棋譜只是給AlphaGo一個common sense 這樣能到的棋力只 11/27 16:33
→ ztdxqa: 有業餘高段 有點像是他的pretrained model 11/27 16:35
→ ztdxqa: 接下來再靠自我對局去調整 事實上整篇paper講的都是RL 11/27 16:36
推 ztdxqa: policy跟value這兩個詞也是RL領域的術語 deep learning 11/27 16:44
→ ztdxqa: 只是要把傳統RL generalize到實際問題的方法 11/27 16:47
→ Lordaeron: @Wush978,這麼快, 就不玩了? 11/27 17:28
→ Lordaeron: @semihumanity,的確是活在自己的世界就好了, 連有過 11/27 17:29
→ Lordaeron: 什麼論文都不知. 11/27 17:29
→ Lordaeron: 而RL 是imporived SL, 當然RL比較常見. 11/27 17:31
→ Lordaeron: 同樣是CNN的狀況, ALPHAGO就大輸fuego.這要算業餘高段? 11/27 17:58
推 semihumanity: AlphaGO大輸fuefgo!XDDDD 11/27 18:04
→ semihumanity: 害我笑到打錯字XD 11/27 18:05
→ sean51623: 這串看完 覺得大家好有耐心 不要理他不就好了嗎 何必呢 11/27 18:16
→ Wush978: RL不是improved SL,這兩個東西不一樣 11/27 18:20
推 TWN2: AlphaGO大輸FGO 以手遊來說 11/27 18:21
→ Lordaeron: 不看論文的穿了哦! 11/27 18:28
→ aaaba: 第一次在go板看到透過曝露自己短處來獲得快感的人,總是會 11/27 18:38
→ aaaba: 多看幾眼,久了就會開始無視了 11/27 18:38
推 blacktom: 你們都是資訊專家嗎,好強喔,我啥都不懂 11/27 18:41
→ Lordaeron: @aaaba,你不就是了, 當然Wush978+semihumanity三人組 11/27 19:21
→ Lordaeron: 原來是不看論文的人,狂叫人家看論文. 11/27 19:22
→ Lordaeron: 圍棋AI 哪幾支的論文都沒看過的人, 卻是內行人呢. 11/27 19:23
→ Wush978: @blacktom,我是在相關領域工作多年了,只是看到有人發 11/27 19:28
→ Wush978: 表一些錯誤概念,上來聊聊罷了 11/27 19:28
→ Wush978: 要說服當事人我看是很難,但求錯誤的資訊別誤導人就好 11/27 19:29
→ Wush978: RL對於alpha go 是相當重要的,根據nature 上的Mastering 11/27 19:37
→ Wush978: the game of Go with deep neural networks and tree sea 11/27 19:37
→ Wush978: rch 中可以得知,Alpha go 的機器學習分成三階段:SL of 11/27 19:37
→ Wush978: policy network, RL of policy network and RL of value 11/27 19:38
→ Wush978: network. 其中SL of policy network的部分,主要都是採用 11/27 19:38
→ Wush978: 相關工作的方法,並沒有看到太多新的東西, Paper中主要 11/27 19:39
→ Wush978: cite了5篇之前關於圍棋AI的工作。RL of policy network的 11/27 19:40
→ Wush978: 部分讓SL的結果從預測下一手的問題轉成贏棋> 11/27 19:42
→ Wush978: 事實上,這篇paper自稱最大的改善是在policy 和 value 11/27 19:43
→ Wush978: function 上,所以他們主要的貢獻在於導入Deep Learning 11/27 19:44
→ Wush978: 相關方法來解決圍棋AI的問題。 11/27 19:44
→ Wush978: 看下來,說RL對Alpha Go不重要的理由到底是什麼? 11/27 19:44
→ Wush978: 明明內容中都在講RL比較多了,SL都是之前的工作 11/27 19:45
→ Wush978: 不過Alpha GO說不定最主要的貢獻是發展在GPU上根據policy 11/27 19:49
→ Wush978: and value network做搜尋的算法,因為他們propose的做法 11/27 19:49
→ Wush978: 計算量太大了,所以需要借助GPU等硬體工具做大大的加速 11/27 19:49
→ Lordaeron: 啊,不是說RL 跟SL 不同?我怎麼看到 11/27 19:55
→ Lordaeron: The second stage of the training pipeline aims at 11/27 19:55
→ Lordaeron: improving the policy network by policy gradient 11/27 19:55
→ Lordaeron: reinforcement learning (RL) 11/27 19:55
→ Lordaeron: 往下還有一小段. and 12% against a slightly weaker 11/27 19:56
→ Lordaeron: program Fuego 11/27 19:56
→ Lordaeron: 前面還有一段The RL policy network p ρ 11/27 19:57
→ Lordaeron: is identical in structure to the SL 11/27 19:57
→ Lordaeron: and its weights ρ are initialised to the same 11/27 19:58
→ Lordaeron: values. 11/27 19:58
→ aaaba: 秀下限又開始了,論文看不懂先承認再求人教你 11/27 19:59
→ Lordaeron: @aaaba, 快來教我吧. 11/27 20:00
→ Lordaeron: 你的參數都在哪, 快拿出來. 11/27 20:00
推 Wush978: 不同啊,因為兩個方法看待資料的角度是不同。 11/27 20:02
推 Wush978: 以這為例,RL的資料是自己產生資料,SL是觀察的資料一 11/27 20:06
→ Wush978: 個是觀察的資料,一個是自我產生的資料 11/27 20:06
→ Wush978: SL的S在強調的是資料有提供答案,而RL則是要具備能產生 11/27 20:10
→ Wush978: 資料的環境 11/27 20:10
→ Lordaeron: 繼續轉, 英文就在哪了. 謝謝. 11/27 20:11
→ Wush978: 以上是ML的一般知識,你想反駁請找定義 11/27 20:11
→ Wush978: 不用拿一個應用的paper中的一句話來戰 11/27 20:12
→ Wush978: 你那句話只代表這個問題剛好SL和RL都能解 11/27 20:13
→ Lordaeron: 英文就在哪了. 謝謝. 11/27 20:13
推 Wush978: 你不信就算了,其他網友別被誤導就好 11/27 20:18
→ Lordaeron: 我正在學當中, 不置可信, 我只學過pattern recognition 11/27 20:36
→ Lordaeron: ML這種高級貨, 我是不會懂的. 11/27 20:37
→ Lordaeron: 致於誰在誤導別人, 就看誰整天叫人去看論文. 結果自己 11/27 20:37
→ Lordaeron: 沒看的吧. 11/27 20:37
→ blacktom: 怎麼都不發文? 11/27 20:42
→ Lordaeron: 這是圍棋版, 不是AI 版. 11/27 20:44
→ Lordaeron: 但你可以請他教你alphago的論文. 11/27 20:44
推 semihumanity: 原來你是論文看不懂啊...也對啦!訓練方法和網路架 11/27 21:20
→ semihumanity: 構分不清楚,怎麼會懂 11/27 21:20
→ semihumanity: 說出RL=SL這種話,我也只能笑了 11/27 21:25
推 semihumanity: Wush,那句話並不是說SL和RL都能解喔... 11/27 21:30
→ Lordaeron: @semihumanity, 我是真的看不懂的, 英文就在哪, 等你 11/27 21:31
→ Lordaeron: 來解釋嘛. 11/27 21:32
→ Lordaeron: 不過, 你最好先實現一個alphago 出來, 比較有說服力. 11/27 21:32
→ semihumanity: 我前面說過了,我為什麼要免費教你? 11/27 21:32
→ semihumanity: 你以為知識是免費的? 11/27 21:33
→ Lordaeron: 哦, 哪就算囉. 你這麼懂alphago. 11/27 21:33
→ semihumanity: 我雖然沒做過AlphaGO,但也自己寫過RBM,CRBM,CNN 11/27 21:33
→ Lordaeron: 期待你的alphago 復刻版. 11/27 21:34
→ Lordaeron: 加油1. 11/27 21:34
→ semihumanity: 我是沒Wush那麼好心,怕別人被誤導。想學的人再問我 11/27 21:42
→ Lordaeron: 真的,連論文都沒看的, 就會笑. 真的是不錯. 11/27 21:43
推 aoeu: The RL policy network p is identical in structure to the 11/28 02:26
→ aoeu: SL and its weights p are initialized to the same values. 11/28 02:26
→ aoeu: 中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相 11/28 02:27
→ aoeu: 同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。 11/28 02:29
→ aoeu: RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做 11/28 02:30
→ aoeu: 為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連 11/28 02:31
→ aoeu: 結方式和每個連結的權重 (weights)。 11/28 02:32
→ aoeu: 這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的 11/28 02:32
→ aoeu: 是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。 11/28 02:33
→ aoeu: 不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數 11/28 02:34
→ aoeu: ,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加 11/28 02:35
→ aoeu: 快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是 11/28 02:36
→ aoeu: 用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一 11/28 02:36
→ aoeu: 個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流 11/28 02:38
→ aoeu: 棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始 11/28 02:38
→ aoeu: 的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。 11/28 02:40
→ aoeu: DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。 11/28 02:41
→ aoeu: AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以 11/28 02:44
→ aoeu: 前就有,但把兩者結合起來並發展出一套適合用在圍棋上的 11/28 02:44
→ aoeu: model 是相當有難度的,也是 AlphaGo 創新的地方。 11/28 02:45
推 Wush978: @semihumanity 我只是指出,要拿該句話論證RL=SL的問題點 11/28 03:30
→ Wush978: 感謝@aoeu大大仔細解析那句話的意思以及SL/RL在Paper中的 11/28 03:34
→ Wush978: 角色。 11/28 03:34
推 mom213: L大一開始說得也沒錯 圍棋AI不像computer vision的問題 11/28 03:35
→ mom213: 例如釋出FASTER R-CNN的MODEL大家可以很 11/28 03:35
→ mom213: 輕鬆的基於這個模型去對影像偵測達到很不錯的表現 11/28 03:36
→ mom213: 阿法狗的RL太多眉眉角角在裡面 能訓練出一樣水平的模型 11/28 03:38
→ mom213: 不是那麼容易的 我也覺得起跑線那句話有點不妥 11/28 03:39
→ mom213: 但後來跟別人戰論文就有點不知所云...... 11/28 03:40
→ Wush978: 我是覺得不離譜。這不代表重現paper簡單,但是當別人把 11/28 03:41
→ Wush978: 做法的核心都放出來後,要達到接近的高度,已經比無中生 11/28 03:42
→ Wush978: 有還要容易的多了。畢竟已經有前人走在前面,並且達到高 11/28 03:43
→ Wush978: 度。像我自己在做研究時,多的是方法難做,也不清楚做出 11/28 03:43
→ Wush978: 來是不是真的能夠比現有的好... 痛苦阿 11/28 03:43
推 ztdxqa: 不知道以後alphago會不會opensourceXD 11/28 04:06
→ aaaba: wush大真的有說到相關研究人員的難處,調整模型的時候,哪 11/28 09:42
→ aaaba: 怕是多知道一個參數的起始值該怎麼設,就足夠省下N倍的時間 11/28 09:42
→ aaaba: 。當然一般研究生是無法靠論文重現alphaGo的,我原始推文是 11/28 09:42
→ aaaba: 在說騰訊為何不需要劉知青,所以所謂起跑線,是對騰訊這種 11/28 09:42
→ aaaba: 公司而言,請勿放大解釋,以為有論文就有alphaGo。扭曲他人 11/28 09:42
→ aaaba: 言論這種不入流的事,在我多次澄清後,希望別再發生 11/28 09:42
推 HeterCompute: 推大神們出來說明 11/28 10:38
推 semihumanity: aoeu太佛心了吧…看不懂的人自以為懂就好了啊 11/28 13:02
→ Lordaeron: @semihumanity,連棋AI 都沒做過的, 的確是看懂就好. 11/28 15:49
推 ddavid: 我真的覺得不需要糾纏下去,當RL=SL時你還能說什麼呢 11/28 15:51
→ Lordaeron: 而SL train出來的東西, 並沒有保證準確,最終還是要有 11/28 15:52
→ Lordaeron: 人來檢視, 訂正. 要是哪麼簡單, GNU GO 上的盤就夠多的 11/28 15:53
→ Lordaeron: 了, GNU Go 借fuego 的論文train 一下不就好了. 11/28 15:53
推 ztdxqa: 看到Lord大的文我也是醉了 居然會講到需要人來訂正 檢視 11/28 17:29
推 semihumanity: 他大概不知道DeepMind如何修正AlphaGO第四局的問題 11/28 17:34
→ semihumanity: 就我所知,Fuego不是用MCTS嗎?有用deep learning? 11/28 17:39
→ semihumanity: 還是他說的SL不是DL裡的SL?XD 11/28 17:45
→ aaaba: 原來需要人檢視啊,這就是supervise 啊! 難怪我不懂 11/28 17:48
→ aaaba: 以後遇到人一定得問上一句:你知道supervise嗎? 11/28 17:58
推 AmibaGelos: 來朝聖sl=rl LOL 11/28 22:30
→ jpg31415926: 這裡有一批便宜的稻草人 請打這支電話 ****-***-*** 11/29 02:39
→ Lordaeron: @semihumanity,你不知的東西,真的很多. 但你很會笑. 11/29 16:31
→ Lordaeron: @ztdxqa,不需要人來檢視,aja的程式必然早就最強了. 11/29 16:32
→ Lordaeron: 還整天在搞哪些pattern幹嘛 11/29 16:32
→ Lordaeron: @aaaba,你扭曲aja講的話這種事, 還在推文中. 11/29 16:33
→ Lordaeron: 好笑嗎? 11/29 16:39
→ Lordaeron: 相關的討論在computer-go.org 上都有討論. 11/29 16:41
推 ddavid: 最後結果人去檢視跟SL的Supervised是兩回事……XD 11/29 17:33
→ Lordaeron: 啊, 有人說是同一回事? 11/29 18:09
→ Lordaeron: 但如果有人認為,照論文就可以產生一個一樣強的程式. 11/29 18:26
→ Lordaeron: 就真的是想太多了. 11/29 18:26
推 semihumanity: 為什麼要一直逗我笑XD那篇論文有說Fuego有用deep 11/29 19:31
→ semihumanity: learning嗎?你找錯論文了,Fuego的論文不是這篇喔 11/29 19:31
→ semihumanity: 真的是第一次看到臉皮這麼厚的人,一直伸出來要人打 11/29 19:33
→ Lordaeron: @semihumanity, 你又打算不自文就出來笑了? 11/29 20:22
→ Lordaeron: 上回還笑不夠? 11/29 20:22
推 semihumanity: 我猜你是要說「不讀論文」,但目前為止都是你看不懂 11/29 22:11
→ semihumanity: 論文啊! 11/29 22:12
→ semihumanity: 「同樣是CNN的狀況, ALPHAGO就大輸fuego」XDD 11/29 22:13
→ semihumanity: 你到現在還不知道你這句話哪些地方錯了? 11/29 22:13
→ semihumanity: 你有看懂你找的那篇論文嗎? 11/29 22:14
→ aaaba: 樓上太佛了,一直指導他,可是他比較需要的是開導 11/29 22:46
推 kennyluck: 推 forb9823018 aoeu mom213 其他人的語言能力跟情商 12/06 05:25
→ kennyluck: 都很值得加強啊...... 12/06 05:25