看板 GO 關於我們 聯絡資訊
中國版人機大戰緣何沉寂? 劉知青:缺乏研究人才  文章來源:北京青年報   一年前,在北京工體旁的網魚網咖,第一屆世界電腦圍棋錦標賽上,來自中國、韓國 、日本、美國、法國、捷克的圍棋人工智慧軟體捉對廝殺了3天後,總冠軍韓國的“石子 旋風”受讓5子,卻被中國七段棋手連笑擊敗。那時還無人知曉AlphaGo的大名。一年 過 去了,圍棋AI(人工智慧)早已被炒得火熱,去年曾在北京亮相的日本圍棋軟體“ZEN” ,也首次不受讓子,前天與日本著名棋手趙治勳九段戰成1比2。可這一年間,中國的圍棋 智慧軟體哪兒去了?   阿爾法狗火了 中國AI卻沉寂   “第二屆世界電腦圍棋錦標賽?早就確定不搞了。”首屆錦標賽媒體推廣人陳昭告訴 北京青年報記者,“中國研發人員覺得,如果達不到AlphaGo今年3月與李世石對陣的水準 ,那還不如不露面。”   去年,來自北京郵電大學、武漢大學,以及臺灣的三支中國隊伍參加了角逐。但最好 的一支國內隊伍僅獲第七名。在連笑輕鬆戰勝人工智慧冠軍“石子旋風”後,現場觀戰的 中國圍棋隊主教練俞斌九段認為,電腦真正下過人類,還得20年。   今年3月AlphaGo4比1完勝韓國名將李世石,證明了智能的成長性。中國也隨即掀起討 論圍棋智慧的熱潮。又過了8個月,北青報記者發現,中國相關圍棋智慧研究,依然處在 缺乏政策傾斜,少有資金眷顧,各自為戰的鬆散局面。   擁有天河二號不等於AI厲害   當AlphaGo4比1大勝李世石,專家跌碎一地眼鏡之餘也指出,其成功之道不止是軟體 的突破,還有大金主的資金和硬體的支援。但當時就有中國棋友詰問:我們有天河二號啊 !   天河二號超級電腦作為中國“最強大腦”,耗資一億美元打造,峰值計算速度每秒 5.49億億次,記憶體總容量1400萬億位元組。2015年以每秒33.86千萬億次的浮點速度, 第六次蟬聯世界超級電腦排行榜的冠軍。   陳昭坦言,在策劃第二屆電腦圍棋錦標賽時,曾經聯繫過天河二號所在的廣州超算中 心。“聯繫了一陣,後來還是決定不搞了。”北青報記者從北京郵 電大學電腦圍棋研究 所所長劉知青教授那裡,瞭解到更多詳情。據他介紹,搞圍棋人工智慧,靠一個人,一台 電腦肯定不行,一定要有頂級硬體條件支援。“但另 一方面,我們還需要長期在圍棋人 工智慧領域工作的人才,還需要在軟體方面有所突破,才能真正把硬體優勢發揮出來。” 他說。換言之,沒有類似AlphaGo 那樣的智慧軟體,硬體再快也無用武之地。   還在解讀AlphaGo論文階段   那麼,中國圍棋智慧軟體水準目前處在什麼層次?劉知青一方面表示,這一年我們的 軟體水準還是有進步的,一方面也承認,目前大家的目標,就是解讀AlphaGo之前發表的 論文,“爭取達到它在今年3月的水準。”   在AlphaGo之後,人工智慧領域最大的進步,當屬日本圍棋軟體DeepZenGo。去年的錦 標賽,“ZEN”還不能在程式間的對決中獲勝, 一年後已不受讓子勝趙治勳九段一盤。但 對此成績,劉知青並不太認同。“從去年受讓6子,到如今戰勝趙治勳,確實有進步,” 他說,“但還沒有達到 AlphaGo的水準。”   即使如此,中國尚沒有匹敵“ZEN”的圍棋軟體。但劉知青認為,中國已走在正確的 道路上。“AlphaGo證明了人工智慧走神經網路,價值判斷的路是正確的,我們的AI也走 這條路。相信在消化吸收了AlphaGo的論文,我們會取得更多突破。”   缺乏資金和政府層面支持   值得注意的是,去年首屆錦標賽上,已經提出走商業化發展的中國圍棋AI,沒有在 AlphaGo打出的人工智慧風口推動下飛上天,反而陷入各自為戰的沉寂。  AlphaGo與李世石的人機大戰剛過去一周,中國人工智慧協會就會同中國圍棋協會召開 論壇,邀請包括工程院院士李德毅、北郵校長林金桐等各界人士,討論人工智慧前景。而 具體到北郵電腦圍棋研究所研發的圍棋AI,最終也未獲得政府或大企業的青睞。   那麼,是圍棋人工智慧的應用前景不被看好嗎?劉知青予以否認。他認為,AlphaGo 有強大的總體把握能力,可以簡明地把優勢轉化為勝勢。而圍棋問題有天文數字的狀態空 間和決策空間,解決圍棋問題,是證明人工智慧研究突破的重大節點。   如此具有前景的應用領域,已經吸引了國外多個科技巨頭投入,而在中國似乎還處在 各幹各的局面。“比如前一陣,我們經政府牽線,與騰訊人工智慧部門談過合作,後來不 了了之,最近聽說他們在自己搞相關工作了。”劉知青說。   劉知青坦言,中國目前其實不缺硬體,更不缺資金,缺乏的是長期在該領域投入的研 究人才和時間的累積。“目前中國在這一領域時間最久的就是我,也不過十餘年。未來中 國只有在人才積累,軟體科技積累達到一定水準,才能取得突破。”也許那時才是中國相 關人工智慧的真正風口。(記者 褚鵬) http://sports.sina.com.cn/go/2016-11-25/doc-ifxyawmm3363951.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.73.99 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1480081802.A.0B2.html
aaaba: alphaGo論文參數都出來了,起跑線就是定死在這邊,幹嘛要跟 11/25 22:23
aaaba: 劉知青合作,那樣還得派車回頭把他接來起跑線 11/25 22:23
aaaba: 看這文章只說明了他是局外人 11/25 22:27
arthurwang: 就為了中國人的面子,堅持要搞一個完全自己的AI嘛 11/25 23:21
Lordaeron: @aaaba你確定照論文可以出一個打敗一般業餘選手的? 11/25 23:40
aaaba: 不是我講的話你問我確不確定幹嘛...我上面推文中哪邊可以得 11/26 00:18
aaaba: 出你問題裡的敘述 11/26 00:18
MonkeyCL: 台灣又被偷渡在中國國內裡面了 11/26 01:00
skyhawkptt: 天河二只是跑分好看,至於AI https://goo.gl/xV8p4B 11/26 01:57
semihumanity: 都過多久了還在解讀論文,有點弱啊! 11/26 04:20
jpg31415926: 硬體規格就是錢堆出來的 怎麼用才是重點吧 11/26 08:39
Lordaeron: see?alphaGo論文參數都出來了,起跑線就是定死在這邊. 11/26 09:44
Lordaeron: 從alphago的論文, 有定出起跑線? 11/26 09:44
aaaba: 所以跟5F的陳述有關聯嗎?不要亂生話啊 11/26 10:19
aaaba: 生完還想塞到別人嘴裡要別人解釋,莫名其妙 11/26 10:24
nanlong: 前陣子的訊息是中國有AI已跟一般圍甲棋手打的差不多 11/26 12:28
nanlong: 估計應不輸這次上場的Zen。後面1年大概仍是AlphaGo一支獨 11/26 12:29
nanlong: 秀, 日本跟中國爭大老二。但拉到3年後? 就不好預測了。 11/26 12:31
nanlong: 怕google沒興趣繼續投入圍棋AI。 11/26 12:33
aaaba: http://i.imgur.com/WDiv1pi.jpg 而且根據黃博士的說法,講 11/26 12:48
aaaba: alphaGo的論文是中國軟體業大公司的起跑線,應該不為過,不 11/26 12:48
aaaba: 認同也就罷了,個人自由。但硬是想出一句風馬牛不相及的論 11/26 12:48
aaaba: 點然後要求對方解釋,還真的不曉得下限為何。 11/26 12:48
Lordaeron: @aaaba,話是你講的, 我是沒看到什麼起跑線的. 11/26 12:55
Lordaeron: 不然請你指出在哪? 11/26 12:55
aaaba: 你先解釋5樓的言論吧? 11/26 12:56
Lordaeron: @aaaba,解釋什麼? 你自己說, 起跑線就在哪. 11/26 13:26
Lordaeron: 又說參數都有. 當然得問說是不是照招就有alphago囉 11/26 13:26
Lordaeron: 至於你說是aja講的, 最少你給出的圖, 我看不出來他有講 11/26 13:27
aaaba: “照論文可以出一個打敗一般業餘選手的” <-- 這句話到底 11/26 13:31
aaaba: 是誰說的? 11/26 13:31
Lordaeron: 你的意思就是這樣, 不然是什麼? 11/26 13:32
Lordaeron: 還是你想AJA的話, 又解釋成你的樣子? 11/26 13:33
aaaba: 我的意思不是這樣,不要生話塞給別人秀下限 11/26 13:35
aaaba: 我是在說騰訊為何不用跟劉知青合作,你想到哪去了我可無法 11/26 13:37
aaaba: 理解 11/26 13:37
Lordaeron: 起跑線跟騰訊為何不用跟劉知青合作有何關係? 11/26 13:39
aaaba: 這跟你隨便找一個人來複製論文,卻打不過業餘棋手根本兩回 11/26 13:39
aaaba: 事 11/26 13:39
Lordaeron: 更妙的是aja 沒講過你的:中國軟體業大公司的起跑線. 11/26 13:40
Lordaeron: 這樣的話, 是誰塞話給別人了? 11/26 13:40
aaaba: 你先承認幫別人生話吧你 11/26 13:40
aaaba: 你質疑的點換來換去,我就問你5樓的話是不是你生的? 11/26 13:41
Lordaeron: 我沒幫你塞話, 話是你講的, 變我了? 11/26 13:42
forfunmerely: OUI 11/26 13:42
Lordaeron: aaaba:alphaGo論文參數都出來了,起跑線就是定死在這邊 11/26 13:43
Lordaeron: 英譯:flow alpahgo paper and you will get the same 11/26 13:43
aaaba: 呵,我那句提了某人複製論文的棋力跟業餘棋手的關係 11/26 13:44
Lordaeron: as alphago. 11/26 13:44
Lordaeron: 還需要中譯一次嗎? 11/26 13:45
Lordaeron: 另外, 塞別人話的人是你,你的截圖中AJA 什麼都沒講. 11/26 13:45
Lordaeron: 結果到你口中, 變成中國企業的起跑線了. 11/26 13:46
aaaba: 你複製論文不成功,干我屁事? 11/26 13:46
Lordaeron: 哪你複製成功了? 11/26 13:47
Lordaeron: 你知什麼是supervise ? 11/26 13:47
aaaba: 我又沒說複製論文就一定成功,你還要翻成flow什麼的,紅藍 11/26 13:48
aaaba: 式翻譯嗎? 11/26 13:48
Lordaeron: 你沒說一定成功啊,意思是成功就是? 你知supervise? 11/26 13:49
aaaba: 我那句說一定成功,你又在生話 11/26 13:50
aaaba: 我不用知道supervise也知道你生話塞給別人 11/26 13:51
forfunmerely: 癢癢 11/26 13:51
Lordaeron: 不成功, 哪來起跑線? 還要轉? 11/26 13:52
Lordaeron: 你知什麼是deep learning 是supervise 的? 11/26 13:52
Lordaeron: 不知什麼是supervise, 就別亂講, 照論文可以出起跑線. 11/26 13:53
Lordaeron: 還有,aja也沒講過什麼中國企業的起跑線之類的話. 11/26 13:53
Lordaeron: 愛塞話的人是你. 別轉了. 11/26 13:54
forfunmerely: 旋轉跳躍我B著眼~ 11/26 13:58
aaaba: 你起跑失敗也要怪東怪西?他論文寫在那邊,你複製的效果是 11/26 13:59
aaaba: 你家的事 11/26 13:59
ztdxqa: 插個話 Lordaeron語文能力不太好 對話看得有點辛苦 11/26 14:01
ztdxqa: 中文英文都不大好XD 11/26 14:02
aaaba: 至少那些公司是先試圖重現alphaGo部分成果,不用回頭找劉知 11/26 14:03
aaaba: 青。然後你生那些英文,顯得可笑,沒有論述的單詞一直屁有 11/26 14:03
aaaba: 什麼用? 11/26 14:03
forfunmerely: 一群銅牌 11/26 14:04
ztdxqa: 說實在話 要複製AlphaGo的論文太難了 有太多訓練的技巧 11/26 14:06
Lordaeron: 如果不知什麼是supervise,哪麼, 你的重現是什麼鬼? 11/26 14:06
ztdxqa: 深度強化學習比普通的CNN要難訓練太多了 DeepMind那群人 11/26 14:07
Lordaeron: @ztdxqa, 你是? 11/26 14:07
ztdxqa: 是這方面的大師 別人複製不了很正常的 至少要花很久時間 11/26 14:07
ztdxqa: 我是棋迷啊~ 11/26 14:08
Lordaeron: @ztdxqa,又來幫別人講話了. 11/26 14:08
Lordaeron: 你等DeepMind? 11/26 14:08
Lordaeron: 還是有試圖複製過AlphaGo的論文? 11/26 14:09
aaaba: z大說法中肯,哪像某人一副我如果複製失敗你來負責的拽樣 11/26 14:09
Lordaeron: 連supervise 都不懂是什麼的人, 還可以幫別人生話. 11/26 14:10
Lordaeron: 說什麼起跑線的. 11/26 14:10
ztdxqa: 我沒有複製過 但是知道非常的困難 11/26 14:10
forfunmerely: 最i你der人4我 你怎麼捨der窩難過~ 11/26 14:11
Lordaeron: 沒你也知, 這麼強? 11/26 14:11
ztdxqa: 你是要說監督是學習嗎 幫你更正一下supervise"d" learning 11/26 14:11
Lordaeron: @aaaba, 我沒要你負責啊, 你從哪裏看出來? 11/26 14:11
forfunmerely: 買個錶買個錶 11/26 14:12
Lordaeron: 我只看到你說, 複製alphago 的論文, 就有alphago 而已. 11/26 14:12
Lordaeron: 而不知道, 什麼是supervised 11/26 14:12
aaaba: 呵,z大人好好,我還真希望聽他多烙一些高深的英文詞彙 11/26 14:13
Lordaeron: 不用多高深, 只是看到有人說複製alphago 的論文, 就有 11/26 14:13
Lordaeron: alphago而已, 11/26 14:14
forfunmerely: One night in古亭 我liu下許多情~~~~ 11/26 14:14
aaaba: 又開始生話 11/26 14:14
Lordaeron: 還敢拿出aja的對話,來塞他話。 11/26 14:14
Lordaeron: 又開始裝傻了, 一樓的推文就在哪. 要吃回去? 11/26 14:15
forfunmerely: 唉 原來妳也在這裡 11/26 14:16
Lordaeron: 還有你根據aja說法的哪一段, 也要吃回去了? 11/26 14:16
forfunmerely: 小心手榴彈! 11/26 14:16
aaaba: 你自己定義起跑線=複製成功,然後賴來我頭上,我的意思是那 11/26 14:20
aaaba: 些公司先從著手複製論文起步,你不要再生話了行不行 11/26 14:20
forfunmerely: 妙筆生花 省話一哥 11/26 14:23
Lordaeron: 哈...aaaba, 複製論文,參數都在哪, 不就是複製成功, 就 11/26 14:27
Lordaeron: 有alphago了的意思? 11/26 14:28
Lordaeron: 但明明就不知什麼是需要supervise的. 11/26 14:28
Lordaeron: 意思是, 結果的好壞, 是需要人去定義的. 11/26 14:29
Lordaeron: 連它是supervised 的方法要人去supervise都不知. 11/26 14:29
aaaba: 更可笑的是還翻成英文然後更改文意,哪招? 11/26 14:29
Lordaeron: 還敢說出, 複製論文就好了. 11/26 14:30
forfunmerely: 你從不知道 我想做的不只是朋友~ 11/26 14:33
aaaba: 你不懂有參數代表可以少走很多冤枉路,也來在那邊秀下限? 11/26 14:34
aaaba: 這篇論文分享得很有誠意了,但能否成功,是看你自己的造化 11/26 14:34
aaaba: 有參數又代表複製成功了喔?這招一直用,你煩不煩啊 11/26 14:35
forfunmerely: 煩哪煩哪煩得沒有力氣煩哪 我煩啊 11/26 14:38
forfunmerely: 煩哪煩哪煩得不敢相信 11/26 14:38
forfunmerely: 煩哪煩哪煩得歇斯底里煩哪 11/26 14:38
BRANFORD: f君吃了什麼?我也點一份^_^ 11/26 14:53
semihumanity: AlphaGO的重點明明是reinforcement learning... 11/26 15:39
semihumanity: 不懂為什麼一直提"supervise" 11/26 15:39
semihumanity: 我只知道supervised learning 11/26 15:40
semihumanity: 而且supervised learning也不是「人」去監督啊... 11/26 15:42
Lordaeron: 不然是誰去教他哪個是對錯? 你懂參數會少走? 11/26 15:49
Lordaeron: AlphaGO的重點明明是reinforcement learning? 哪來的? 11/26 15:51
Wush978: 樓上要不要先去學一下再來問? 11/26 22:18
Wush978: 否則說的內容像外行,口氣卻很衝,很不協調 11/26 22:19
forb9823018: 論文有不少細節和參數沒有寫上去 11/26 22:27
Lordaeron: @Wush978, 哪還得讓你來教我一下呢. 11/26 22:30
Lordaeron: @forb9823018, 要不要先去學一下再來講,不然Wush978... 11/26 22:31
forb9823018: 我花了好幾個小時論文看過好幾次了 11/26 22:32
forb9823018: 看你的推文不知你又學了多少 11/26 22:34
forb9823018: 不如指教一下 11/26 22:34
forb9823018: 光是一堆feature的詳細定義和怎麼得出來的都沒講了 11/26 22:35
Lordaeron: 咦, 不是我說參數都在裏面的哦, 別扯到我頭上來. 11/26 22:36
forb9823018: 不如你講一下一些feature怎麼實作 11/26 22:36
Lordaeron: 這你得去問aaaba, 不是我. 11/26 22:36
Lordaeron: 而我還得去重學呢. 11/26 22:36
forb9823018: 所以我說論文有不少細節和參數沒有寫上去 11/26 22:37
forb9823018: 這句話哪裡有錯? 11/26 22:37
forb9823018: 自己說自己也要去重學的人叫別人學一下再來講... 11/26 22:38
Lordaeron: 請看清楚, 不然Wush978要怎麼講. 11/26 22:40
forb9823018: 論文有不少細節和參數沒有寫上去=>這句話哪裡有錯 11/26 22:42
forb9823018: 又不是他對我的話有疑問是你有疑問當然問你 11/26 22:42
forb9823018: 我管他怎麼講我又不是回他 11/26 22:42
Lordaeron: 我覺得你沒錯, 但不代表aaaba及wush978, 而既然只是我 11/26 22:42
Lordaeron: 覺得沒錯, 而Wush978叫我回去重學了, 只好提醒你囉. 11/26 22:43
forb9823018: 你覺得我沒錯那你又怎麼知道我沒學過? 11/26 22:43
forb9823018: 我也沒再回你是你自己跳出來對叫我回去學的 11/26 22:44
Lordaeron: 我跟你都覺得沒錯, 而我要重學, 推得. 11/26 22:44
forb9823018: 我覺得就算能100%還原原文也頂多只能追到 11/26 22:46
forb9823018: 跟原本發表時差不多的結果alphago這時不知又進步多 11/26 22:46
forb9823018: 少 11/26 22:46
Lordaeron: 哦, aaaba就說了, 照論文就能100%的了, 就是人家的起 11/26 22:47
Lordaeron: 跑線了. 11/26 22:48
forb9823018: 機器學習很多時候都是想出一些看似可行的方法 11/26 22:48
forb9823018: 但實際效果如何沒跑過不知道 11/26 22:49
forb9823018: 除非可以問deepmind團隊裡面個個名字的細節 11/26 22:49
forb9823018: 不然很有可能光是複製就走很多冤枉路 11/26 22:49
Lordaeron: 直接copy code 比較快吧. 11/26 22:49
forb9823018: 隨便找一個人來複製論文...就算是專家如果只有一個人 11/26 22:51
Lordaeron: @forb9823018, 哇, 你完全和aaaba說法相反了呢. 11/26 22:51
forb9823018: 光是要複製不知要花幾年 11/26 22:51
forb9823018: 我又沒說我認同他說的 11/26 22:51
forb9823018: 問題是他們研究那麼久的成果不可能你要就給你 11/26 22:52
forb9823018: 因為要花很多時間訓練,然後發現某個步驟的名字定義 11/26 22:52
Lordaeron: 當然不可能一篇就全講, 也不可能講得清的. 11/26 22:53
forb9823018: 不一樣就要整個打掉重來 11/26 22:53
Lordaeron: anyway,我在等Wush978開alphago 論文的課當中, 期待... 11/26 22:53
forb9823018: 有論文當然比沒方向好 但deepmind團隊 11/26 22:55
forb9823018: 機器學習的專家全世界最頂尖的100人中裡面就佔好幾 11/26 22:56
forb9823018: 個了 11/26 22:56
forb9823018: 他們重確定架構到微調成之後的強度也花了不少時間 11/26 22:57
forb9823018: 其他人不想做的原因是花很多人力物力只複製出很之前 11/26 22:58
forb9823018: 的進度 11/26 22:58
forb9823018: 目前其他還有在座的團隊的目標大概是 11/26 22:58
forb9823018: 能做出一般電腦能跑 齊力有一般職業水準 11/26 22:59
forb9823018: 的電腦 11/26 22:59
forb9823018: 最頂尖大概只會留給deepmind自己做了 11/26 22:59
aaaba: 我只說了其他公司以複製該篇論文起步,然後論文裡有滿多訓 11/26 23:29
aaaba: 練時的參數非常有參考價值(沒完整卻也足夠讓其他公司做出超 11/26 23:29
aaaba: 越v13的版本了),而找劉知青來幫助不大。至於什麼保證百分 11/26 23:29
aaaba: 之百成功這些我沒說,有點羞恥心就別一直玩抹黑這套 11/26 23:29
Lordaeron: 這麼快吃回去了? 還好推文還在呢. 11/26 23:41
Lordaeron: 等等等alphago 教學中.... 11/26 23:41
HeterCompute: 樓上這些人只是因為ptt不知道語氣於是在為了說話 11/26 23:46
HeterCompute: 細節上爭吵,有點可愛XD本來這些都是不需要爭的XD 11/26 23:46
Eric0605: 最強的軟體人才都去歐美了 中國最強的軟體人都搞電商了 11/27 00:17
Eric0605: 至於AI 中國人大概還只拿來當遊戲 跟本沒有公司想做 11/27 00:17
aaaba: 我就不信狂問別人supervise是什麼的人能有多少料,結果一說 11/27 00:31
aaaba: 到feature就說自己要重學,然後靠著嘴炮到別人懶得回就在那 11/27 00:32
aaaba: 邊得意... 11/27 00:32
Lordaeron: @aaaba,我需不需要重學你不知道, 但你絕對是連哪是什麼 11/27 00:40
Lordaeron: 都不知, 就將話講滿了, 連AJA沒講的都塞給他了. 11/27 00:40
Lordaeron: 我就等大師來教我ALPHAGO 的論文. 11/27 00:40
Lordaeron: Wush978, 快來一篇吧. 11/27 00:41
semihumanity: 不知道reinforcement learning?肯定沒看論文 11/27 02:55
semihumanity: 明明是machine learning外行人,講話還這麼衝… 11/27 02:59
Lordaeron: 我有沒有看論文, 是不是外行人, 就等你來教. 11/27 08:51
Lordaeron: 你真內行, 就開一篇看看. 看你看論文看得怎樣. 11/27 08:52
Lordaeron: Wush978, 快來一篇吧. 11/27 08:53
ddavid: 我怎麼覺得起跑線跟複製完全是兩回事,複製成功明明就是 11/27 09:23
ddavid: 終點線不是嗎XD 11/27 09:23
ddavid: 然後Supervised中所謂好壞確實是人定義的,但不代表學習過 11/27 09:25
ddavid: 程中需要人去看……,人類的Supervised是運作在學習前對使 11/27 09:26
ddavid: 用的資料進行定義,以及學習後回顧檢查並解讀一下結果,學 11/27 09:27
ddavid: 習中人力是不介入的 11/27 09:27
ddavid: 學習中要有人力介入的,叫做Semi-supervised learning 11/27 09:28
ddavid: 不管是Supervised還是Unsupervised learning都是學習過程 11/27 09:30
ddavid: 中不用人力監督的,因為那個Supervised根本不是在指學習過 11/27 09:31
ddavid: 程 11/27 09:31
ddavid: 至於AlphaGo並非Supervised learning,這又是另一回事了 11/27 09:35
semihumanity: 連深度學習基礎都沒有、只會嗆的人該怎麼教… 11/27 11:09
semihumanity: 這已經不是半瓶水響叮噹了,根本是空瓶子吵死人XD 11/27 11:10
semihumanity: 如果你真的有興趣請去下載論文,搜尋reinforcement 11/27 11:31
semihumanity: 等你把論文看完再來發問好嗎?不要再亂嗆人了唷 11/27 11:31
Lordaeron: @semihumanity, 就等你開一篇, 少在這reinforcement. 11/27 12:23
Lordaeron: Wush978, 沒開, 你可以來開. 11/27 12:24
Lordaeron: 你的Deep learning 的課,快開。 11/27 12:24
Lordaeron: 別在這一直跳針式的扯reinforcement. 11/27 12:25
Lordaeron: 提醒你們一件事, 自monte carlo方法出來後, 圍棋 11/27 12:47
Lordaeron: AI 就有一次大的進展了, 而這些作AI 的人, 照你們的說 11/27 12:47
Lordaeron: 法, 都是笨蛋, 將monte carlo和reinforcement結合. 11/27 12:48
Lordaeron: 不就解決了, 等什麼BBC之類的呢。 11/27 12:49
semihumanity: 死不看論文,只會嗆人...你沒付錢,憑什麼要人教? 11/27 13:06
semihumanity: AlphaGO就是MCTS結合deep learning用reinforcement 11/27 13:06
semihumanity: learning學習,才得到這樣的棋力。 11/27 13:06
semihumanity: 結果還是不小心教了...伸手黨真是不可取 11/27 13:07
Wush978: 同領域的看推文就知道有沒有料了 11/27 13:22
Wush978: 樓上太佛了 11/27 13:23
Lordaeron: @semihumanity,Wush978. 台大剛好有篇文章, 自己看. 11/27 13:38
Lordaeron: 太佛了. 11/27 13:39
Lordaeron: 要是單單reinforcement有用, 還用等到CNN的加入? 11/27 13:43
Lordaeron: 而通過自下的方式增強棋力, 正是AJA 的畢業論文. 11/27 13:45
Lordaeron: 而他的畢業作品程式, 就嬴過一次圍棋AI 冠軍. 11/27 13:46
Lordaeron: 要是單單這個可這麼強, 哪就不會只有一次了. 11/27 13:48
aaaba: 又在生話了,別人沒說“單單”,自己在那邊單單 11/27 13:54
Lordaeron: 哈....不是用XXX才有嗎? 哪不用就沒有了呢. 11/27 14:10
Lordaeron: 所以主要是reinforcement 啊. 11/27 14:10
roujuu: 根據『 http://0rz.tw/YzQSX 』,大陸不是有 11/27 14:10
Lordaeron: 但偏偏aja的畢業論文就是value net 哪套了. 11/27 14:10
roujuu: 「神威‧太湖之光」嗎?她平常每日CPU time不是只用到60% 11/27 14:11
Lordaeron: 還好我們不同領域,也還好我也可以看推文就知道有沒有料 11/27 14:12
roujuu: ,可以用她寫類似AlphaGO的東東,也可以不用使用DeepMind 11/27 14:12
roujuu: 的程式構想方式,只要找對人,應該很快就可以和AlphaGO分 11/27 14:13
roujuu: 先了。 11/27 14:14
Wush978: 那你前面講的supervised 用你自己論點打不就更可笑嗎?XD 11/27 15:00
Lordaeron: 啊?我打什麼了? alphago的重點是supervised. 11/27 15:01
Lordaeron: 是誰跳出來加持一下reinforcement? 11/27 15:02
Lordaeron: 有沒有料, 一看就知道... 11/27 15:02
Lordaeron: fuego 就是用CNN supervised加強可以贏GNU GO 達97% 11/27 15:04
aaaba: 無知還狂問別人supervise是什麼,哈哈哈 11/27 15:04
Lordaeron: 而你們兩位口中的reinforcement 在aja的論文就有了。 11/27 15:04
Wush978: alpha go 的重點是過去人類的棋譜還是他自己下的? 11/27 15:05
Lordaeron: 重點在reinforcement的話, aja 的程式的結果要比fuego 11/27 15:05
Lordaeron: 好才對. 11/27 15:05
Wush978: 所以說你外行啊,這行哪有這麼簡單「有用這個就會強」 11/27 15:06
Wush978: 「因為aja過去的AI只拿一次冠軍所以reinforcement learni 11/27 15:08
Wush978: ng 不重要」 能下出這種推理,我是覺得也太... 11/27 15:08
aaaba: 而且連reinforcement是一個類別也不知道,說什麼早就有用, 11/27 15:09
aaaba: 用起來學問可大了,不是一句有用過就完事了 11/27 15:09
semihumanity: 越講破綻越多XD連訓練方式和網路架構都分不清楚 11/27 15:55
semihumanity: 你以為reinforcement learning只有一個algorithm? 11/27 15:58
semihumanity: CNN只有一種訓練方法? 11/27 15:58
ggoutoutder: 原來是AI版 我還以為是圍棋版 11/27 15:59
semihumanity: AlphaGO如果沒用reinforcement learning, 11/27 16:01
semihumanity: 只用人類棋譜做supervised learning,程度就是業餘 11/27 16:02
semihumanity: 段位而已 11/27 16:02
semihumanity: 不讀論文,只會講一些似是而非的東西 11/27 16:03
wjmd92: 真精彩!看到這裡,先打個卡,明天續看 11/27 16:12
Lordaeron: @semihumanity,Wush978, 有用到又如何? 11/27 16:12
Lordaeron: @Wush978, 不然主要是什麼? 11/27 16:13
Lordaeron: 還要轉嗎? 11/27 16:13
Lordaeron: 我有說過AlphaGO沒用reinforcement learning? 11/27 16:14
Wush978: Alpha GO棋力會強是因為過去人類的棋譜還是他自己對自己 11/27 16:15
Wush978: 的棋譜? 11/27 16:15
Lordaeron: 還是說重點不是reinforcement learning. 11/27 16:15
Lordaeron: @Wush978, 當然是過去人類的譜. 11/27 16:15
Lordaeron: 要是自己對下的譜, 哪aja 的論文就夠了. 11/27 16:16
Lordaeron: 內行? 11/27 16:17
Lordaeron: 就有人一直鬼扯別人都不懂. 懂不懂, 很清楚. 11/27 16:20
semihumanity: 真的是活在自己的世界耶~AlphaGO是靠自我對奕三千萬 11/27 16:21
semihumanity: 盤才達到職業九段以上的棋力好嗎? 11/27 16:21
semihumanity: 論文和DeepMind的宣傳都有講,您為什麼要這樣呢? 11/27 16:22
ztdxqa: Lordaeron還是先去看論文好了 別再秀下限了 11/27 16:23
Lordaeron: @semihumanity,誰不得論文, 很清楚的. 11/27 16:25
ztdxqa: 真正把AlphaGo推到職業頂尖的關鍵就是DRL 11/27 16:27
Lordaeron: 文中清楚的跟你講, 它是improving SL. 11/27 16:27
Lordaeron: 但是在SL 的基礎上作的. 11/27 16:27
Lordaeron: 中譯, 就是你沒有SL 作底, 你是什麼? 11/27 16:28
Wush978: 論文裡面的描述是學習有三階段, SL of policy network, 11/27 16:28
Wush978: RL of policy network, RL of value network 11/27 16:29
Wush978: 我是不太喜歡爭論SL重要還是RL重要,因為這種行為本身就 11/27 16:29
Wush978: 外行。但是說RL不重要,我是笑了 11/27 16:29
semihumanity: 算了算了~他活在自己的世界開心就好XD 11/27 16:29
ztdxqa: 餵棋譜只是給AlphaGo一個common sense 這樣能到的棋力只 11/27 16:33
ztdxqa: 有業餘高段 有點像是他的pretrained model 11/27 16:35
ztdxqa: 接下來再靠自我對局去調整 事實上整篇paper講的都是RL 11/27 16:36
ztdxqa: policy跟value這兩個詞也是RL領域的術語 deep learning 11/27 16:44
ztdxqa: 只是要把傳統RL generalize到實際問題的方法 11/27 16:47
Lordaeron: @Wush978,這麼快, 就不玩了? 11/27 17:28
Lordaeron: @semihumanity,的確是活在自己的世界就好了, 連有過 11/27 17:29
Lordaeron: 什麼論文都不知. 11/27 17:29
Lordaeron: 而RL 是imporived SL, 當然RL比較常見. 11/27 17:31
Lordaeron: 同樣是CNN的狀況, ALPHAGO就大輸fuego.這要算業餘高段? 11/27 17:58
semihumanity: AlphaGO大輸fuefgo!XDDDD 11/27 18:04
semihumanity: 害我笑到打錯字XD 11/27 18:05
sean51623: 這串看完 覺得大家好有耐心 不要理他不就好了嗎 何必呢 11/27 18:16
Wush978: RL不是improved SL,這兩個東西不一樣 11/27 18:20
TWN2: AlphaGO大輸FGO 以手遊來說 11/27 18:21
Lordaeron: 不看論文的穿了哦! 11/27 18:28
aaaba: 第一次在go板看到透過曝露自己短處來獲得快感的人,總是會 11/27 18:38
aaaba: 多看幾眼,久了就會開始無視了 11/27 18:38
blacktom: 你們都是資訊專家嗎,好強喔,我啥都不懂 11/27 18:41
Lordaeron: @aaaba,你不就是了, 當然Wush978+semihumanity三人組 11/27 19:21
Lordaeron: 原來是不看論文的人,狂叫人家看論文. 11/27 19:22
Lordaeron: 圍棋AI 哪幾支的論文都沒看過的人, 卻是內行人呢. 11/27 19:23
Wush978: @blacktom,我是在相關領域工作多年了,只是看到有人發 11/27 19:28
Wush978: 表一些錯誤概念,上來聊聊罷了 11/27 19:28
Wush978: 要說服當事人我看是很難,但求錯誤的資訊別誤導人就好 11/27 19:29
Wush978: RL對於alpha go 是相當重要的,根據nature 上的Mastering 11/27 19:37
Wush978: the game of Go with deep neural networks and tree sea 11/27 19:37
Wush978: rch 中可以得知,Alpha go 的機器學習分成三階段:SL of 11/27 19:37
Wush978: policy network, RL of policy network and RL of value 11/27 19:38
Wush978: network. 其中SL of policy network的部分,主要都是採用 11/27 19:38
Wush978: 相關工作的方法,並沒有看到太多新的東西, Paper中主要 11/27 19:39
Wush978: cite了5篇之前關於圍棋AI的工作。RL of policy network的 11/27 19:40
Wush978: 部分讓SL的結果從預測下一手的問題轉成贏棋> 11/27 19:42
Wush978: 事實上,這篇paper自稱最大的改善是在policy 和 value 11/27 19:43
Wush978: function 上,所以他們主要的貢獻在於導入Deep Learning 11/27 19:44
Wush978: 相關方法來解決圍棋AI的問題。 11/27 19:44
Wush978: 看下來,說RL對Alpha Go不重要的理由到底是什麼? 11/27 19:44
Wush978: 明明內容中都在講RL比較多了,SL都是之前的工作 11/27 19:45
Wush978: 不過Alpha GO說不定最主要的貢獻是發展在GPU上根據policy 11/27 19:49
Wush978: and value network做搜尋的算法,因為他們propose的做法 11/27 19:49
Wush978: 計算量太大了,所以需要借助GPU等硬體工具做大大的加速 11/27 19:49
Lordaeron: 啊,不是說RL 跟SL 不同?我怎麼看到 11/27 19:55
Lordaeron: The second stage of the training pipeline aims at 11/27 19:55
Lordaeron: improving the policy network by policy gradient 11/27 19:55
Lordaeron: reinforcement learning (RL) 11/27 19:55
Lordaeron: 往下還有一小段. and 12% against a slightly weaker 11/27 19:56
Lordaeron: program Fuego 11/27 19:56
Lordaeron: 前面還有一段The RL policy network p ρ 11/27 19:57
Lordaeron: is identical in structure to the SL 11/27 19:57
Lordaeron: and its weights ρ are initialised to the same 11/27 19:58
Lordaeron: values. 11/27 19:58
aaaba: 秀下限又開始了,論文看不懂先承認再求人教你 11/27 19:59
Lordaeron: @aaaba, 快來教我吧. 11/27 20:00
Lordaeron: 你的參數都在哪, 快拿出來. 11/27 20:00
Wush978: 不同啊,因為兩個方法看待資料的角度是不同。 11/27 20:02
Wush978: 以這為例,RL的資料是自己產生資料,SL是觀察的資料一 11/27 20:06
Wush978: 個是觀察的資料,一個是自我產生的資料 11/27 20:06
Wush978: SL的S在強調的是資料有提供答案,而RL則是要具備能產生 11/27 20:10
Wush978: 資料的環境 11/27 20:10
Lordaeron: 繼續轉, 英文就在哪了. 謝謝. 11/27 20:11
Wush978: 以上是ML的一般知識,你想反駁請找定義 11/27 20:11
Wush978: 不用拿一個應用的paper中的一句話來戰 11/27 20:12
Wush978: 你那句話只代表這個問題剛好SL和RL都能解 11/27 20:13
Lordaeron: 英文就在哪了. 謝謝. 11/27 20:13
Wush978: 你不信就算了,其他網友別被誤導就好 11/27 20:18
Lordaeron: 我正在學當中, 不置可信, 我只學過pattern recognition 11/27 20:36
Lordaeron: ML這種高級貨, 我是不會懂的. 11/27 20:37
Lordaeron: 致於誰在誤導別人, 就看誰整天叫人去看論文. 結果自己 11/27 20:37
Lordaeron: 沒看的吧. 11/27 20:37
blacktom: 怎麼都不發文? 11/27 20:42
Lordaeron: 這是圍棋版, 不是AI 版. 11/27 20:44
Lordaeron: 但你可以請他教你alphago的論文. 11/27 20:44
semihumanity: 原來你是論文看不懂啊...也對啦!訓練方法和網路架 11/27 21:20
semihumanity: 構分不清楚,怎麼會懂 11/27 21:20
semihumanity: 說出RL=SL這種話,我也只能笑了 11/27 21:25
semihumanity: Wush,那句話並不是說SL和RL都能解喔... 11/27 21:30
Lordaeron: @semihumanity, 我是真的看不懂的, 英文就在哪, 等你 11/27 21:31
Lordaeron: 來解釋嘛. 11/27 21:32
Lordaeron: 不過, 你最好先實現一個alphago 出來, 比較有說服力. 11/27 21:32
semihumanity: 我前面說過了,我為什麼要免費教你? 11/27 21:32
semihumanity: 你以為知識是免費的? 11/27 21:33
Lordaeron: 哦, 哪就算囉. 你這麼懂alphago. 11/27 21:33
semihumanity: 我雖然沒做過AlphaGO,但也自己寫過RBM,CRBM,CNN 11/27 21:33
Lordaeron: 期待你的alphago 復刻版. 11/27 21:34
Lordaeron: 加油1. 11/27 21:34
semihumanity: 我是沒Wush那麼好心,怕別人被誤導。想學的人再問我 11/27 21:42
Lordaeron: 真的,連論文都沒看的, 就會笑. 真的是不錯. 11/27 21:43
aoeu: The RL policy network p is identical in structure to the 11/28 02:26
aoeu: SL and its weights p are initialized to the same values. 11/28 02:26
aoeu: 中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相 11/28 02:27
aoeu: 同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。 11/28 02:29
aoeu: RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做 11/28 02:30
aoeu: 為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連 11/28 02:31
aoeu: 結方式和每個連結的權重 (weights)。 11/28 02:32
aoeu: 這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的 11/28 02:32
aoeu: 是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。 11/28 02:33
aoeu: 不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數 11/28 02:34
aoeu: ,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加 11/28 02:35
aoeu: 快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是 11/28 02:36
aoeu: 用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一 11/28 02:36
aoeu: 個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流 11/28 02:38
aoeu: 棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始 11/28 02:38
aoeu: 的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。 11/28 02:40
aoeu: DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。 11/28 02:41
aoeu: AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以 11/28 02:44
aoeu: 前就有,但把兩者結合起來並發展出一套適合用在圍棋上的 11/28 02:44
aoeu: model 是相當有難度的,也是 AlphaGo 創新的地方。 11/28 02:45
Wush978: @semihumanity 我只是指出,要拿該句話論證RL=SL的問題點 11/28 03:30
Wush978: 感謝@aoeu大大仔細解析那句話的意思以及SL/RL在Paper中的 11/28 03:34
Wush978: 角色。 11/28 03:34
mom213: L大一開始說得也沒錯 圍棋AI不像computer vision的問題 11/28 03:35
mom213: 例如釋出FASTER R-CNN的MODEL大家可以很 11/28 03:35
mom213: 輕鬆的基於這個模型去對影像偵測達到很不錯的表現 11/28 03:36
mom213: 阿法狗的RL太多眉眉角角在裡面 能訓練出一樣水平的模型 11/28 03:38
mom213: 不是那麼容易的 我也覺得起跑線那句話有點不妥 11/28 03:39
mom213: 但後來跟別人戰論文就有點不知所云...... 11/28 03:40
Wush978: 我是覺得不離譜。這不代表重現paper簡單,但是當別人把 11/28 03:41
Wush978: 做法的核心都放出來後,要達到接近的高度,已經比無中生 11/28 03:42
Wush978: 有還要容易的多了。畢竟已經有前人走在前面,並且達到高 11/28 03:43
Wush978: 度。像我自己在做研究時,多的是方法難做,也不清楚做出 11/28 03:43
Wush978: 來是不是真的能夠比現有的好... 痛苦阿 11/28 03:43
ztdxqa: 不知道以後alphago會不會opensourceXD 11/28 04:06
aaaba: wush大真的有說到相關研究人員的難處,調整模型的時候,哪 11/28 09:42
aaaba: 怕是多知道一個參數的起始值該怎麼設,就足夠省下N倍的時間 11/28 09:42
aaaba: 。當然一般研究生是無法靠論文重現alphaGo的,我原始推文是 11/28 09:42
aaaba: 在說騰訊為何不需要劉知青,所以所謂起跑線,是對騰訊這種 11/28 09:42
aaaba: 公司而言,請勿放大解釋,以為有論文就有alphaGo。扭曲他人 11/28 09:42
aaaba: 言論這種不入流的事,在我多次澄清後,希望別再發生 11/28 09:42
HeterCompute: 推大神們出來說明 11/28 10:38
semihumanity: aoeu太佛心了吧…看不懂的人自以為懂就好了啊 11/28 13:02
Lordaeron: @semihumanity,連棋AI 都沒做過的, 的確是看懂就好. 11/28 15:49
ddavid: 我真的覺得不需要糾纏下去,當RL=SL時你還能說什麼呢 11/28 15:51
Lordaeron: 而SL train出來的東西, 並沒有保證準確,最終還是要有 11/28 15:52
Lordaeron: 人來檢視, 訂正. 要是哪麼簡單, GNU GO 上的盤就夠多的 11/28 15:53
Lordaeron: 了, GNU Go 借fuego 的論文train 一下不就好了. 11/28 15:53
ztdxqa: 看到Lord大的文我也是醉了 居然會講到需要人來訂正 檢視 11/28 17:29
semihumanity: 他大概不知道DeepMind如何修正AlphaGO第四局的問題 11/28 17:34
semihumanity: 就我所知,Fuego不是用MCTS嗎?有用deep learning? 11/28 17:39
semihumanity: 還是他說的SL不是DL裡的SL?XD 11/28 17:45
aaaba: 原來需要人檢視啊,這就是supervise 啊! 難怪我不懂 11/28 17:48
aaaba: 以後遇到人一定得問上一句:你知道supervise嗎? 11/28 17:58
AmibaGelos: 來朝聖sl=rl LOL 11/28 22:30
jpg31415926: 這裡有一批便宜的稻草人 請打這支電話 ****-***-*** 11/29 02:39
Lordaeron: @semihumanity,你不知的東西,真的很多. 但你很會笑. 11/29 16:31
Lordaeron: @ztdxqa,不需要人來檢視,aja的程式必然早就最強了. 11/29 16:32
Lordaeron: 還整天在搞哪些pattern幹嘛 11/29 16:32
Lordaeron: @aaaba,你扭曲aja講的話這種事, 還在推文中. 11/29 16:33
Lordaeron: @semihumanity, https://arxiv.org/abs/1412.3409 11/29 16:39
Lordaeron: 好笑嗎? 11/29 16:39
Lordaeron: 相關的討論在computer-go.org 上都有討論. 11/29 16:41
ddavid: 最後結果人去檢視跟SL的Supervised是兩回事……XD 11/29 17:33
Lordaeron: 啊, 有人說是同一回事? 11/29 18:09
Lordaeron: 但如果有人認為,照論文就可以產生一個一樣強的程式. 11/29 18:26
Lordaeron: 就真的是想太多了. 11/29 18:26
semihumanity: 為什麼要一直逗我笑XD那篇論文有說Fuego有用deep 11/29 19:31
semihumanity: learning嗎?你找錯論文了,Fuego的論文不是這篇喔 11/29 19:31
semihumanity: 真的是第一次看到臉皮這麼厚的人,一直伸出來要人打 11/29 19:33
Lordaeron: @semihumanity, 你又打算不自文就出來笑了? 11/29 20:22
Lordaeron: 上回還笑不夠? 11/29 20:22
semihumanity: 我猜你是要說「不讀論文」,但目前為止都是你看不懂 11/29 22:11
semihumanity: 論文啊! 11/29 22:12
semihumanity: 「同樣是CNN的狀況, ALPHAGO就大輸fuego」XDD 11/29 22:13
semihumanity: 你到現在還不知道你這句話哪些地方錯了? 11/29 22:13
semihumanity: 你有看懂你找的那篇論文嗎? 11/29 22:14
aaaba: 樓上太佛了,一直指導他,可是他比較需要的是開導 11/29 22:46
kennyluck: 推 forb9823018 aoeu mom213 其他人的語言能力跟情商 12/06 05:25
kennyluck: 都很值得加強啊...... 12/06 05:25