看板 StarCraft 關於我們 聯絡資訊
西班牙星海天才正幫DeepMind擊敗人類 樊麾翻版?  李杉 若樸 發自 凹非寺量子位 出品 | 公眾號 QbitAI   1990年代,十幾歲的Oriol Vinyals(維紐斯)成了西班牙《星海爭霸》全國冠軍。   他之所以玩這款科幻策略遊戲,是因為比其他打打殺殺的遊戲更需要動腦子。維紐斯 說:“沒上大學之前,這款遊戲就讓我在生活中懷有更強的戰略思維。”   他的戰略思維的確獲得了回報:在巴賽隆納學習了電信工程和數學之後,維紐斯去過 微軟研究院實習,獲得了加州大學伯克利的電腦博士學位,接著加入谷歌大腦團隊,開始 從事人工智慧開發工作,然後又轉入谷歌旗下DeepMind團隊。   他又跟“星海爭霸”打起了交道。   但這一次不是他親自玩,而是教給機器人怎麼玩。在人工智慧成為全球最優秀的圍棋 選手後,星海成為了下一個攻克目標。   DeepMind與《星海爭霸2》的開發商暴雪展開合作,讓人工智慧研究人員可以通過之 前的數百萬場對戰進行學習。他們的目標之一,就是開發一套足夠好的人工智慧系統,使 之可以擊敗人類選手。就像DeepMind的AlphaGo擊敗李世石、柯潔一樣。   然而,最終的目標是將其中使用的技術應用到現實世界,而不是讓它始終停留在遊戲 裡面。   “我們正在試圖理解人類以及我們大腦的工作方式。”暴雪首席軟體工程師Jacob Repp說,“如果我們能夠得到這種高品質的資料流程——人類玩遊戲時的原始輸入以及由 此產生的結果——那就能成為研究人們行為的有用資料。”   對人工智慧研究人員來說,《星海爭霸2》是個頗為有趣的挑戰。   與國際象棋或圍棋不同,星海玩家面對的是不完美資訊博弈。“戰爭迷霧”意味著玩 家的規劃、決策、行動,要一段時間後才能看到結果。   暴雪已經使用神經網路來獲取玩家技能,而依據則是他們利用鍵盤和滑鼠輸入的資訊 、他們排兵佈陣的方法、他們玩遊戲時的效率。這些信號都可以用來讓遊戲本身更加有趣 ,或者讓對戰雙方更加均衡。   但要讓人工智慧玩《星海爭霸2》,就必須讓他們能“看到”遊戲裡的3D地圖,並快 速而準確地加以解讀。   DeepMind的首次測試,先在雅達利遊戲上訓練神經網路和AI智慧體(Agent),然後 再將其應用到《星海爭霸2》上。即便沒有進一步的指令,用雅達利遊戲訓練的人工智慧 也可以在地圖上隨意走動、移動鏡頭、排兵佈陣。   “這的確可以在一定程度上發揮作用”,Viyals說。   在加入DeepMind之前,維紐斯開發了一項圖片搜索功能和Gmail的“智慧回復”,後 者可以根據郵件內容推薦相關的回復。該團隊還在從事語音辨識,讓人工智慧記住不同人 的對話,從而在下次聽到這個聲音時識別出來。   “在《星海爭霸2》裡,也要應對這些問題。”維紐斯說。一個玩家可能看到對手的 偵察兵,然後又消失在視野中。對人工智慧來說,記住他們遇到的東西,並且理解這可能 表明敵人正在某個地方修建基地,就需要使用LSTM神經網路。   維紐斯解釋道,電腦可以把某個資料的記憶保留數十年的時間,但這種記憶不僅需要 保存,還要在未來針對某個資訊調取出來。   “在《星海爭霸2》中,這非常重要,但卻很微妙,可以將未來與過去聯繫起來。” 他說,“很難建立因果關係,因為遊戲中會發生很多事情。”   儘管自己也是星海玩家,但維紐斯表示,DeepMind的研究並沒有使用之前的技術作為 假設。   借助所謂的強化學習技術,神經網路可以直接解讀他們獲取的原始信號——在這個案 例中,就是《星海爭霸》過往的對戰錄影。   SC2LE   今年8月,DeepMind和暴雪聯合發佈了第一篇AI打星海的論文:《StarCraft II: A New Challenge for Reinforcement Learning》。   這篇論文的第一作者,就是維紐斯。   論文介紹了暴雪和DeepMind合作推出的SC2LE工具包,其中包括: 機器學習API:由暴雪開發,將研究人員和開發人員接入遊戲,並自帶首次發佈的 Linux工具包。至此,Windows、Mac與Linux系統均可在雲端運行。 匿名遊戲重播資料集:包含65000多場遊戲記錄,在接下來的幾周將增加至50萬場, 幫助實現智慧體間的離線比賽。 開源的DeepMindPySC2工具包:方便研究人員使用暴雪的特徵層API訓練智慧體。 一系列簡單的增強學習迷你遊戲:幫助研究人員在特定任務上測試智慧體的性能。 概述開發環境的論文:記錄了迷你遊戲的初始基線結果、監督學習資料以及智慧體間 完整的對抗記錄。   DeepMind希望通過此舉,推動更多研究社區和開放工具的開發。   圍棋AI“帶路黨”   維紐斯的故事,讓量子位想起他的同事:黃士傑、樊麾。   黃士傑和樊麾都是從小就對圍棋產生了濃厚的興趣。2003年,黃士傑從臺灣師範大學 畢業獲得碩士學位,畢業論文:《電腦圍棋打劫的策略》。   一年後,黃士傑開始攻讀博士學位。2007年,黃士傑成為臺灣師範大學圍棋社首任社 長,並帶領同學征戰臺灣大專杯圍棋賽。   黃士傑的棋力是業餘六段。   除了在現實世界下圍棋,黃士傑還一直在研究圍棋程式。2006年,黃士傑獨自開發的 第一款圍棋程式AjaGo,獲得圍棋大賽第11名;他參與的中國象棋程式Elephant(大象) ,獲得大賽的銅牌。   2010年,黃士傑在Rémi Coulom的指導下,開發出圍棋程式Erica,並在圍棋比賽中 擊敗日本的Zen,獲得當年的冠軍。這在當時可算了不起的成就。Rémi Coulom是另一個 圍棋程式Crazy Stone的作者。   2012年,黃士傑加入DeepMind。然後開始AlphaGo的研發。   2015年,黃士傑與樊麾相遇。當年10月,樊麾受邀前往倫敦與尚不為人所知的 AlphaGo展開對戰。結果五戰全敗,輸的樊麾一度懷疑人生。   樊麾是從小學棋的職業選手,曾經入選國少隊,但後來自知與國內頂尖高手實力有差 距,所以少年時選擇遠走歐洲,成為歐洲圍棋冠軍,法國圍棋隊總教練。   敗給AlphaGo後,樊麾也加入了DeepMind,和黃士傑一樣,成為圍棋AI的“帶路黨” 。後來的故事大家就熟知了,AlphaGo一路過關斬將,站在圍棋之巔。   當然星海AI的研究,還在非常早期的階段。最近在首爾的一場競賽中,《星海爭霸》 職業玩家宋炳具用了不到半小時就輕易擊敗了4個人工智慧機器人。但他也承認,它們的 防守打法“有時候讓人震驚”。   雖然過去20年維紐斯玩《星海爭霸》機會並不多,但這位前西班牙冠軍卻對自己的《 星海爭霸》技術滿懷信心。   “人工智慧現在能打敗我嗎?我覺得還不能”,維紐斯笑道。   — 完 — http://sports.sina.com.cn/go/2017-11-25/doc-ifypathz5837042.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1511634399.A.148.html
NinaMoon: 蠻期待接下來的發展的 11/26 03:05
skliveman: 西班牙冠軍放到韓國也是隻雞 11/26 07:09
lather: 自己玩好玩就毀滅他的概念 11/26 08:23
ohmylove347: 一個高材生星海剛好超猛的概念 11/26 08:30
dr45jfga: 我怎麼覺得那個長年第四更強? 11/26 11:10
henry1915: 猛 11/26 11:14
JubeChocobo: 西班牙冠軍是個怎樣的概念呢... 11/26 12:06
wtao: 這樣 本末倒置吧 11/26 13:15
ckuser: 幹嘛不找教主去 直接學如何內建開圖 反正google有錢 11/26 14:04
TheDragonBug: 大概就是一半的Grrrr吧 11/26 20:56
killer922: 教主去會不會虐到他們不想玩了XD 11/27 09:33
Benbenyale: 谷溝大腦團隊都找天才啊 11/28 06:46
h311013: 先說他積分有沒有上6000 11/28 14:39