Re: [情報] 最新星海AI十比零血洗人類職業玩家

作者EvilSD (邪星暗(Usagi))

看板C_Chat

標題Re: [情報] 最新星海AI十比零血洗人類職業玩家

時間Fri Jan 25 11:07:54 2019

持續一直有再追蹤這件事，不過這次的比賽結果確實讓我非常驚訝先來簡單介紹一下DeepMid是如何訓練這個AlphaStar的 https://www.youtube.com/watch?v=5iZlrBqDYPM

上面這段影片就是他們在讓AI學習的過程一般常見的遊戲AI 都是直接讀取遊戲內部參數然後透過寫好的腳本直接下去做執行簡單來說就是讓AI根據不同種時間狀況作相對應的決定與抉擇但DeepMid並不是如此，DeepMid使用的是深度學習的方式 (如今我已經很難想像他們在這次AlphaStar是如何建構深度學習網路的) 我們在回到剛剛的影片影片上的左邊有四個畫面這就是所謂的特徵提取的動作也就是AlphaStar在建立模型與學習的時候是透過即時的影像進行，而不是透過讀取遊戲參數使用腳本的方式困難點在哪呢？普遍現在不論是學界與工業界大家成熟的深度學習架構（也可以說現在最常見的AI) 大多數都是讀取一個畫面內的特徵參數進行學習如果要簡單解釋就是，今天給你一張照片上面有隻狗那AI辨識後就說這是狗，這是所謂的Classification 照片上有隻狗還能標記出在哪裡那就是Classification + Localization 照片上有很多種物體並且都能標記出位子就是 Object Detection(也就是目前智慧車常用的方式) 還有另一種叫做Semantic Segmentation 是將畫面上的每一個pixel去做標記那AlpahStar做了些什麼呢首先在早期的API裡裡面可以同時學習20個Semantic Segmentation 而且是即時的，所以我甚至懷疑其實是Instance Segmentation 那單純只是學習這些畫面困難點在哪呢? 時間與未知(戰爭迷霧) 因為以前的AlphaGO 圍棋的大小是一個既定19X19的範圍所以我下完一子後，我可以全局重新判斷但星海完全不是如此第一　星海的地圖資訊很多是未知的，所以我們才要防空投探圖等第二　星海的遊戲是時間連續的，也就是我上一秒鐘做的事情會影響到下一秒鐘跟圍棋完全不一樣，不是下完一子後重新掃描全局所以困難點非常的多，在特徵提取上大概能夠理解但多特徵合併後進行學習，又要保持時間上學習不會誤差放大（如傳統RNN） (傳統RNN在學習連續性資料後,往往一開始學習的資訊會遺忘或是誤差放大因此後來才有了深度學習版本的LSTM與biLSTM) 上述的內容可能還是有點艱深難懂，但我已經盡可能講得比較簡單一些總而言之大家現在討論的是APM 操作上的問題但我看見的是，能透過視覺的方式讓AI學習玩星海爭霸二還能夠將遊戲時間拉長並且與職業選手對戰我是覺得很不可思議還是那種....完全無法想像他們訓練出這個模型的狀態真的真的非常的吃驚(原本以為這至少也要五年才能夠突破的瓶頸) -- 那片有座高塔哭著朝北方奔去的天空，是我此刻片尋不著的風景 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.53.15 ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1548385678.A.A20.html ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 11:09:23

推 tsairay: 電影描繪的未來...越來越接近了... 01/25 11:14

→ sumarai: 覺得可以辦AI對AI打星海，看看誰的AI最極限 01/25 11:14

推 reinhert: 那個影片已經是兩年多前的東西了，現在的AlphaStar應該 01/25 11:14

→ reinhert: 不是照搬 01/25 11:14

推 nok1126: 鋼鐵擂台 01/25 11:15

→ tim32142000: 表演賽，世界冠軍打AI 01/25 11:18

噓 elwing: Instance(個體）=/= instant(立即）好嗎？semantics segme 01/25 11:19

→ elwing: ntation=對每一個像素劃分類別 instance segmentation=不 01/25 11:19

推 RaiGend0519: 以後會出現一種比賽：民間客制ＡＩ對抗客制ＡＩ 01/25 11:19

→ elwing: 僅對每個像素劃分類別還把物體的位置辨認出來（兩物體有 01/25 11:19

→ elwing: 可能重疊） 01/25 11:19

大大你誤會我的意思了我不是說Instance = instant 我只是懷疑他訓練的方式不Semantic Segmentation 而是 Instance Segmentation 畢竟要同時跑20個Semantic Segmentation太吃效能了，所以我才會這麼說 ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 11:30:56 ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 11:33:13

推 jerryae86: 有打贏的影片可以看嗎 01/25 11:41

推 arrenwu: 打贏的這場 https://youtu.be/cUTMhmVh1qs?t=9120 01/25 11:42

推 gigayaya: 網路我記得是用LSTM 01/25 11:44

推 ARHAN: 攻殺虫 484不懂Semantic跟Instance差別 01/25 11:46

推 elwing: 基本上segmentation只是把分類問題和偵測問題提高到像素 01/25 11:50

→ elwing: 級別那你都知道object detection難於classification 怎 01/25 11:50

→ elwing: 麼會覺得semantics(像素級別的classificatiin) 會簡單於 i 01/25 11:50

→ elwing: nstance(像素級別的object detection)呢？ 01/25 11:50

→ elwing: 抱歉上面筆誤怎麼會覺得semantics難於instance 01/25 11:51

　看來可能我那段表達的不是很好，Instance一定比Semantics難這是一定的　但單看影片我不清楚的是他是同時跑20個Semantics再將資料灌入不知道LSTM 還是怎樣的RNN 或著是他是直接使用Instance進行訓練　我會上面這樣說是因為我用GV100 run一個Semantics就頂多每秒4x張如果同時二十個Semantics，那效能不知道減少多少在即時戰略中是遠遠不夠的(雖然我跟google的硬體效能沒得比) 　所以我才懷疑是使用Instace ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 12:10:09

→ vnon: deepmind有把介紹放在他們的部落格上了，先去看看吧.. 01/25 12:08

我看到介紹了感謝! ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 12:11:51 ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 12:13:53

推 ruledesign: RL吧 01/25 13:17

推 K60258: 不太懂就先研究，別急著秀呀 01/25 13:54

因為目前可得到的資訊其實蠻少的(剛看完介紹) https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 所以就拋磚引玉看看其他大神大大們有沒有什麼看法與想法畢竟我還是無法想像該怎麼實際兜出類似或近似的模型架構 ※ 編輯: EvilSD (59.120.53.15), 01/25/2019 14:04:22