精華區beta C_Chat 關於我們 聯絡資訊
一個AI玩57個遊戲 DeepMind離萬能通用AI不遠了 文章來源:公眾號 量子位   DeepMind剛剛宣佈,他們在多工學習上取得了巨大的進展,也就是讓單個智慧體學會 許多不同任務:   DQN(Deep Q-Network)現在可以用同樣的演算法一口氣學會玩57個雅達利遊戲了, 而且玩得還不差,能達到人類中位數水準。   這意味著,人類離創造出會做許多不同事情的通用人工智慧(AGI)又進了一步。 此前,每個智慧體(agent)只會玩一個遊戲,有專門玩《吃豆人》的,有專門玩《打磚 塊》的,有專門玩《乒乓球》的。如果讓學會了《打磚塊》的AI去玩《吃豆人》,那就會 撿了芝麻丟了西瓜,等它學會《吃豆人》,就把《打磚塊》給忘了。   直到去年3月,DeepMind才研究出新的演算法,讓AI學會《吃豆人》後不忘記《打磚 塊》怎麼玩。   但在讓1個AI學57個遊戲時,DeepMind遇到了問題:   每個遊戲的計分機制不同,獎勵尺度也不同,AI只挑得分高的玩。  △ 乒乓球   拿玩乒乓球(Pong) 的遊戲來舉栗,每一步有三種可能的獎勵:   -1:AI沒接住對方發來的球,不僅沒掙分,反而倒貼一分;   0:AI接住了球,進入了敵我雙反循環往復的彈球過程,努力卻沒有收穫;   +1:AI費了半天勁,終於讓對方失手一次,才能得1分,名義上是1分,實際這1分來 之不易。   但如果AI選擇去玩吃豆人,只要一出門,就可以吃到一連串的豆豆,輕輕鬆松獲得幾 十上百分,分多、事少、易上手。   之後每走一步 (轉彎) ,可能的獎勵就有很多種了:也許往前一格就死了,也許走 十幾格都沒遇到敵人,也許無敵狀態下吃掉幾隻敵人,分數會很不一樣。   於是,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。   AI每天沉迷吃豆,忘記打球,醉心於一小部分遊戲,全然不顧身上還肩負著代表全AI 界、學會全部57個雅達利遊戲的重任。   這該如何是好?   DeepMind想了想,推出了給智慧體“修改KPI”的大殺器:   PopArt。   具體怎麼玩?   PopArt技術,可以讓不同遊戲的獎勵尺度互相適應起來,兩個遊戲就能受到相對平等 的對待。   如此,就算分值的數量級相差很多,也不要緊。   研究人員用PopArt調教了當前最先進的強化學習智慧體,使得一隻AI可以學會57種雅 達利遊戲了,表現超過了人類的中位數。   其實,深度學習靠的是不斷更新的權重。這樣,輸出的動作就會越來越接近理想的動 作。   這在深度強化學習裡,也一樣適用。   PopArt的工作原理,就是估算各種目標動作之間的平均值,以彼此之間的差距有多大 。通過遊戲分值來估算。   然後,在更新權重之前,用這些統計資料,把目標動作歸一化。   這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素而發生改變 。 那麼,怎樣才能估計得准?   那麼,怎樣才能估計得准?   網路的輸出值,可以重新調回真實目標的範圍 (True Target Range) ,只要把歸 一化過程倒過來就好了。   如果寫代碼不仔細,統計資料會把所有沒歸一的輸出全改了,就算是用不著歸一就已 經很好用的那種,也會改掉。   要預防這種情況,DeepMind找到了一個方法,每次更新統計資料的時候,都把網路朝 著反方向更新一下。   這種操作會成功,表示調整獎勵尺度 (同時,把之前學過的輸出就留在那裡不動) ,還是有用的。   團隊說,之所以給AI起名PopArt (波普藝術) ,用意就是保存老的,加上新的。 PopArt替代的是獎勵剪裁 (Reward Clipping) 。   PopArt替代的是獎勵剪裁 (Reward Clipping) 。   一般來說,遇到獎勵尺度不同的情況,研究人員會選擇剪裁一下獎勵。   把太大的和太小的,都調整到 [-1, 1] 的區間裡,這是歸一化的粗糙版。   雖然,這個方法學習起來更容易,但學習目標也會發生變化。   還是吃豆人的遊戲,目標就是吃豆和吃敵人,每顆豆10分,吃掉敵人會獲得200到1, 600不等的分數。   剪裁獎勵的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的AI,很可能只吃豆, 完全不去追敵人,畢竟吃豆容易。   這時候用PopArt歸一化,來代替剪裁步驟,訓練效果就截然不同了。智慧體會去追敵 人了,得的分數也高了許多。   實驗結果   最後,研究人員將PopArt應用於Importance-weighted Actor-Learner Architecture (IMPALA)中,這是DeepMind此前提出的、最常用的深度強化學習智能體 。   在ALE模擬器中,研究人員測試了57種Atari遊戲中,智慧體在獎勵剪裁和未剪裁兩種 情況下,應用PopArt前後的得分情況。   可以看出,橙色的PopArt-IMPALA平均表現為人類正常得分中位數的110%,未剪裁版 中的平均得分為人類水準的101%,可以看出,無論剪裁與否,PopArt都能提高智慧體在遊 戲中的得分。   藍色未應用PopArt的IMPALA智慧體表現比較糟糕,無論是否經過了剪裁。剪裁後的基 線總水準不足人類得分中位數的60%,未剪裁時的得分接近0%,與PopArt-IMPALA的表現形 成了鮮明的對比。   此外,由於多工PopArt使用了特定級別值增加了網路容量,因此研究人員進行了額外 的實驗,想解開增加網路容量對自我調整歸一化的影響。圖中粉色的MultiHead-IMPALA走 勢,就是研究人員用特定級別的值預測,但不使用PopArt自我調整標準化學習得到的結果 。   實驗表明,無論是否剪裁,MultiHead-IMPALA的表現都比IMPALA略差,這證實了 PopArt-IMPALA的性能提升確實是源於自我調整規模的變化(adaptive rescaling)。   研究人員還研究了每種智慧體處理的總幀數的曲線。此前,DeepMind發佈了任務集合 DmLab-30,包含公共動作空間的視覺統一環境中的多種挑戰性任務,訓練智慧體再好不過 。   在這裡,研究人員還是用自家的DmLab-30基準衡量應用了PopArt策略的效果優異程度 。圖中每一片顏色區域代表了最優得分和最差得分區間。可以看出,在家DMLab-30任務集 合上訓練時,仍然為PopArt策略下的智慧體表現最好。   綜上所述,與沒有PopArt的基準智慧體相比,PopArt大大提高了智慧體的性能。無論 獎勵是否剪裁,PopArt智慧體在遊戲中的中位數得分高於人類中位數,遠遠高於結合了剪 裁獎勵的基準智慧體。而具有未剪裁獎勵的基線無法得出有意義的表現,因為它無法有效 處理遊戲中獎勵規模的大幅度變化。   傳送門   最後,附DeepMind官方博客位址: https://goo.gl/PMPevd   論文Multi-task Deep Reinforcement Learning with PopArt地址:   https://arxiv.org/abs/1809.04474 http://sports.sina.com.cn/go/2018-09-18/doc-ifxeuwwr5482488.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1537290174.A.38C.html ※ 編輯: qweewqq (118.233.93.166), 09/19/2018 01:05:11
Acetoxy: 還遠的很 09/19 01:04
Nuey: 嗯嗯 跟我想得差不多 樓下也是對吧 09/19 01:05
kuoyipong: 看不懂 09/19 01:05
KuBiLife: 現在打的贏sc2簡單電腦了嗎? 09/19 01:10
kaj1983: 會玩galgame了嗎? 09/19 01:11
s32244153: 玩HGAME 一次走57條路線 09/19 01:14
a210510: 等可以玩FGO一抽寶五 再跟我說 09/19 01:15
minoru04: 有種去玩ACTION 52 09/19 01:18
siro0207: 想一想 其實AI在線上遊戲市場應該也是有需求的 邊緣人玩 09/19 01:19
siro0207: 邊緣多人遊戲沒真人可以配對的時候就可以讓AI上場 09/19 01:19
siro0207: 可溝通交流,會學習,會犯錯 09/19 01:21
kenyun: 吃豆人比乒乓好玩沒問題啊 09/19 01:22
uranus013: 我認為直到能訓練AI破解KOTY大賞作品時才算站上起跑點 09/19 01:22
shiro0701: 事情都挑簡單的做啊,AI連人類的缺點都學會了 09/19 01:24
DailySuicide: dqn不是什麼日文單詞嗎 09/19 01:24
nanami56: 以後線上遊戲玩法就是先買AI然後叫AI農 09/19 01:25
jonathan793: 看來離解決框架問題還遠得很 09/19 01:26
siscon: DQN=日本8+9 09/19 01:26
leonho40412: 這篇沒閱讀難度 到底前幾樓是反串還是真的太記者了 09/19 01:28
yys310: 這樣就離萬能不遠了? 這啥結論 09/19 01:34
smart0eddie: 0.0 09/19 01:45
kenyun: 哪個天才讓AI自寫程式 再給它評分系統 天網就完成了 09/19 01:51
LonyIce: 感覺還是跳脫不了設定 09/19 01:59
twtwch: 所以無雙一直有人支持 09/19 02:08
andey: 那給他玩 E.T.會怎樣? 09/19 02:09
twtwch: 跟一開始的ai一樣一直吃豆 09/19 02:10
Kenqr: 嗯嗯 跟我想的差不多 09/19 02:18
bitcch: 如何做出U戲天才AI 09/19 02:18
jixian: 哇 09/19 02:22
LuMya: 想看ai打爐石 09/19 02:47
swallow0327: 當然不可能有AI能跳脫設定亞,至少現階段是 09/19 03:11
idf64: Ai表示 糞game沒有玩的必要 09/19 04:54
abelyi100: 就想說吃豆人是什麼鬼,看原文果然是PACMAN 09/19 06:32
HOLDSTEAK: 什麼時候能做出軟體老婆(?) 09/19 07:11
bnn: ...什麼時候能看到AI一怒打開遊戲修改大師(?) 09/19 07:40
ernova831: 算了吧 上星海還不是被打成智障 09/19 08:09
GFGF: 原來 AI 也會覺得痛苦太多收穫太少 XD 09/19 08:10
notsmall: 感謝分享 09/19 08:12
Edwin0606: 還以為是在說蘇趴ㄟ哀絆愛 抽卡還抽到爆氣 09/19 08:27
GlowNight246: 撿了芝麻丟了西瓜是這樣用的嗎 = = 09/19 08:28
GlowNight246: Dota2 禁眼禁粉禁道具 逼人打線才贏非現役職業 09/19 08:30
gssay123: 2 3樓真配合 09/19 09:21
KingofBP: 等它可以幫農再說 09/19 09:23
Haikyuu: 還是弱人工智慧阿 09/19 09:27
mrmowmow: 別再說什麼dota了,那家什麼openai連圍棋都不敢玩 09/19 11:16
Segal: DQN遊戲王即將誕生 09/19 14:23
CarbonK: 只有我覺得這成果超厲害的嗎…… 09/19 14:38
ericyou0122: 可能再幾年,很多對戰遊戲就可以應用這種技術了吧 09/19 14:46
theendstar: 沉迷吃豆 無心打球好好笑 09/19 16:27
OSDim: AI沉迷吃豆無心打球LUL 09/19 20:10