推 Minesweeper: 為什麼連走都有困難就要先學飛了... 08/20 04:34
→ Minesweeper: 呢 08/20 04:34
推 fearman5566: Google的作法才是學走路啊 08/20 04:39
推 Minesweeper: 無法理解視覺化的關鍵意義在哪 08/20 04:43
→ hollowland: 就啥怪怪的東西都可以套這樣 08/20 04:48
推 LF2Jeff: 如果你做了一個機器人,你覺得他學SC時靠頭牽一條線讀數據 08/20 04:57
→ LF2Jeff: 和用電子眼睛看新手教學來學,哪個算是比較成功的AI? 08/20 04:58
推 Minesweeper: 我會覺得先做出來打贏人類再說,因為我覺得現階段 08/20 04:59
→ Minesweeper: 就算給你讀數據好了,一樣打不贏 08/20 04:59
推 arrenwu: Clarify一下,AI的學習還是使用人類定義的好壞 08/20 05:00
→ arrenwu: 你的意思比較像是不屈就於人類覺得好的戰術 08/20 05:01
推 backzerg: 重點不是打贏 是像人類一樣的學習模式 08/20 05:05
→ backzerg: 不是什麼都讓人類輸入資料 而是電腦主動去看 去學 08/20 05:06
→ hollowland: mine的說法是告訴AI怎麼用火 但是以現在的模式這個AI 08/20 05:10
→ hollowland: 最後就只會用火其他什麼都不會 08/20 05:10
→ hollowland: google是想要讓AI靠自己摸索知道怎麼用火 08/20 05:11
→ hollowland: 最後就可以靠著這個自己摸索的流程會其他的東西 08/20 05:11
推 Minesweeper: 也就是說要建立學習典範,然後拿星海簡化情況 08/20 05:15
推 angel2210: 星海的情況其實有點複雜吧xd 08/20 05:17
推 backzerg: 是啊 未知情報很多 狀況也複雜多變 還有很長的路要走 08/20 05:19
→ backzerg: 但只要成功了 距離萌萌機娘蘿莉的誕生又更近了一步 08/20 05:19
→ Minesweeper: 他們有嘗試做局部的小遊戲去測試的樣子 08/20 05:24
推 arrenwu: 與其說星海複雜 不如說圍棋太簡單了 08/20 05:26
推 Minesweeper: 結果這篇論文主要碰到的問題依然是戰爭迷霧 08/20 05:38
推 enjoytbook: 太簡單個毛...啊不就是棒棒 08/20 05:40
→ enjoytbook: 好棒棒 08/20 05:40
推 Minesweeper: 簡單是相對於不完全資訊的遊戲的複雜度 08/20 05:41
推 orze04: 圍棋是完全資訊遊戲 雖然幾年前誰都不認為會被AI攻克 08/20 05:42
推 arrenwu: 除了不完全資訊,連action space 都不一樣複雜 08/20 05:46
→ arrenwu: 話說對SC2的project有嘗試過關閉戰爭迷霧的實驗嗎? 08/20 05:49
推 Minesweeper: 局部有專家水準,全局遊戲遇到一堆問題 08/20 05:50
→ Minesweeper: 我也覺得至少也嘗試一下開圖吧... 08/20 05:51
推 angel2210: 主要是戰爭迷霧下 偵查有可能得到假訊息 08/20 05:52
推 arrenwu: 妳上面連結那篇paper的abstract裡面是說ai玩mini-game可 08/20 05:53
→ arrenwu: 以學得跟novice player差不多 不是專家水準吧? 08/20 05:53
推 angel2210: 然後這個訊息可以直接影響勝負 08/20 05:54
推 arrenwu: 我比較懷疑的是...會不會開圖也還是屌輸啊XD 08/20 05:54
推 Minesweeper: 結論有寫 08/20 05:57
推 Minesweeper: 不知道他們覺得是勝之不武,還是根本就覺得我超屌, 08/20 06:00
→ Minesweeper: 這部分給其他團隊搞,反正RL局部強,推廣到全局就好 08/20 06:00
推 deathslipkno: 認真文,我走錯版了 08/20 06:05
→ ohmylove347: 我認為視覺化只是接收訊息的方式,但ai真正的重點在 08/20 06:07
→ ohmylove347: 訊息的處理,雖然視覺化的訊息也是需要處理,不過這 08/20 06:07
→ ohmylove347: 方面研究蠻久了算成熟的,所以我覺得視覺化不是很關 08/20 06:07
→ ohmylove347: 鍵 08/20 06:07
推 angel2210: 目前ai大概就是個內力100 招式0 智力0吧 08/20 06:11
推 lturtsamuel: reinforcement還是會有最先的模型吧 不能說是從0開始 08/20 06:22
推 smart0eddie: Alpha Go到後來真的是從零開始的 08/20 06:45
推 Minesweeper: With this initial release,we describe supervised 08/20 06:50
→ Minesweeper: learning results on the human replay data for po 08/20 06:50
→ Minesweeper: licy and value networks 08/20 06:50
→ orze04: 上面有說到重點 圍牆頂多是一人輪流一子 每一輪的落子就 08/20 07:01
→ orze04: 那些盤上的位置 08/20 07:01
→ orze04: 即時戰略沒有回合的概念,可以採取的動作種類與數量超大 08/20 07:01
→ orze04: 資訊種類也大於棋類遊戲,資源量、建築與戰鬥單位、科技 08/20 07:01
→ orze04: ……… 08/20 07:01
推 Minesweeper: 回原po,他們得處理方式是:We describe the observat 08/20 07:05
→ Minesweeper: ion, action, and reward 08/20 07:05
推 Minesweeper: specification for the StarCraft II domain 08/20 07:06
推 Minesweeper: 主地圖切成幾個小區域,然後詳細觀察小區域物件的互 08/20 07:13
→ Minesweeper: 動 08/20 07:13
推 Minesweeper: 不過即便如此,ai還是算不太完(電腦看到圖,要在有 08/20 07:19
→ Minesweeper: 限步驟內反應) 08/20 07:19
→ uloyoy: 這篇我覺得不行 RL可以定義reward和action,並不是只有輸贏 08/20 08:15
→ uloyoy: 然後讓電腦去測 08/20 08:15
→ ohmylove347: 沒記錯我記得deep mind好像用暴雪給的遊戲分數,可是 08/20 08:27
→ ohmylove347: 那個幫助好像也不大 08/20 08:27
推 kinomon: 母湯喔 機器人準備要毀滅人類惹 08/20 09:21
推 ssd860505da: 我倒不覺得記憶量是關鍵 08/20 11:09
→ ssd860505da: 人類大腦在判斷時也不會瞬間閃過一堆記憶,都是經年 08/20 11:09
→ ssd860505da: 累月累積的經驗,所以重點是要如何將經歷過的事件轉 08/20 11:09
→ ssd860505da: 化為有意義的經驗。例如replay buffer 08/20 11:09
推 Jotarun: 看c恰討論這種議題都笑笑就好 :P 08/20 11:19
推 WindSucker: 學alphago先看別人對戰記錄分析勝率 08/20 12:04
推 kira925: 用過了 一點意義都沒有 08/20 13:28