[閒聊] AI訓練到可以在Minecraft自己挖到鑽石

作者wearytolove (奪真書生A.W.)

看板C_Chat

標題[閒聊] AI訓練到可以在Minecraft自己挖到鑽石

時間Sat Apr 5 04:28:39 2025

這篇學術文章剛才發上了Nature https://www.nature.com/articles/s41586-025-08744-2 這個演算法完全不參考玩家的網路影片而是把挖到鑽石的步驟分成12步 (熔爐、挖石頭、挖鐵、砍木頭....) 每完成一步就給電腦獎勵然後讓演算法強化學習大概9天就讓AI成功的可以從誕生到挖到第一顆鑽石這也代表AI的智慧更前進一步由Google Deepmind研發 ---- 五樓說說第一次玩Minecraft花幾天挖到鑽石 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.31.73.137 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1743798523.A.6C6.html

推 hankiwi: 人類離駭客任務的世界線又更進了一步 04/05 04:30

推 error405: 呵接著訓練蓋巨大老二 04/05 04:31

推 ak47123121: ai玩麥塊，vedal不是實現了嗎，那代表更早之前應該就 04/05 04:32

→ ak47123121: 有了吧 04/05 04:32

推 shadowdio: 什麼時候能幫我打每日 04/05 04:35

※ 編輯: wearytolove (108.31.73.137 美國), 04/05/2025 04:38:45

推 White77: Neuro之前沒有自己挖到鑽石過嗎？ 04/05 04:47

推 b05605019: 我也希望有ai帕魯幫我玩遊戲 04/05 04:49

推 b05605019: http://i.imgur.com/L4JlQLp.jpg 04/05 04:56

→ b05605019: http://i.imgur.com/W4QZeFw.jpg 04/05 04:56

推 xrdx: neuro會挖鑽石了嗎 04/05 04:57

推 tyifgee: 什麼時候能幫我工作 04/05 05:44

噓 wild2012: 這樣也可以上期刊 vedal就不知道能上幾次了 04/05 06:43

推 kuninaka: 可以預料 04/05 07:14

→ kuninaka: 其實PTT很多機器人了 04/05 07:14

→ kuninaka: 例如樓下 04/05 07:14

推 hongsiangfu: 主人您好，需要挖鑽石嗎？ 04/05 07:23

推 j147589: 不會中途被苦力怕還是其他怪殺掉嗎 04/05 07:42

推 dodomilk: 不太懂，為什麼這樣可以上期刊？以前的AI做不到嗎？ 04/05 07:42

推 bobogei81123: 沒很仔細看完但應該是從頭到尾沒有用任何人類的資 04/05 07:52

→ bobogei81123: 料類似 Alphago Zero 那樣全部是靠自己學的 04/05 07:52

→ conqueror507: 這很難吧因為minecraft的選擇很多 04/05 07:55

推 aaaaooo: 訓練方法不同吧以前的是教師學習直接餵正解下去訓練這個 04/05 08:00

推 y124421473: 有包含渡過晚上的部分嗎 04/05 08:01

→ aaaaooo: 是運用獎勵函數的強化學習 04/05 08:02

推 welkin0105: 差別在以前有給AI人類資料學，現在可以自己摸索 04/05 08:06

→ welkin0105: 應該就是玩遊戲看攻略和自己摸索最佳解的差別 04/05 08:07

推 yurian: 聽起來就像訓練狗一樣用誘導的方式讓他去做到你想要的 04/05 08:23

→ yurian: 而不是先跟他說哪些是對的？比如現在比較面向一般大眾的 04/05 08:23

→ yurian: ai 其實沒有自己搜尋正解的能力問他新一點的事情都只會 04/05 08:23

→ yurian: 跟你說他的db太舊了沒訓練過的事情他都不會問遊戲要怎 04/05 08:23

→ yurian: 樣玩是完全不行 04/05 08:23

推 b160160: 上期刊的比較舊，model based RL dreamer 的論文已經是四 04/05 08:27

→ b160160: 年前的論文了 04/05 08:27

→ b160160: 他有一個世界模型可以預測未來，也就是某種程度把麥塊的 04/05 08:28

→ b160160: 遊戲學起來 04/05 08:28

→ Yan239: 給ai獎勵？怎麼個獎勵法== 又不是狗給零食就好 04/05 08:35

推 uohZemllac: 看來我快要能夠玩到多人遊戲了 04/05 08:49

推 befaithful: neuro: ?? 04/05 08:51

推 kaj1983: 說獎勵你就想一下自己做哪些事比較優先啊 04/05 08:51

→ kaj1983: 機制設計邏輯不難理解 04/05 08:52

推 jaspergood: 做對事情+分，做錯事情-分，這樣就算一種獎勵機制， 04/05 08:55

→ jaspergood: 但你如果還要問什麼這樣ai就會聽話喔之類的，那我也 04/05 08:56

→ jaspergood: 是沒辦法 04/05 08:56

→ pony666: 獎勵可以有十秒鐘的運作歷程不會被人類記錄 04/05 09:14

推 guogu: 牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了 04/05 09:32

→ guogu: 獎勵很簡單啊就是對了加分不然要給機油嗎... 04/05 09:33

→ guogu: 看說明這個就是只給目標不教它玩讓它自己摸出玩法 04/05 09:34

推 PayKuo: 獎勵：可以看記憶體插入主機板的影片十秒 04/05 09:36

推 salamender: 看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始 04/05 09:57

→ salamender: 魚骨挖法 04/05 09:57

→ guogu: 對了要說懲罰也行因為低分的通常會被消滅 04/05 09:57

→ guogu: 只留高分的繼續讓他演化 04/05 09:57

推 WindSucker: vedal屌打 04/05 10:01

推 h0103661: 牛肉一堆人寫的腳本拿來跟自我學習ai比喔 04/05 10:37

推 crazy6341556: 給獎勵就是讓他的損失函式有正回饋呀然後他依照這 04/05 11:26

→ crazy6341556: 個函式預估自己之後的動作對於任務是優的還是劣的 04/05 11:26

→ crazy6341556: 這種模式叫做RL 原本預想強ai可能要靠這種形式實現 04/05 11:26

→ crazy6341556: 結果最常用到的是玩遊戲哈哈 04/05 11:26

推 linliu0624: 任務比較大的強化學習（？ 04/05 14:19