推 hankiwi: 人類離駭客任務的世界線又更進了一步 04/05 04:30
推 error405: 呵 接著訓練蓋巨大老二 04/05 04:31
推 ak47123121: ai玩麥塊,vedal不是實現了嗎,那代表更早之前應該就 04/05 04:32
→ ak47123121: 有了吧 04/05 04:32
推 shadowdio: 什麼時候能幫我打每日 04/05 04:35
※ 編輯: wearytolove (108.31.73.137 美國), 04/05/2025 04:38:45
推 White77: Neuro之前沒有自己挖到鑽石過嗎? 04/05 04:47
推 b05605019: 我也希望有ai帕魯幫我玩遊戲 04/05 04:49
推 xrdx: neuro會挖鑽石了嗎 04/05 04:57
推 tyifgee: 什麼時候能幫我工作 04/05 05:44
噓 wild2012: 這樣也可以上期刊 vedal就不知道能上幾次了 04/05 06:43
推 kuninaka: 可以預料 04/05 07:14
→ kuninaka: 其實PTT很多機器人了 04/05 07:14
→ kuninaka: 例如樓下 04/05 07:14
推 hongsiangfu: 主人您好,需要挖鑽石嗎? 04/05 07:23
推 j147589: 不會中途被苦力怕還是其他怪殺掉嗎 04/05 07:42
推 dodomilk: 不太懂,為什麼這樣可以上期刊?以前的AI做不到嗎? 04/05 07:42
推 bobogei81123: 沒很仔細看完 但應該是從頭到尾沒有用任何人類的資 04/05 07:52
→ bobogei81123: 料 類似 Alphago Zero 那樣 全部是靠自己學的 04/05 07:52
→ conqueror507: 這很難吧 因為minecraft的選擇很多 04/05 07:55
推 aaaaooo: 訓練方法不同吧 以前的是教師學習直接餵正解下去訓練這個 04/05 08:00
推 y124421473: 有包含渡過晚上的部分嗎 04/05 08:01
→ aaaaooo: 是運用獎勵函數的強化學習 04/05 08:02
推 welkin0105: 差別在以前有給AI人類資料學,現在可以自己摸索 04/05 08:06
→ welkin0105: 應該就是玩遊戲看攻略和自己摸索最佳解的差別 04/05 08:07
推 yurian: 聽起來就像訓練狗一樣 用誘導的方式讓他去做到你想要的 04/05 08:23
→ yurian: 而不是先跟他說哪些是對的? 比如現在比較面向一般大眾的 04/05 08:23
→ yurian: ai 其實沒有自己搜尋正解的能力 問他新一點的事情都只會 04/05 08:23
→ yurian: 跟你說他的db太舊了 沒訓練過的事情他都不會 問遊戲要怎 04/05 08:23
→ yurian: 樣玩是完全不行 04/05 08:23
推 b160160: 上期刊的比較舊,model based RL dreamer 的論文已經是四 04/05 08:27
→ b160160: 年前的論文了 04/05 08:27
→ b160160: 他有一個世界模型可以預測未來,也就是某種程度把麥塊的 04/05 08:28
→ b160160: 遊戲學起來 04/05 08:28
→ Yan239: 給ai獎勵?怎麼個獎勵法== 又不是狗給零食就好 04/05 08:35
推 uohZemllac: 看來我快要能夠玩到多人遊戲了 04/05 08:49
推 befaithful: neuro: ?? 04/05 08:51
推 kaj1983: 說獎勵你就想一下自己做哪些事比較優先啊 04/05 08:51
→ kaj1983: 機制設計邏輯不難理解 04/05 08:52
推 jaspergood: 做對事情+分,做錯事情-分,這樣就算一種獎勵機制, 04/05 08:55
→ jaspergood: 但你如果還要問什麼這樣ai就會聽話喔之類的,那我也 04/05 08:56
→ jaspergood: 是沒辦法 04/05 08:56
→ pony666: 獎勵可以有十秒鐘的運作歷程不會被人類記錄 04/05 09:14
推 guogu: 牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了 04/05 09:32
→ guogu: 獎勵很簡單啊 就是對了加分 不然要給機油嗎... 04/05 09:33
→ guogu: 看說明這個就是只給目標 不教它玩 讓它自己摸出玩法 04/05 09:34
推 PayKuo: 獎勵:可以看記憶體插入主機板的影片十秒 04/05 09:36
推 salamender: 看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始 04/05 09:57
→ salamender: 魚骨挖法 04/05 09:57
→ guogu: 對了 要說懲罰也行 因為低分的通常會被消滅 04/05 09:57
→ guogu: 只留高分的繼續讓他演化 04/05 09:57
推 WindSucker: vedal屌打 04/05 10:01
推 h0103661: 牛肉一堆人寫的腳本拿來跟自我學習ai比喔 04/05 10:37
推 crazy6341556: 給獎勵就是讓他的損失函式有正回饋呀 然後他依照這 04/05 11:26
→ crazy6341556: 個函式預估自己之後的動作對於任務是優的還是劣的 04/05 11:26
→ crazy6341556: 這種模式叫做RL 原本預想強ai可能要靠這種形式實現 04/05 11:26
→ crazy6341556: 結果最常用到的是玩遊戲哈哈 04/05 11:26
推 linliu0624: 任務比較大的強化學習(? 04/05 14:19