看板 DummyHistory 關於我們 聯絡資訊
※ 引述《plamc (普蘭可)》之銘言 : 蘇拉親自撰寫的墓誌銘: : 沒有一位幫助我的朋友沒有受我報答,也沒有一位冤枉我的敵人沒有遭我報復 : 蘇拉的座右銘則是: : 沒有比我更好的朋友,也沒有比我更壞的敵人 : ------------- : 我自己還蠻肯定蘇拉的座右銘的 : 我也希望大家都會覺得,沒有比我更好的朋友,也沒有比我更壞的敵人XD : ------------- == 強化學習! https://i.meee.com.tw/nOBr6l0.jpg
https://en.wikipedia.org/wiki/Reinforcement_learning 幫助我->一定報答= positive reward 冤枉我->一定打你 negative reward 沒有例外= 可預測 reward function 長期記住每個人 stateful agent 名聲擴散到整個羅馬 policy shaping 就現代眼光看==? 蘇拉其實不是在“當人“ 而是在把整個羅馬訓練成一個對他最有利的環境: 人是被是被回饋函數給塑造的. 他不用到 處殺人, 但整個羅馬都知道“怎麼對待蘇拉“. The Meta Policy Player https://i.meee.com.tw/YSRtnmo.png
大家可以注意到, 在強化學習中, 其實大部分的agent跟蘇拉並不一樣- 在當下的環境中尋 找最佳policy. 但蘇拉不一樣. 他發現羅馬共和晚期的環境已經亂掉了- noise太高+ reward模糊- 於是他 把自己變成近似environment本身的超級玩家: 透過: 沒有例外+ 一定回饋的極端確定性-> 所有人的策略迅速收斂到“服從他“這單一點. : 辯論,元老院決策變得混亂不可預測,蘇拉本 : 來想要由少數菁英執政體系元老主導,其他外圍元老作為監督者的設計失敗,元老院因為 : 功能故障反而邊緣化 為什麼meta policy player這套沒人用? 我們可以先看他呈現的元素: 1. 對羅馬治理貢獻 2. 可見度: 整個羅馬都知道 3. 可重複性: 他活著的時候可重複使用 4. 他人受損程度: 大, 好多人被殺 其實這邊就很明顯了: 1×2×3 看起來都很不錯對不對? 但別忘了, 4是這個公式的分母. : 其結果,蘇拉正確的結構改革都被推翻,只有錯誤的被留下來,使得羅馬共和憲政更加故 : 障,快速走向專制獨裁 蘇拉的規則只對“蘇拉存在“的場景有效, 羅馬的人沒有學會如何在沒有蘇拉的制度下運作 . 結果就是你看到的: 當強大的reward function(蘇拉)被抽離, 系統立刻崩潰. 想建立長期的系統, 看起來不能像蘇拉一樣. 不能只做一個好的agent. 至少得補上一個好的reward fuction- The Generalization https://i.meee.com.tw/R4eQoQu.jpg
舉一個最簡單的例子(我後來設計很多==)大家有沒有遇過一種狀況: 你在自助結帳櫃檯, 不小心同一個東西刷了2次, 旁邊都有一個== 幫你操作機器取消多餘次 數的店員. 你或你身邊的人肯定有這種經驗: 你結帳沒有任何問題, 但是出去的時候都會跟那個店員擦 身而過, 有人就會微笑/點頭/避開店員視線. 但店員真的需要你做這些嗎? 如果一天有一百萬人個經過他, 都跟他== 眉來眼去, 然後還有人檢舉他沒有禮貌不回應, 你覺得會怎麼樣? 在每一個流程型的場景裡~ “有禮貌“根本是錯的 (這是我一年多前有一天突然發現的== 我本來也是很不會應對人 我看到熟人常常撲過去 但 不熟的我真的很害羞... 我十幾歲時的職業幾乎可以認為是童星 中間為 了某件事 所以我有3個合法名字 以前...真的 很不會跟一般人相處 就是差不多~ 這兩年才開始真正接觸一般人 就是超級笨) 最好的做法自然是- 不給他任何訊號(0) Information (0,1)= reduction of uncertainty 1. 你不用想任何讓你肌肉緊張的事情(跟陌生人微笑其實會觸發極短的肌肉僵硬-> 脖子有 可能會累積痠痛). 這是利己 2. 店員不用觀察你到底是有什麼問題, 這是他根本的職責所在, 如果你不讓他誤會, 他工 作會減少很多麻煩 (如果你刻意低頭== 人家大概會想: 我是來工作的 你哪齣啊!) 不管店員可能短期覺得你有點冷漠, 但長期下來他絕對會意識到你是個乾脆的人-> 沒有增 加他的本質負擔, 這就是利他. 4是這個公式的分母, 傷害了很多很多人.“ 利己利他->我們來檢討一次- 不傷害人, 這分母會造成重複的策略~ 具有相當大的可行性. https://i.meee.com.tw/scU0bLJ.jpg
如果我們在各個場合設計並發布設計邏輯: 餐廳(或其他的隨便)不可接受任何人的powerpla y(eg 有Karen喜歡說:你知道我有多有錢嗎), 因為這樣會干擾工作人員, 造成他們精神不好 ->最後害到的是你使用這個場合的利益 這種可見性+不讓人猜測(移除不清晰的狀態空間)會形成一個attractor(收斂點) 想強行powerplay, 也會意識到自己很蠢==-> 違規的成本(顯得愚蠢)就會內建在互動邏輯裡 . (形成上圖的地形) variance Wikipedia: 又稱方差[1]、變方[2],在機率論及統計學中,描述的是一個隨機變數的離散程度,即一組 數字與其平均值之間的距離的度量,是隨機變數與其母體均值或樣本均值的離差的平方的期 望值。變異數在統計中有非常核心的地位,其應用領域包括敘述統計學、推論統計學、假說 檢定、度量適合度,以及蒙地卡羅採樣。 蘇拉的系統-> 1. 高variance, 他在/不在差異巨大 (上面的公開邏輯-> 低variance, 穩定可預測) 2. 有“服從/不服從“ 2種狀態 公開利己利他的設計原理只是其中一環(我不方便說其他的), 雖然可以普及到很多場合, 但 效用有限. 如何設計系統? 我們可以在上面的原理上再度抽取一次原理: 蘇拉的系統-> 高variance(他在/不在差異巨大) 有“服從/不服從“ 2種狀態, 獎勵太稀疏(其實這會引起有人冒險討好蘇拉) 反過來可以= 溫和但一致的訊號 + 讓agent學會generalisation, 而不是只記憶特定情境 + 細緻 (多種合規行為都有獎勵)-> 即使移除任一agent, 系統仍然可以運作(投機狀況少) → ZMittermeyer : 憲法就和物理定律一樣 要配合現實的動力學才行的 這是一個很有趣的說法 讓我想到水獺的the extended phenotype: https://youtu.be/EfAHYuEdO3w?si=8cTcqFSTpwo1PTio
水獺會蓋水壩, 但這是他們知道怎麼蓋嗎? 不是的, 這其實有個非常特別的現象: 你拿手機播放水聲給他聽, 說他的手手就會在那邊== 空蓋東西 (不是蘇拉獺或是其他強水獺教的== 也不是牛頓獺發明的 是自然本身的結果) https://i.meee.com.tw/Zcktr1c.webp 所以他能蓋小水壩~ 讓自己舒服 這是什麼?看起來 1. 任何行為都是根植於truth feedback建立起來的 (2. 照水獺的演化來看, 上帝如果存在, 他一定是一個程序員. 更可能的是-> 這讓我們的 自然看起來完全不需要上帝. 這裡我不打算走太遠== 又到了哲學去了, 我不打算陳述== 因 為我文章從來沒有任何哲學內容, 全部都是計算型的) 蘇拉feedback基本上不是truth feedback(做某事很自然的得到結果, eg 拋你的食物+>掉到 地板上~ 不能吃了/ 你拍球球->地板上傳來聲音/ 你罵別人->那個人不喜歡你), 而是power feedback(== 不管你做什麼 蘇拉決定你的下場). 從水獺來看, 形成空蓋==的行為 到底要幾代水獺? 我... 沒有調查過 不過我覺得有意思的是- 水獺會這樣變成, 全是因為後代更有利傳下去.他們這些前水獺, 還沒有變成有完整空蓋行 為的小水獺. 他們不知道自己的物種正在變成什麼. 但每一個演化的節點, 卻全是一個生命的一生. 我們人類也是一樣: 不知道自己的物種正在變成什麼. 聽起來我們處在當下演化的節點, 這卻是我們生命的一生. 但到了人類,出現了一個關鍵差異: 我們有前額葉, 不再只有那種空蓋行為(我們其實還有驚嚇反射). 我們可以腦內模擬, 走出 很遠的地方, 甚至蓋火箭. 還有馬丁路德金看到種族歧視而犧牲自己的一生去理性對抗. 我們服從臨時的情緒(過去的資料->本質只是避免生物再犯), 是不是自由? 還是模擬出一條幾近不可能的路, 我們預測一切方法, 通過困難, 才是真的自由? 這讓自由彷彿有了可計算的邊界 https://i.meee.com.tw/scU0bLJ.jpg
eg 同樣類型的錯誤, 在不同人身上反覆出現 如果 只是某個人, 那錯可能只是那個人. 但我們要知道: 如果是每個人都錯, 那錯的來源... 一定不是人 應該要 基於宇宙的本質(truth feedback) 去 面向未來 在限制中把自己推向有利的方向 同時用設計把每一個人的心 都好好的守護起來 上來看, 最後一篇心情文就留給這板 當== 情書 我挺喜歡ZM(我看你的新的那篇感覺有打我臉== 我不知道幕末你說的那些 常常想一些有的 美的 很聰明)還有plamc(人好+創造力+有目標 很聰明)(我覺ZM像是諸葛孔明 plamc像是曹 操 我自己是十分像呂布 可惜沒時間三國志結義) 這篇文章跟你們兩個特別的人閒聊一下 這是我最後一篇ptt文章 祝你們好的2026 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.182.65.155 (澳大利亞) ※ 文章網址: https://www.ptt.cc/bbs/DummyHistory/M.1767121002.A.A1E.html
selfvalue: 你們下次來美國之前 可以考慮看看先來lesswrong發個文12/31 06:19
selfvalue: 章 來參加聚會12/31 06:19
selfvalue: 上面很多創造型的全球公眾人物 或是比較有趣的人 像na12/31 06:19
selfvalue: sa工作人員 可以來玩12/31 06:20
selfvalue: 不急 什麼時候都有 只是覺得你們應該比較少碰到同類 l12/31 06:21
selfvalue: w上都是這種==怪怪的(我不一樣 我是很時髦的)12/31 06:21
selfvalue: 你們發文我有看到的話會在文章下面評論== 用力反駁你12/31 06:22
selfvalue: 們12/31 06:22
selfvalue: happy new year12/31 06:22
https://i.meee.com.tw/JtvUEzf.png
※ 編輯: selfvalue (49.182.65.155 澳大利亞), 12/31/2025 09:01:09
ZMittermeyer: 歷史的工程學語言翻譯... 12/31 12:11
ZMittermeyer: 應該問卷調查一下看得懂的人舉手 12/31 12:11