Re: 羅馬共和的終結/蘇拉內戰/蘇拉憲改

作者selfvalue (lesswrong.com)

看板DummyHistory

標題Re: 羅馬共和的終結/蘇拉內戰/蘇拉憲改

時間Wed Dec 31 02:56:37 2025

※ 引述《plamc (普蘭可)》之銘言 : 蘇拉親自撰寫的墓誌銘： : 沒有一位幫助我的朋友沒有受我報答，也沒有一位冤枉我的敵人沒有遭我報復 : 蘇拉的座右銘則是： : 沒有比我更好的朋友，也沒有比我更壞的敵人 : ------------- : 我自己還蠻肯定蘇拉的座右銘的 : 我也希望大家都會覺得，沒有比我更好的朋友，也沒有比我更壞的敵人XD : ------------- == 強化學習! https://i.meee.com.tw/nOBr6l0.jpg

https://en.wikipedia.org/wiki/Reinforcement_learning 幫助我->一定報答= positive reward 冤枉我->一定打你 negative reward 沒有例外= 可預測 reward function 長期記住每個人 stateful agent 名聲擴散到整個羅馬 policy shaping 就現代眼光看==? 蘇拉其實不是在“當人“ 而是在把整個羅馬訓練成一個對他最有利的環境: 人是被是被回饋函數給塑造的. 他不用到處殺人, 但整個羅馬都知道“怎麼對待蘇拉“. The Meta Policy Player https://i.meee.com.tw/YSRtnmo.png

大家可以注意到, 在強化學習中, 其實大部分的agent跟蘇拉並不一樣- 在當下的環境中尋找最佳policy. 但蘇拉不一樣. 他發現羅馬共和晚期的環境已經亂掉了- noise太高+ reward模糊- 於是他把自己變成近似environment本身的超級玩家: 透過: 沒有例外+ 一定回饋的極端確定性-> 所有人的策略迅速收斂到“服從他“這單一點. : 辯論，元老院決策變得混亂不可預測，蘇拉本 : 來想要由少數菁英執政體系元老主導，其他外圍元老作為監督者的設計失敗，元老院因為 : 功能故障反而邊緣化為什麼meta policy player這套沒人用? 我們可以先看他呈現的元素: 1. 對羅馬治理貢獻 2. 可見度: 整個羅馬都知道 3. 可重複性: 他活著的時候可重複使用 4. 他人受損程度: 大, 好多人被殺其實這邊就很明顯了: 1×2×3 看起來都很不錯對不對? 但別忘了, 4是這個公式的分母. : 其結果，蘇拉正確的結構改革都被推翻，只有錯誤的被留下來，使得羅馬共和憲政更加故 : 障，快速走向專制獨裁蘇拉的規則只對“蘇拉存在“的場景有效, 羅馬的人沒有學會如何在沒有蘇拉的制度下運作 . 結果就是你看到的: 當強大的reward function(蘇拉)被抽離, 系統立刻崩潰. 想建立長期的系統, 看起來不能像蘇拉一樣. 不能只做一個好的agent. 至少得補上一個好的reward fuction- The Generalization https://i.meee.com.tw/R4eQoQu.jpg

舉一個最簡單的例子(我後來設計很多==)大家有沒有遇過一種狀況: 你在自助結帳櫃檯, 不小心同一個東西刷了2次, 旁邊都有一個== 幫你操作機器取消多餘次數的店員. 你或你身邊的人肯定有這種經驗: 你結帳沒有任何問題, 但是出去的時候都會跟那個店員擦身而過, 有人就會微笑/點頭/避開店員視線. 但店員真的需要你做這些嗎? 如果一天有一百萬人個經過他, 都跟他== 眉來眼去, 然後還有人檢舉他沒有禮貌不回應, 你覺得會怎麼樣? 在每一個流程型的場景裡~ “有禮貌“根本是錯的 (這是我一年多前有一天突然發現的== 我本來也是很不會應對人我看到熟人常常撲過去但不熟的我真的很害羞... 我十幾歲時的職業幾乎可以認為是童星中間為了某件事所以我有3個合法名字以前...真的很不會跟一般人相處就是差不多~ 這兩年才開始真正接觸一般人就是超級笨) 最好的做法自然是- 不給他任何訊號(0) Information (0,1)= reduction of uncertainty 1. 你不用想任何讓你肌肉緊張的事情(跟陌生人微笑其實會觸發極短的肌肉僵硬-> 脖子有可能會累積痠痛). 這是利己 2. 店員不用觀察你到底是有什麼問題, 這是他根本的職責所在, 如果你不讓他誤會, 他工作會減少很多麻煩 (如果你刻意低頭== 人家大概會想: 我是來工作的你哪齣啊!) 不管店員可能短期覺得你有點冷漠, 但長期下來他絕對會意識到你是個乾脆的人-> 沒有增加他的本質負擔, 這就是利他. “4是這個公式的分母, 傷害了很多很多人.“ 利己利他->我們來檢討一次- 不傷害人, 這分母會造成重複的策略~ 具有相當大的可行性. https://i.meee.com.tw/scU0bLJ.jpg

如果我們在各個場合設計並發布設計邏輯: 餐廳(或其他的隨便)不可接受任何人的powerpla y(eg 有Karen喜歡說:你知道我有多有錢嗎), 因為這樣會干擾工作人員, 造成他們精神不好 ->最後害到的是你使用這個場合的利益這種可見性+不讓人猜測(移除不清晰的狀態空間)會形成一個attractor(收斂點) 想強行powerplay, 也會意識到自己很蠢==-> 違規的成本(顯得愚蠢)就會內建在互動邏輯裡 . (形成上圖的地形) variance Wikipedia: 又稱方差[1]、變方[2]，在機率論及統計學中，描述的是一個隨機變數的離散程度，即一組數字與其平均值之間的距離的度量，是隨機變數與其母體均值或樣本均值的離差的平方的期望值。變異數在統計中有非常核心的地位，其應用領域包括敘述統計學、推論統計學、假說檢定、度量適合度，以及蒙地卡羅採樣。蘇拉的系統-> 1. 高variance, 他在/不在差異巨大 (上面的公開邏輯-> 低variance, 穩定可預測) 2. 有“服從/不服從“ 2種狀態公開利己利他的設計原理只是其中一環(我不方便說其他的), 雖然可以普及到很多場合, 但效用有限. 如何設計系統? 我們可以在上面的原理上再度抽取一次原理: 蘇拉的系統-> 高variance(他在/不在差異巨大) 有“服從/不服從“ 2種狀態, 獎勵太稀疏(其實這會引起有人冒險討好蘇拉) 反過來可以= 溫和但一致的訊號 + 讓agent學會generalisation, 而不是只記憶特定情境 + 細緻 (多種合規行為都有獎勵)-> 即使移除任一agent, 系統仍然可以運作(投機狀況少) → ZMittermeyer : 憲法就和物理定律一樣要配合現實的動力學才行的這是一個很有趣的說法讓我想到水獺的the extended phenotype: https://youtu.be/EfAHYuEdO3w?si=8cTcqFSTpwo1PTio

水獺會蓋水壩, 但這是他們知道怎麼蓋嗎? 不是的, 這其實有個非常特別的現象: 你拿手機播放水聲給他聽, 說他的手手就會在那邊== 空蓋東西 (不是蘇拉獺或是其他強水獺教的== 也不是牛頓獺發明的是自然本身的結果) https://i.meee.com.tw/Zcktr1c.webp 所以他能蓋小水壩~ 讓自己舒服這是什麼?看起來 1. 任何行為都是根植於truth feedback建立起來的 (2. 照水獺的演化來看, 上帝如果存在, 他一定是一個程序員. 更可能的是-> 這讓我們的自然看起來完全不需要上帝. 這裡我不打算走太遠== 又到了哲學去了, 我不打算陳述== 因為我文章從來沒有任何哲學內容, 全部都是計算型的) 蘇拉feedback基本上不是truth feedback(做某事很自然的得到結果, eg 拋你的食物+>掉到地板上~ 不能吃了/ 你拍球球->地板上傳來聲音/ 你罵別人->那個人不喜歡你), 而是power feedback(== 不管你做什麼蘇拉決定你的下場). 從水獺來看, 形成空蓋==的行為到底要幾代水獺? 我... 沒有調查過不過我覺得有意思的是- 水獺會這樣變成, 全是因為後代更有利傳下去.他們這些前水獺, 還沒有變成有完整空蓋行為的小水獺. 他們不知道自己的物種正在變成什麼. 但每一個演化的節點, 卻全是一個生命的一生. 我們人類也是一樣: 不知道自己的物種正在變成什麼. 聽起來我們處在當下演化的節點, 這卻是我們生命的一生. 但到了人類,出現了一個關鍵差異: 我們有前額葉, 不再只有那種空蓋行為(我們其實還有驚嚇反射). 我們可以腦內模擬, 走出很遠的地方, 甚至蓋火箭. 還有馬丁路德金看到種族歧視而犧牲自己的一生去理性對抗. 我們服從臨時的情緒(過去的資料->本質只是避免生物再犯), 是不是自由? 還是模擬出一條幾近不可能的路, 我們預測一切方法, 通過困難, 才是真的自由? 這讓自由彷彿有了可計算的邊界 https://i.meee.com.tw/scU0bLJ.jpg

eg 同樣類型的錯誤, 在不同人身上反覆出現如果只是某個人, 那錯可能只是那個人. 但我們要知道: 如果是每個人都錯, 那錯的來源... 一定不是人應該要基於宇宙的本質(truth feedback) 去面向未來在限制中把自己推向有利的方向同時用設計把每一個人的心都好好的守護起來上來看, 最後一篇心情文就留給這板當== 情書我挺喜歡ZM(我看你的新的那篇感覺有打我臉== 我不知道幕末你說的那些常常想一些有的美的很聰明)還有plamc(人好+創造力+有目標很聰明)(我覺ZM像是諸葛孔明 plamc像是曹操我自己是十分像呂布可惜沒時間三國志結義) 這篇文章跟你們兩個特別的人閒聊一下這是我最後一篇ptt文章祝你們好的2026 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.182.65.155 (澳大利亞) ※ 文章網址: https://www.ptt.cc/bbs/DummyHistory/M.1767121002.A.A1E.html

→ selfvalue: 你們下次來美國之前可以考慮看看先來lesswrong發個文12/31 06:19

→ selfvalue: 章來參加聚會12/31 06:19

→ selfvalue: 上面很多創造型的全球公眾人物或是比較有趣的人像na12/31 06:19

→ selfvalue: sa工作人員可以來玩12/31 06:20

→ selfvalue: 不急什麼時候都有只是覺得你們應該比較少碰到同類 l12/31 06:21

→ selfvalue: w上都是這種==怪怪的(我不一樣我是很時髦的)12/31 06:21

→ selfvalue: 你們發文我有看到的話會在文章下面評論== 用力反駁你12/31 06:22

→ selfvalue: 們12/31 06:22

→ selfvalue: happy new year12/31 06:22

https://i.meee.com.tw/JtvUEzf.png

※ 編輯: selfvalue (49.182.65.155 澳大利亞), 12/31/2025 09:01:09

推 ZMittermeyer: 歷史的工程學語言翻譯... 12/31 12:11

→ ZMittermeyer: 應該問卷調查一下看得懂的人舉手 12/31 12:11