作者selfvalue (lesswrong.com)
看板DummyHistory
標題Re: 羅馬共和的終結/蘇拉內戰/蘇拉憲改
時間Wed Dec 31 02:56:37 2025
※ 引述《plamc (普蘭可)》之銘言
: 蘇拉親自撰寫的墓誌銘:
: 沒有一位幫助我的朋友沒有受我報答,也沒有一位冤枉我的敵人沒有遭我報復
: 蘇拉的座右銘則是:
: 沒有比我更好的朋友,也沒有比我更壞的敵人
: -------------
: 我自己還蠻肯定蘇拉的座右銘的
: 我也希望大家都會覺得,沒有比我更好的朋友,也沒有比我更壞的敵人XD
: -------------
== 強化學習!
https://i.meee.com.tw/nOBr6l0.jpg
https://en.wikipedia.org/wiki/Reinforcement_learning
幫助我->一定報答= positive reward
冤枉我->一定打你 negative reward
沒有例外= 可預測 reward function
長期記住每個人 stateful agent
名聲擴散到整個羅馬 policy shaping
就現代眼光看==? 蘇拉其實不是在“當人“
而是在把整個羅馬訓練成一個對他最有利的環境: 人是被是被回饋函數給塑造的. 他不用到
處殺人, 但整個羅馬都知道“怎麼對待蘇拉“.
The Meta Policy Player
https://i.meee.com.tw/YSRtnmo.png
大家可以注意到, 在強化學習中, 其實大部分的agent跟蘇拉並不一樣- 在當下的環境中尋
找最佳policy.
但蘇拉不一樣. 他發現羅馬共和晚期的環境已經亂掉了- noise太高+ reward模糊- 於是他
把自己變成近似environment本身的超級玩家:
透過: 沒有例外+ 一定回饋的極端確定性-> 所有人的策略迅速收斂到“服從他“這單一點.
: 辯論,元老院決策變得混亂不可預測,蘇拉本
: 來想要由少數菁英執政體系元老主導,其他外圍元老作為監督者的設計失敗,元老院因為
: 功能故障反而邊緣化
為什麼meta policy player這套沒人用?
我們可以先看他呈現的元素:
1. 對羅馬治理貢獻
2. 可見度: 整個羅馬都知道
3. 可重複性: 他活著的時候可重複使用
4. 他人受損程度: 大, 好多人被殺
其實這邊就很明顯了: 1×2×3 看起來都很不錯對不對?
但別忘了, 4是這個公式的
分母.
: 其結果,蘇拉正確的結構改革都被推翻,只有錯誤的被留下來,使得羅馬共和憲政更加故
: 障,快速走向專制獨裁
蘇拉的規則只對“蘇拉存在“的場景有效, 羅馬的人沒有學會如何在沒有蘇拉的制度下運作
. 結果就是你看到的: 當強大的reward function(蘇拉)被抽離, 系統立刻崩潰.
想建立長期的系統, 看起來不能像蘇拉一樣. 不能只做一個好的agent.
至少得補上一個好的reward fuction-
The Generalization
https://i.meee.com.tw/R4eQoQu.jpg
舉一個最簡單的例子(我後來設計很多==)大家有沒有遇過一種狀況:
你在自助結帳櫃檯, 不小心同一個東西刷了2次, 旁邊都有一個== 幫你操作機器取消多餘次
數的店員.
你或你身邊的人肯定有這種經驗: 你結帳沒有任何問題, 但是出去的時候都會跟那個店員擦
身而過, 有人就會微笑/點頭/避開店員視線.
但店員真的需要你做這些嗎?
如果一天有一百萬人個經過他, 都跟他== 眉來眼去, 然後還有人檢舉他沒有禮貌不回應,
你覺得會怎麼樣?
在每一個流程型的場景裡~ “有禮貌“根本是錯的
(這是我一年多前有一天突然發現的== 我本來也是很不會應對人 我看到熟人常常撲過去 但
不熟的我真的很害羞... 我十幾歲時的職業幾乎可以認為是童星 中間為
了某件事 所以我有3個合法名字 以前...真的 很不會跟一般人相處 就是差不多~
這兩年才開始真正接觸一般人 就是超級笨)
最好的做法自然是- 不給他任何訊號(0)
Information (0,1)= reduction of uncertainty
1. 你不用想任何讓你肌肉緊張的事情(跟陌生人微笑其實會觸發極短的肌肉僵硬-> 脖子有
可能會累積痠痛). 這是利己
2. 店員不用觀察你到底是有什麼問題, 這是他根本的職責所在, 如果你不讓他誤會, 他工
作會減少很多麻煩 (如果你刻意低頭== 人家大概會想: 我是來工作的 你哪齣啊!)
不管店員可能短期覺得你有點冷漠, 但長期下來他絕對會意識到你是個乾脆的人-> 沒有增
加他的本質負擔, 這就是利他.
“4是這個公式的分母, 傷害了很多很多人.“
利己利他->我們來檢討一次- 不傷害人, 這分母會造成重複的策略~ 具有相當大的可行性.
https://i.meee.com.tw/scU0bLJ.jpg
如果我們在各個場合設計並發布設計邏輯: 餐廳(或其他的隨便)不可接受任何人的powerpla
y(eg 有Karen喜歡說:你知道我有多有錢嗎), 因為這樣會干擾工作人員, 造成他們精神不好
->最後害到的是你使用這個場合的利益
這種可見性+不讓人猜測(移除不清晰的狀態空間)會形成一個attractor(收斂點)
想強行powerplay, 也會意識到自己很蠢==-> 違規的成本(顯得愚蠢)就會內建在互動邏輯裡
.
(形成上圖的地形)
variance
Wikipedia:
又稱方差[1]、變方[2],在機率論及統計學中,描述的是一個隨機變數的離散程度,即一組
數字與其平均值之間的距離的度量,是隨機變數與其母體均值或樣本均值的離差的平方的期
望值。變異數在統計中有非常核心的地位,其應用領域包括敘述統計學、推論統計學、假說
檢定、度量適合度,以及蒙地卡羅採樣。
蘇拉的系統-> 1. 高variance, 他在/不在差異巨大
(上面的公開邏輯-> 低variance, 穩定可預測)
2. 有“服從/不服從“ 2種狀態
公開利己利他的設計原理只是其中一環(我不方便說其他的), 雖然可以普及到很多場合, 但
效用有限.
如何設計系統? 我們可以在上面的原理上再度抽取一次原理:
蘇拉的系統-> 高variance(他在/不在差異巨大)
有“服從/不服從“ 2種狀態, 獎勵太稀疏(其實這會引起有人冒險討好蘇拉)
反過來可以= 溫和但一致的訊號
+ 讓agent學會generalisation, 而不是只記憶特定情境
+ 細緻 (多種合規行為都有獎勵)-> 即使移除任一agent, 系統仍然可以運作(投機狀況少)
→ ZMittermeyer : 憲法就和物理定律一樣 要配合現實的動力學才行的
這是一個很有趣的說法 讓我想到水獺的the extended phenotype:
https://youtu.be/EfAHYuEdO3w?si=8cTcqFSTpwo1PTio
水獺會蓋水壩, 但這是他們知道怎麼蓋嗎?
不是的, 這其實有個非常特別的現象: 你拿手機播放水聲給他聽, 說他的手手就會在那邊==
空蓋東西 (不是蘇拉獺或是其他強水獺教的== 也不是牛頓獺發明的 是自然本身的結果)
https://i.meee.com.tw/Zcktr1c.webp
所以他能蓋小水壩~ 讓自己舒服
這是什麼?看起來
1. 任何行為都是根植於truth feedback建立起來的
(2. 照水獺的演化來看, 上帝如果存在, 他一定是一個程序員. 更可能的是-> 這讓我們的
自然看起來完全不需要上帝. 這裡我不打算走太遠== 又到了哲學去了, 我不打算陳述== 因
為我文章從來沒有任何哲學內容, 全部都是計算型的)
蘇拉feedback基本上不是truth feedback(做某事很自然的得到結果, eg 拋你的食物+>掉到
地板上~ 不能吃了/ 你拍球球->地板上傳來聲音/ 你罵別人->那個人不喜歡你), 而是power
feedback(== 不管你做什麼 蘇拉決定你的下場).
從水獺來看, 形成空蓋==的行為 到底要幾代水獺?
我... 沒有調查過
不過我覺得有意思的是-
水獺會這樣變成, 全是因為後代更有利傳下去.他們這些前水獺, 還沒有變成有完整空蓋行
為的小水獺. 他們不知道自己的物種正在變成什麼.
但每一個演化的節點, 卻全是一個生命的一生.
我們人類也是一樣: 不知道自己的物種正在變成什麼.
聽起來我們處在當下演化的節點, 這卻是我們生命的一生.
但到了人類,出現了一個關鍵差異:
我們有前額葉, 不再只有那種空蓋行為(我們其實還有驚嚇反射). 我們可以腦內模擬, 走出
很遠的地方, 甚至蓋火箭. 還有馬丁路德金看到種族歧視而犧牲自己的一生去理性對抗.
我們服從臨時的情緒(過去的資料->本質只是避免生物再犯), 是不是自由?
還是模擬出一條幾近不可能的路, 我們預測一切方法, 通過困難, 才是真的自由?
這讓自由彷彿有了可計算的邊界
https://i.meee.com.tw/scU0bLJ.jpg
eg 同樣類型的錯誤, 在不同人身上反覆出現
如果
只是某個人, 那錯可能只是那個人. 但我們要知道:
如果是每個人都錯, 那錯的來源... 一定不是人
應該要 基於宇宙的本質(truth feedback) 去 面向未來
在限制中把自己推向有利的方向
同時用設計把每一個人的心 都好好的守護起來
上來看, 最後一篇心情文就留給這板 當== 情書
我挺喜歡ZM(我看你的新的那篇感覺有打我臉== 我不知道幕末你說的那些 常常想一些有的
美的 很聰明)還有plamc(人好+創造力+有目標 很聰明)(我覺ZM像是諸葛孔明 plamc像是曹
操 我自己是十分像呂布 可惜沒時間三國志結義)
這篇文章跟你們兩個特別的人閒聊一下
這是我最後一篇ptt文章
祝你們好的2026
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.182.65.155 (澳大利亞)
※ 文章網址: https://www.ptt.cc/bbs/DummyHistory/M.1767121002.A.A1E.html
→ selfvalue: 你們下次來美國之前 可以考慮看看先來lesswrong發個文12/31 06:19
→ selfvalue: 章 來參加聚會12/31 06:19
→ selfvalue: 上面很多創造型的全球公眾人物 或是比較有趣的人 像na12/31 06:19
→ selfvalue: sa工作人員 可以來玩12/31 06:20
→ selfvalue: 不急 什麼時候都有 只是覺得你們應該比較少碰到同類 l12/31 06:21
→ selfvalue: w上都是這種==怪怪的(我不一樣 我是很時髦的)12/31 06:21
→ selfvalue: 你們發文我有看到的話會在文章下面評論== 用力反駁你12/31 06:22
→ selfvalue: 們12/31 06:22
→ selfvalue: happy new year12/31 06:22
https://i.meee.com.tw/JtvUEzf.png
※ 編輯: selfvalue (49.182.65.155 澳大利亞), 12/31/2025 09:01:09
推 ZMittermeyer: 歷史的工程學語言翻譯... 12/31 12:11
→ ZMittermeyer: 應該問卷調查一下看得懂的人舉手 12/31 12:11