看板 Tech_Job 關於我們 聯絡資訊
應該會吃緊啊 現在矽谷一堆PR都用claude審 搭配人類 我們算過 一個複雜點PR claude大概花費5~20美金 然後品質比較跟人類比 只要正確搭配人類 可以省下30min ~1hr 我們這邊工時一個人都是100美金/hr起跳 現在都是用時間和token費用和品質在換算 結論就是token狂燒 幹死對家 比誰的錢多和迭代速度快 然後我們PM也捲起來 跳下來開始幹實作 和對接crossfun team 在模型設計上codex使用體感還是比claude 好 這真是出乎意料(參照下方) 有傳言codex是MoE設計 claude是dense transformer 理論上後者的邏輯順序會比較好 但缺點就是計算量和速度偏慢 前者是一定會快的 https://reurl.cc/R2LaWD 但很吃Harness上下文管理設計不然邏輯順序會亂掉 現在進行式就是 token費用 vs 人類價值 vs 速度產出 vs 系統品質搭建 看到上一篇說LLM/Agent只就只是個語言系統....嗯嗯恩 QQ 我好羨慕那個世界線 現在Agent就幹這幾件事 拆解問題 選擇工具 組合工具解問題 工具結果驗證 已經不在是個當純語言模型的問題了 這也是為啥Harness設計最近很夯 尤其最近一篇ICLR paper已經驗證 SFT去訓練模型會打輸模型加個好的Context設計 原因就是SFT會造成information collapse和失去reasoning ability -- 人類跟猴子差別就是 會用工具 好的Agent就是會用工具 模型設計現在為啥RL會夯 就是因為RL在訓練模型要跟現實工具環境做交互影響來解決問題 已經不在是"語言"模型 比方說claude前幾代 當模型快用完context資源 會開始把答案縮短 來增加回合 逼得人類學在context上在系統架構 不斷要code來選曲 重新釋放 但現在最新模型 已經會自己去管context長度控制了 所以現在模型owner大概就是走向RL+ Context設計 SFT除了在少數落地場景需要速度 使用範圍性越來越下降 至於上篇說 沒有新血補入 實際上是有 只是會走向像是精英運動系統一樣 大學生被挑選上實習這些人 通常可以畢業正職加入 但這些名額是限量的 ※ 引述《yamakazi (大安吳彥祖)》之銘言: : 包含4.6 4.7 : https://youtu.be/J-fgEGfskaI?si=OXtbInZEST1ODp4_
: 跟影片前半段一樣 : 我要放棄claude轉gemini : 跟這個影片一樣 : 我今天幫一個同事安裝公司內部的wiki mcp : 我自己也裝過,很簡單一次提示詞就好 : 但幫我同事裝的時候 : 居然先問一堆問題,又寫了一個md : 然後開始寫python還一直寫錯 : 他媽的裝mcp為何要寫md和python : 有夠坑錢 : ----- : Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.37.67.135 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1776718380.A.23A.html ※ 編輯: LDPC (98.37.67.135 美國), 04/21/2026 05:29:23 ※ 編輯: LDPC (98.37.67.135 美國), 04/21/2026 05:54:17
bunjie: LPDC大 前面那篇自刪很可惜 其實這系列討 182.155.197.16 04/21 06:28
bunjie: 論串蠻有意義的 不知為何要自刪呢 畢竟回 182.155.197.16 04/21 06:28
bunjie: 文章也是要花時間的 182.155.197.16 04/21 06:28
GawrGura: 推推 101.8.142.73 04/21 08:37
Sam27: 現在還是有90%以上的人覺得AI很笨 36.232.75.42 04/21 09:47
Sam27: 真的是不同世界..... 36.232.75.42 04/21 09:47
dream1124: 你當然要羨慕了。你們堅信這能取代新人 36.227.240.234 04/21 10:02
dream1124: 堅信這等同於真正的智慧,然後配合AI 36.227.240.234 04/21 10:02
dream1124: 廠商的模型及其開發的輔助工具上面 36.227.240.234 04/21 10:03
dream1124: 搞各種嘗試,結果最後連自己的文章也 36.227.240.234 04/21 10:04
dream1124: 不敢把「只要正確搭配人類」前提拿掉? 36.227.240.234 04/21 10:04
dream1124: 你本質上還是在一個滿不穩定的基礎上 36.227.240.234 04/21 10:04
dream1124: 跟模型難預測的行為對賭。你有可能賭贏 36.227.240.234 04/21 10:06
dream1124: 但也有可能賭輸,只要賭輸時有風度一點 36.227.240.234 04/21 10:06
dream1124: 不用顧著講別人不同時間線或落伍即可。 36.227.240.234 04/21 10:06
dream1124: 這也就是為什麼會說可能驚訝發現提升的 36.227.240.234 04/21 10:08
dream1124: 效率雖不能說沒有,但不如預期高。 36.227.240.234 04/21 10:08
dream1124: 賭贏的時候爽歪歪,賭輸的時候額外奉還 36.227.240.234 04/21 10:10
dream1124: 最後,這裡的成本是總持有成本嗎? 36.227.240.234 04/21 10:12
dream1124: 若不是的話,記得把試探各種工具組合 36.227.240.234 04/21 10:12
dream1124: 以及設計各種測試情境及評估指標的時間 36.227.240.234 04/21 10:13
dream1124: 算進去。總持有成本算出來才能看綜效。 36.227.240.234 04/21 10:13
dream1124: 有綜效才能客觀評估是否真有省到人力 36.227.240.234 04/21 10:19
a1234567289: 推樓上 會用AI不是什麼稀有技能 49.216.18.62 04/21 11:02
a1234567289: AI超神or撞牆大家都遇過 AI整體增 49.216.18.62 04/21 11:02
a1234567289: 加生產力大家都同意 但計算成本的時 49.216.18.62 04/21 11:02
a1234567289: 候永遠只算省下多少時間 卻不算為了 49.216.18.62 04/21 11:02
a1234567289: 用這套系統額外付出了什麼成本 49.216.18.62 04/21 11:02
VicLien: 覺得ai很笨的人大概率自己用不好ai 大 42.78.218.26 04/21 11:29
VicLien: 部分人當成進階的搜索引擎包括我 但可 42.78.218.26 04/21 11:29
VicLien: 想見會用的會把效率上到什麼程度 矽谷本 42.78.218.26 04/21 11:29
VicLien: 來就是一神帶數坑的競爭環境 看過thinki 42.78.218.26 04/21 11:29
VicLien: ng game體會就很深 個人認為可以不用 42.78.218.26 04/21 11:29
VicLien: 很會用ai 但資產一定要有ai 部位來hedg 42.78.218.26 04/21 11:29
VicLien: e ai impact 42.78.218.26 04/21 11:29
ku72: 坦白說 AI有幫助沒人不承認 但現在的幫助都 49.214.9.172 04/21 12:51
ku72: 是只更快的開發代碼 但很多人都忘了 對一間 49.214.9.172 04/21 12:51
ku72: 軟體公司而言 每一行代碼都是負債 不過他們 49.214.9.172 04/21 12:51
ku72: 也不在意 現在的風氣都是趕快做趕快上 有問 49.214.9.172 04/21 12:51
ku72: 題能修就修不能修就放生 市場比信譽重要 49.214.9.172 04/21 12:51
r40491101: Up 45.149.173.225 04/21 13:57
holebro: 反正不管你是ai吹還是ai黑 最後都是一起 36.224.179.208 04/21 14:04
holebro: 踩腳踏車 只是想到隔壁的車友 當初在那邊 36.224.179.208 04/21 14:04
holebro: 說AI取代不了人類 就很想叫他多踩個幾圈 36.224.179.208 04/21 14:04
Arashi0731: AI很強啊,只是現在困境是案子不夠寫 111.82.50.40 04/21 16:28
Arashi0731: ,驗證的人不夠多,台灣就這麼丁點大 111.82.50.40 04/21 16:28
Arashi0731: ,一堆人搶食,現在大都交給AI寫運算 111.82.50.40 04/21 16:28
Arashi0731: 寫邏輯,我只負責架構,所以好閒喔 111.82.50.40 04/21 16:28
labbat: 只負責架構的大概就是卸責到底的了 27.240.105.243 04/21 16:35
dream1124: 你們知道現今世道最有病的地方在哪嗎? 36.227.240.234 04/21 17:06
dream1124: 就是一群人在一個本質難預測且不斷變動 36.227.240.234 04/21 17:06
dream1124: 的基礎上加蓋東西大談工程學還不覺得怪 36.227.240.234 04/21 17:07
dream1124: 然後賭贏的人不覺得是賭贏卻強調是技術 36.227.240.234 04/21 17:08
dream1124: 是工程,質疑的人都是落伍且要被取代, 36.227.240.234 04/21 17:09
dream1124: 這就是現在狂粉的做風。以前常調整的 36.227.240.234 04/21 17:10
dream1124: 工具我們會說它很討厭,現在卻想在這種 36.227.240.234 04/21 17:11
dream1124: 東西上面加蓋,賭贏還會嫌別人落伍咧~ 36.227.240.234 04/21 17:11
a1234567289: 甚至廠商還為了減少成本支出 模型被 49.216.18.62 04/21 17:17
a1234567289: 調弱 結果之前user的AI workflow又 49.216.18.62 04/21 17:17
a1234567289: 要重新調 49.216.18.62 04/21 17:17
yamakazi: 現在開始有人要處理固定輸入不同輸出的 49.216.252.222 04/21 17:21
yamakazi: 問題了,簡單來說這跟浮點運算,併發處 49.216.252.222 04/21 17:21
yamakazi: 理,顯卡調度有關 49.216.252.222 04/21 17:21
dream1124: 另外沒AI前程式實作花50%時間就很多了 36.227.240.234 04/21 17:22
dream1124: 多的是只花20~30%的單位,因此卡在測試 36.227.240.234 04/21 17:22
dream1124: 或者是一些要人介入的地方有何奇怪? 36.227.240.234 04/21 17:23
dream1124: 這也是為啥說效率提升程度可能不如預期 36.227.240.234 04/21 17:25
dream1124: 即便讓那30%直接歸零,效率也不是300% 36.227.240.234 04/21 17:26
dream1124: 別等到現在看軟工才如夢初醒吧~ 36.227.240.234 04/21 17:32
aaron2034b: 用過Agentic AI就知道 …SW被取代遲 36.231.133.177 04/21 17:48
aaron2034b: 早的事…. 36.231.133.177 04/21 17:48
gogogogo3333: 給推 是現代人 119.56.17.210 04/21 18:09
yamakazi: 這個社會本身就充滿不確定性,我們是做 49.216.252.222 04/21 18:11
yamakazi: 工程和產品,不是做科學 49.216.252.222 04/21 18:11
Sam27: 你講愈多只是顯露你沒再用現在的Agent 36.232.75.42 04/21 19:15
Sam27: 上班工程師誰會只開一個agent? 36.232.75.42 04/21 19:15
Sam27: 現在都好幾個在開,其實沒比較輕鬆 36.232.75.42 04/21 19:16
yamakazi: 就連科學也不是每個科學都有確定性,醫 114.37.95.31 04/21 19:54
yamakazi: 學生科就不是百分百確定性 114.37.95.31 04/21 19:54
tswu8: 什麼自刪?有人備份嗎?L大一向是好文必讀223.139.223.218 04/21 20:17
dream1124: 噗,搞工程非科學?沒科學哪來電腦世界? 36.227.240.234 04/21 20:24
dream1124: 若搞研發不重第一性原理,那稍早又何必 36.227.240.234 04/21 20:24
dream1124: 補充說廠商要解決同輸入不同輸出問題? 36.227.240.234 04/21 20:24
dream1124: 還是你工程是反正試出的堆疊有用即可? 36.227.240.234 04/21 20:25
dream1124: 那跟中世紀鍊金有何不同?再說,如果是 36.227.240.234 04/21 20:25
dream1124: 這樣做還容不得別人有疑問或潑冷水啊? 36.227.240.234 04/21 20:26
dream1124: 扯醫學又更有趣了,人家不但研究機轉, 36.227.240.234 04/21 20:31
dream1124: 而且生醫實驗有夠複雜不會不知道吧? 36.227.240.234 04/21 20:32
dream1124: 現在調試代理工程的人有測得這麼嚴謹? 36.227.240.234 04/21 20:32
dream1124: 真有這麼嚴謹,那總持有成本會低嗎? 36.227.240.234 04/21 20:32
yamakazi: 嗯嗯 你都對XD 114.37.95.31 04/21 20:38
yamakazi: 你知道有一堆化學生科的論文,同行根本 114.37.95.31 04/21 20:41
yamakazi: 很難復現嗎?你知道為何諾貝爾科學類獎 114.37.95.31 04/21 20:41
yamakazi: 項通常都是二三十年後才頒發,因為要等 114.37.95.31 04/21 20:41
yamakazi: 到大家都review復現沒問題了。就連量子 114.37.95.31 04/21 20:41
yamakazi: 物理也是機率性沒有百分百的。 114.37.95.31 04/21 20:41
yamakazi: 就連電腦科學中的記憶體,也沒有辦法保 114.37.95.31 04/21 20:46
yamakazi: 證百分百每個電子都乖乖待在那個位子, 114.37.95.31 04/21 20:46
yamakazi: 所以才需要錯誤更正碼。併發處理在沒有 114.37.95.31 04/21 20:46
yamakazi: 原子操作下你也沒辦法保證那個執行順序 114.37.95.31 04/21 20:46
yamakazi: ,浮點數操作更是你只要操作順序換了, 114.37.95.31 04/21 20:46
yamakazi: 同樣的數字加起來就不一樣了 114.37.95.31 04/21 20:46
Sam27: 大家都知道2024年AI已經拿諾貝爾獎了 36.232.75.42 04/21 20:46
Sam27: 2021年藥廠就大量在用AI了...所以有數據 36.232.75.42 04/21 20:46
yamakazi: 確實是中世紀煉金,很多發明發現都是不 114.37.95.31 04/21 20:50
yamakazi: 小心或是無數次試錯得到的,比如青黴素 114.37.95.31 04/21 20:50
yamakazi: 和電燈泡 114.37.95.31 04/21 20:50
Sam27: 目前第二期有AI的成功率78%,沒用AI是38% 36.232.75.42 04/21 20:51
yamakazi: 青黴素就是不小心發現黴菌旁邊不長細菌 114.37.95.31 04/21 20:52
yamakazi: ,電燈泡試了幾千種材料 114.37.95.31 04/21 20:52
Sam27: 有用AI的降低成本40% 36.232.75.42 04/21 20:54