→ Satoman: 程式方面吧,我覺得查資料和gpt5.1差不多 11/20 17:22
推 Wardyal: 這種自己體會比較準 你的測項跟dataset不一定一樣 11/20 17:23
→ jeffreyseh: 成本能壓得下來再說吧 現在這幾個model都靠北貴 11/20 17:23
→ Haruna795682: 好屌 11/20 17:24
→ Haruna795682: 確實評比本來就比較偏頗 11/20 17:24
推 emptie: 看了一下,這個的計算基準,人類訂在100% ,做一個task約 11/20 17:25
→ emptie: 花$17 11/20 17:25
→ emptie: 所以還……有一段路 11/20 17:25
→ emptie: 但跟半年前的模型比那是很屌了 11/20 17:25
→ Haruna795682: 進化很快 11/20 17:28
推 amsmsk: 進步很快了 11/20 17:29
推 sustainer123: 數學比較屌 我看別人還在1% 他跳到23% 11/20 17:30
→ oin1104: 好屌 11/20 17:35
推 shadow0326: 你這麼信這個評分系統幹什麼呀 11/20 17:40