[閒聊] AI焊死在晶片上 每秒產一萬字

作者error405 (流河=L)

看板AI_Art

標題[閒聊] AI焊死在晶片上每秒產一萬字

時間Sat Feb 21 10:14:30 2026

https://taalas.com/the-path-to-ubiquitous-ai/ 核心技術：Hardcore Models（硬核模型）把整個 AI 模型（權重、參數）直接「硬焊（hard-wire）」到矽晶片上，變成專屬 ASIC（應用特定積體電路）從拿到一個新模型開始，只要 2 個月就能做出對應的客製晶片他們稱之為「The model is the computer」 —— 模型本身就是電腦，不再需要通用 GPU 去跑軟體解決的問題現在 AI 推論（inference）太慢、太貴、太耗電 → 阻礙 AI 真正無所不在（ubiquitous AI） Taalas 想做到像當年 ENIAC → 現代電腦的轉變一樣，讓 AI 變得即時、低成本、低功耗第一代產品：HC1 硬焊的是 Llama 3.1 8B（使用他們自訂的 3-bit 基底量化，部分參數 6-bit）效能宣稱：單用戶：17,000 tokens/sec（約 10 倍於目前 SOTA，如 Groq、Cerebras、 NVIDIA H200 等）建置成本：20 倍便宜功耗：10 倍低缺點：品質比原版 GPU 跑的略有下降（因為激進量化），上下文長度目前有限（但他們說可彈性調整）體驗方式：免費聊天 Demo：https://chatjimmy.ai （很多人說打完 Enter 幾乎瞬間出答案，感覺像本地跑）也有 Inference API 可申請下一代與路線圖 HC2：更高密度、更快，採用標準 4-bit 浮點格式今年春天：中型 reasoning LLM 上 HC1 今年冬天：frontier-level（前沿級）LLM 上 HC2 長期願景：sub-millisecond 延遲、近乎零成本的即時 AI 跟傳統「AI 壓縮」的差別傳統壓縮：量化（8→4→2 bit）、剪枝、蒸餾、MoE 等 → 還是在 GPU/通用硬體上跑 Taalas：直接把壓縮後的模型「印到」晶片裡 + 儲存與運算合一（DRAM 等級密度，沒有 HBM、沒有先進封裝、沒有液冷需求），徹底消除記憶體牆簡單說：它不是在壓縮模型檔案大小，而是在壓縮「執行 AI 所需的整體成本與延遲」到極致，代價是這個晶片只能跑特定一個模型（極端特化）。目前社群反應（Hacker News 、Reddit、X）很熱烈，有人覺得是瘋狂的突破，也有人質疑品質下降、模型更新太快是否實用、是否只適合特定低延遲場景。 -- 去它的測試網頁用英文叫它寫篇小故事啪一下全丟上來耗時0.036秒這種技術以後如果能跟機器人結合應該大有可為吧我想 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.247.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771640074.A.0AD.html

推 Tosca: 出一台便宜的專生色色圖就太棒了~~ 02/21 10:37

→ ninggo: 速度真變態 02/21 10:50

推 gino0717: 人類的性慾跟不上怎麼辦 02/21 12:01

推 avans: 8B是小資料量，再加上特規3-bit量化，能力十分有限度 02/21 15:27

→ avans: 不過將軟體模型轉為硬體晶片，感覺不簡單也很有趣 02/21 15:27

→ error405: 明年能變成搞多大的還不知道 02/21 15:33

推 v86861062: 酷 02/21 15:37

推 qiaffvvf: 好猛喔這個 02/21 16:49

推 stlinman: 生圖模型要刻成晶片應該不難? 圖像模型小的就很好用了! 02/21 21:46

推 necrophagist: 好屌 02/21 22:54

推 Destiny6: 拿來刻TTS應該很適合？ 02/21 23:17

推 rex7788: 希望能像手機這樣可以小型、介面好又耗時低的 02/22 01:08

→ rex7788: 翻譯也能小型化變成即時的就好了 02/22 01:08

推 WalkingIce: 想到 Java Processor 的概念，把 JVM 做成硬體 02/22 15:25