看板 AI_Art 關於我們 聯絡資訊
https://taalas.com/the-path-to-ubiquitous-ai/ 核心技術:Hardcore Models(硬核模型) 把整個 AI 模型(權重、參數)直接「硬焊(hard-wire)」到矽晶片上,變成 專屬 ASIC(應用特定積體電路) 從拿到一個新模型開始,只要 2 個月 就能做出對應的客製晶片 他們稱之為 「The model is the computer」 —— 模型本身就是電腦,不再需要通用 GPU 去跑軟體 解決的問題 現在 AI 推論(inference)太慢、太貴、太耗電 → 阻礙 AI 真正無所不在(ubiquitous AI) Taalas 想做到像當年 ENIAC → 現代電腦的轉變一樣,讓 AI 變得即時、低成本、低功 耗 第一代產品:HC1 硬焊的是 Llama 3.1 8B(使用他們自訂的 3-bit 基底量化,部分參數 6-bit) 效能宣稱:單用戶:17,000 tokens/sec(約 10 倍於目前 SOTA,如 Groq、Cerebras、 NVIDIA H200 等) 建置成本:20 倍便宜 功耗:10 倍低 缺點:品質比原版 GPU 跑的略有下降(因為激進量化),上下文長度目前有限(但他們 說可彈性調整) 體驗方式:免費聊天 Demo:https://chatjimmy.ai (很多人說打完 Enter 幾乎瞬間出 答案,感覺像本地跑) 也有 Inference API 可申請 下一代與路線圖 HC2:更高密度、更快,採用標準 4-bit 浮點 格式 今年春天:中型 reasoning LLM 上 HC1 今年冬天:frontier-level(前沿級)LLM 上 HC2 長期願景:sub-millisecond 延遲、近乎零成本的即時 AI 跟傳統「AI 壓縮」的差別傳統壓縮:量化(8→4→2 bit)、剪枝、蒸餾、MoE 等 → 還 是在 GPU/通用硬體上跑 Taalas:直接把壓縮後的模型「印到」晶片裡 + 儲存與運算合一(DRAM 等級密度,沒 有 HBM、沒有先進封裝、沒有液冷需求),徹底消除記憶體牆 簡單說:它不是在壓縮模型檔案大小,而是在壓縮「執行 AI 所需的整體成本與延遲」到 極致,代價是這個晶片只能跑特定一個模型(極端特化)。目前社群反應(Hacker News 、Reddit、X)很熱烈,有人覺得是瘋狂的突破,也有人質疑品質下降、模型更新太快是 否實用、是否只適合特定低延遲場景。 -- 去它的測試網頁用英文叫它寫篇小故事 啪一下全丟上來 耗時0.036秒 這種技術以後如果能跟機器人結合應該大有可為吧我想 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.247.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771640074.A.0AD.html
Tosca: 出一台便宜的專生色色圖就太棒了~~ 02/21 10:37
ninggo: 速度真變態 02/21 10:50
gino0717: 人類的性慾跟不上怎麼辦 02/21 12:01
avans: 8B是小資料量,再加上特規3-bit量化,能力十分有限度 02/21 15:27
avans: 不過將軟體模型轉為硬體晶片,感覺不簡單也很有趣 02/21 15:27
error405: 明年能變成搞多大的還不知道 02/21 15:33
v86861062: 酷 02/21 15:37
qiaffvvf: 好猛喔這個 02/21 16:49
stlinman: 生圖模型要刻成晶片應該不難? 圖像模型小的就很好用了! 02/21 21:46
necrophagist: 好屌 02/21 22:54
Destiny6: 拿來刻TTS應該很適合? 02/21 23:17
rex7788: 希望能像手機這樣可以小型、介面好又耗時低的 02/22 01:08
rex7788: 翻譯也能小型化變成即時的就好了 02/22 01:08
WalkingIce: 想到 Java Processor 的概念,把 JVM 做成硬體 02/22 15:25