作者error405 (流河=L)
看板AI_Art
標題[閒聊] 腦波轉文字 Qwen3.5 4D場景 ..本週AI新聞
時間Sun Feb 22 12:02:33 2026
https://www.youtube.com/watch?v=fnMAIa2PEAk
這部影片彙整了 2026 年 2 月最新且極具突破性的 AI 新聞,涵蓋了語言模型、多媒體
生成(影音、音樂)、高效能晶片以及人形機器人的進展。
以下是根據影片內容與時間軸的重點簡介:
大型語言模型與基礎模型 (LLM & Foundational Models)
Qwen 3.5 [00:55]:阿里巴巴發布的最新多模態模型(397B 參數),具備高達 100
萬 token 的超大上下文視窗,在編碼、推理及 Sudoku 等邏輯問題處理上表現優異。
Tiny Aya [06:24]:Cohere Labs 推出的輕量化開源權重模型(3.35B 參數),支
援 67 種語言,體積小到可以在手機上運行,翻譯與多語回應速度極快。
Gemini 3.1 Pro [31:13]:Google 最新的旗艦升級,在獨立排行榜上名列前茅,主
打極高性價比。
Seed 2.0 [36:28]:字節跳動推出的強大語言模型,在視覺推理(如從圖片產出
Python 圖表)與長程自主代理任務(如操作 CAD 軟體)方面非常出色。
影音生成與編輯 (Audio & Video)
AnchorWeave [04:10]:開源的 3D 互動世界生成模型,能根據初始幀產生可操作、
具備場景記憶的互動影片。
Kitten TTS [08:20]:極度精簡的語音合成模型(僅 15M 參數,小於 25MB),無
需 GPU 即可在手機或一般 CPU 上即時運作。
Luve [15:26]:超高解析度影片生成 AI,能產生細節驚人的 4K 影片(如蜜蜂身上
的細毛或海浪紋理)。
Higgsfield [17:03]:一站式影音創作平台,整合了多款頂尖模型並提供豐富的運鏡
與編輯預設範本。
AudioX [20:31]:統一的音訊模型,支援文字轉音效、文字轉音樂,甚至能為靜音影
片自動配音或修復損壞音軌。
Vec2Pix [26:02]:獨特的圖像編輯技術,將圖片轉為向量形狀後進行精確調整(如
拉長山脈、移動物體顏色等)。
Code2Worlds [28:00]:能根據文字敘述直接生成 4D 場景(即隨時間變化的 3D 模
擬),生成的內容可導入 Blender 進一步編輯。
Lyria 3 [31:47]:Google 隨 Gemini App 發布的免費音樂生成器,能根據文字描述
或上傳的圖片創作出風格多樣(如 J-Pop、藍草音樂)的歌曲。
技術突破與硬體 (Tech Breakthroughs & Hardware)
Taalas 晶片 [10:36]:效能驚人的硬編碼(Hardcoded)AI 晶片,專為 Llama 3.1
設計,處理速度比 NVIDIA B200 快 40 倍,且功耗極低。
Monarch RT [29:43]:實踐了在消費級顯示卡(如 RTX 5090)上以 16 FPS 進行真
實即時(Real-time)影片生成的技術。
Zuna (Thought-to-Text) [18:20]:開源的腦波(EEG)分析基礎模型,能清理、重
建大腦信號數據,長遠目標是實現「讀心術」文字轉譯。
機器人進展與特別活動 (Robotics & Events)
Unitree (宇樹科技) [12:54]:展示了 G1 機器人在春晚活動中的表演,包含兩三公
尺的高空翻滾、單腿後空翻以及大規模集群(Swarm)同步控制。
NVIDIA 抽獎 [38:29]:影片結尾提到與 NVIDIA 合作,為 GTC 2026 活動提供 RTX
5090 顯示卡抽獎。
這部影片展示了 AI 正在朝向「極致效能」與「極致微縮」兩個極端發展,同時在多模態
理解與物理世界模擬上取得了顯著進步。
--
Gemini3整理
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.247.149 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771732955.A.D4C.html
→ error405: AudioX 做遊戲效果音好像不錯 02/22 12:22
推 newyorker54: AI殺手級應用已經出現,2026,2027這兩年將是大爆發 02/22 14:20
→ newyorker54: 年 02/22 14:20
→ newyorker54: 要慶幸邏輯推理能力還有缺陷,中初階白領才有生存空 02/22 14:22
→ newyorker54: 間 02/22 14:22
→ newyorker54: 未來三年是AI最美好的年代,你會懷念這三年 02/22 14:23
→ newyorker54: 之後將是社會動蕩庶民的黑暗期 02/22 14:24
推 newyorker54: 大的要來了,大的 02/22 14:26
→ newyorker54: 各位會看到百年來最大的驚奇 02/22 14:27
推 Tosca: 驚奇其實都差不多了啦剩下都是被其他因素卡住=.= 02/22 15:00
→ Tosca: 好比藥物開發 AI現在靠模擬找出有潛力的化合物很快 02/22 15:00
→ Tosca: 但問題是接下來動物實驗 人體試驗 三期試驗等等就是要時間 02/22 15:01
→ Tosca: 現在就是卡在這些後續 所以為什麼你體驗不到AI爆炸應用 02/22 15:01
推 Tosca: 在alphafold以前人類只解構了不到20萬的蛋白質結構 02/22 15:04
→ Tosca: 然後alphafold現在解構了超過2.4億.... 02/22 15:04
→ Tosca: 但你當然體會不到這種差別 因為新藥上市還是要時間XD 02/22 15:05
→ Tosca: 只是以前從茫茫蛋白質慢慢開發新藥 到現在AI直接給你候選人 02/22 15:05
→ Tosca: 至少現在開發新藥不是亂槍打鳥了 02/22 15:06
→ Tosca: 更不用說色色用途 我看著我兩年前用SD1.5生的色色 02/22 15:06
→ Tosca: 跟現在我用qwen 2509生出來的 實在進步太多了 超感動QQ 02/22 15:06
→ Tosca: 以前人類大部分性幻想只能靠文字描述 現在都能實現了~~~ 02/22 15:07
→ sudekoma: AI能提供嗅覺、觸覺、味覺的體驗了嗎(′・ω・`) 02/22 19:21
→ ZMTL: 都有雛型了就是 02/22 19:59
推 rex7788: 生圖還不夠好,特別是人臉一多就會模糊 02/23 09:23
→ rex7788: 多人的膚色也沒辦法簡單調整,還有進步空間 02/23 09:24
→ Tosca: 多人應該要走融合圖片模式 請AI把個別的單人圖融合在一起 02/23 09:27
→ Tosca: 有時候就是一步一步來就好了 已經不是辦不到 只是麻煩點 02/23 09:28
推 rex7788: 當然也能用photoshop把物件p起來,但門檻太高其實等同辦 02/23 13:11
→ rex7788: 不到 02/23 13:11