看板 AI_Art 關於我們 聯絡資訊
https://grok.com/share/c2hhcmQtNA%3D%3D_5f4f0797-59c4-44e1-b893-f11034e4abeb (前略) DeepSeek-OCR 確實是一款高效低耗的 OCR 模型,專為處理大量視覺-文本數據而設計, 特別適合用於生成高質量訓練數據,進一步訓練其他 AI 模型(例如大型語言模型 LLM) 。以下是對你理解的補充和精簡說明: 高效低耗的核心:DeepSeek-OCR 通過「上下文光學壓縮」(Contexts Optical Compression)技術,將大量圖像或文件內容壓縮成極少的視覺 token(例如一頁 PDF 僅 需 100 個 token),同時保持高精度(97% 在 10x 壓縮)。這大幅降低計算和記憶體需 求,解決長上下文處理的瓶頸。 掃描大量資料:它在單個 A100-40G GPU 上能以 2500 token/秒的速度處理 PDF,日產 20 萬頁以上,適合大規模文件數字化。訓練數據涵蓋 30 萬 PDF 頁、1000 萬自然場景 OCR 和多類專業數據(圖表、化學公式等),非常適合生成結構化數據。 訓練其他 AI:DeepSeek-OCR 的輸出(如 Markdown 或結構化文本)可直接作為 LLM 的 高質量訓練數據,特別在多語言、科學圖表和複雜布局上表現出色,推動 GPT-5 級模型 的視覺-文本能力。 開源優勢:MIT 許可,支援 vLLM 和 Transformers,易於部署和定製,適合企業或研究 者用於大規模數據處理。 簡單說,它是一個「省力神器」,能快速、精準地將海量文件轉成 AI 可用的數據,特別 適合需要高效 OCR 的場景,比如數字化檔案或訓練視覺語言模型。不過,它在極複雜表 格或手寫識別上可能還需調優。 -- 參考: https://github.com/deepseek-ai/DeepSeek-OCR https://x.com/BrianRoemmele/status/1980307485719429602 悲報 AI比你更會讀書學習了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.201.220 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1761101249.A.41E.html
Supasizeit: 這沒講到重點 他是用latent儲存token 要拿來用還是一 10/22 14:28
Supasizeit: 樣要解壓回文字 而且97%準確 很糟吧 10/22 14:28