[閒聊] deepseek做出了超強OCR模型

作者error405 (流河=L)

看板AI_Art

標題[閒聊] deepseek做出了超強OCR模型

時間Wed Oct 22 10:47:26 2025

https://grok.com/share/c2hhcmQtNA%3D%3D_5f4f0797-59c4-44e1-b893-f11034e4abeb (前略) DeepSeek-OCR 確實是一款高效低耗的 OCR 模型，專為處理大量視覺-文本數據而設計，特別適合用於生成高質量訓練數據，進一步訓練其他 AI 模型（例如大型語言模型 LLM）。以下是對你理解的補充和精簡說明：高效低耗的核心：DeepSeek-OCR 通過「上下文光學壓縮」（Contexts Optical Compression）技術，將大量圖像或文件內容壓縮成極少的視覺 token（例如一頁 PDF 僅需 100 個 token），同時保持高精度（97% 在 10x 壓縮）。這大幅降低計算和記憶體需求，解決長上下文處理的瓶頸。掃描大量資料：它在單個 A100-40G GPU 上能以 2500 token/秒的速度處理 PDF，日產 20 萬頁以上，適合大規模文件數字化。訓練數據涵蓋 30 萬 PDF 頁、1000 萬自然場景 OCR 和多類專業數據（圖表、化學公式等），非常適合生成結構化數據。訓練其他 AI：DeepSeek-OCR 的輸出（如 Markdown 或結構化文本）可直接作為 LLM 的高質量訓練數據，特別在多語言、科學圖表和複雜布局上表現出色，推動 GPT-5 級模型的視覺-文本能力。開源優勢：MIT 許可，支援 vLLM 和 Transformers，易於部署和定製，適合企業或研究者用於大規模數據處理。簡單說，它是一個「省力神器」，能快速、精準地將海量文件轉成 AI 可用的數據，特別適合需要高效 OCR 的場景，比如數字化檔案或訓練視覺語言模型。不過，它在極複雜表格或手寫識別上可能還需調優。 -- 參考: https://github.com/deepseek-ai/DeepSeek-OCR https://x.com/BrianRoemmele/status/1980307485719429602 悲報 AI比你更會讀書學習了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.201.220 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1761101249.A.41E.html

→ Supasizeit: 這沒講到重點他是用latent儲存token 要拿來用還是一 10/22 14:28

→ Supasizeit: 樣要解壓回文字而且97%準確很糟吧 10/22 14:28