DeepSeek 开源新模型 DeepSeek-OCR
DeepSeek AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。 Hugging Face 页面显示,该模型的参数量为 3B 。
开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M 。
实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。 DeepSeek-OCR 同时具备较高的实际应用价值。