配图 - DeepSeek-OCR：视觉压缩与智能文档识别模型

DeepSeek-OCR：视觉压缩与文档识别的创新模型

DeepSeek-OCR 官方网站是一款基于视觉压缩技术的 OCR（光学字符识别）模型，通过将长文本视为图像进行压缩处理。这种光学压缩方法使用极少的视觉 token 来表示文档，为长上下文任务解锁了新的效率水平，同时提供强大的 OCR 能力。

产品概览

DeepSeek-OCR 由 DeepSeek AI 团队开发，主要面向开发者和研究人员，专注于解决长文档处理和 OCR 任务中的效率问题。该模型通过创新性地将文本作为图像处理，大幅减少了视觉 token 的使用量，从而提升了处理长上下文文档的性能。

关键能力与特性

视觉压缩技术

DeepSeek-OCR 的核心创新在于其光学压缩技术。传统的文本处理需要大量的 token 来表示长文档，而 DeepSeek-OCR 将文档视为图像，使用更少的视觉 token 完成表示，这在处理长文档时显著提升了效率。

强大的 OCR 功能

该模型不仅具备压缩能力，还提供了完整的 OCR 功能，能够准确识别图像中的文字内容，并支持转换为多种格式（如 Markdown）。

多尺寸配置支持

DeepSeek-OCR 提供了多种尺寸配置选项，包括：

Tiny：base_size = 512, image_size = 512
Small：base_size = 640, image_size = 640
Base：base_size = 1024, image_size = 1024
Large：base_size = 1280, image_size = 1280
Gundam：base_size = 1024, image_size = 640, crop_mode = True

集成与生态

HuggingFace 集成

DeepSeek-OCR 已集成到 HuggingFace 平台，开发者可以方便地通过 Transformers 库进行模型调用和推理。

开发资源

GitHub 仓库: 提供完整的代码示例和开发指南
模型下载: 通过 HuggingFace 直接下载模型权重
技术论文: 相关研究论文已在 arXiv 发布
社区支持: 提供 Discord 和 Twitter 社区交流渠道

推理加速

模型支持 vLLM 进行推理加速，并提供了 PDF 处理等扩展功能指导。

性能与技术规格

模型大小: 3B 参数
张量类型: BF16
月度下载量: 32,941+（截至统计时）
支持格式: Safetensors

使用方法

环境要求

推理需要在 NVIDIA GPU 上进行，测试环境为 Python 3.12.9 + CUDA11.8：

pip install torch==2.6.0
transformers==4.46.3
tokenizers==0.20.3
einops
addict
easydict
pip install flash-attn==2.7.3 --no-build-isolation

代码示例

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

# 执行推理
res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path=output_path, base_size=1024, image_size=640, crop_mode=True, save_results=True, test_compress=True)

典型应用场景

长文档处理

DeepSeek-OCR 特别适合处理长文档场景，如学术论文、技术文档、书籍章节等，通过视觉压缩大幅提升处理效率。

文档数字化

可将扫描文档、图片中的文字准确识别并转换为可编辑格式（Markdown、文本等）。

多模态应用

作为多模态模型的一部分，为视觉-语言任务提供强大的 OCR 支持。

资源链接

总结

DeepSeek-OCR 代表了 OCR 和文档处理技术的一次重要创新，通过视觉压缩技术解决了长上下文处理中的效率瓶颈。对于需要处理大量文档的开发者、研究者和企业用户，这款模型提供了强大的工具支持。建议感兴趣的开发者通过官方渠道了解更多详情并体验模型能力。

目录CONTENT

DeepSeek-OCR：视觉压缩与智能文档识别模型