@op7418: DeepSeek 这还没到过年就开始发力了！发布了升级后的 OCR 2 模型，主要优化是加入模拟人类视觉的“因果推理”机制将原来的 Clip 模型替换为 LLM 架构模型，用的 Qwen 0....

Twitter

2026-01-27T04:58:53.000Z

DeepSeek 这还没到过年就开始发力了！发布了升级后的 OCR 2 模型，主要优化是加入模拟人类视觉的“因果推理”机制将原来的 Clip 模型替换为 LLM 架构模型，用的 Qwen 0.5B 看看这两代模型都做了什么👇 ====== 从视觉压缩到因果推理 OCR 1 证明了一件事：视觉可以作为文本的高效压缩形式。 "一张图胜过千言万语"不只是比喻。他们的实验显示，10 个文本 token 压缩成 1 个视觉 token 时，OCR 精度能达到 97%。甚至 20 倍压缩比下还能保留 60% 的精度。这解决了 LLM 处理长文本计算量大的问题，用视觉模态节省 Token。 ------ OCR 2 要解决的是更本质的问题：阅读顺序。传统的 Vision Encoder 都是固定的光栅扫描，从左到右，从上到下。但人类看图不是这样的，你会根据内容的语义逻辑跳着看。复杂排版的文档、表格、公式，空间位置顺序和逻辑阅读顺序根本不一样。OCR 2 就是要让编码器学会这种"因果推理"能力。 ====== 架构升级：用 LLM 替换 CLIP 这是两代模型最大的区别。 OCR 1 的编码器是 SAM + CLIP 串联结构。SAM 负责视觉感知（窗口注意力），CLIP 负责视觉知识（全局注意力）。 OCR 2 把 CLIP 换成了一个紧凑的 LLM（Qwen2 0.5B）。为什么要这么做？因为 LLM 架构天然具备"因果推理能力"。 ------ 注意力机制的巧妙设计 OCR 2 用了混合注意力机制： ▸ 视觉 Token 之间：双向注意力（类似 ViT），保持全局视野 ▸ 新增的查询 Token（Query）：因果注意力（类似 LLM 解码器）这些 Query 的数量和视觉 Token 一样多，它们的作用是对视觉信息进行语义重排序。通过定制的注意力掩码，Query 采用三角形掩码，能基于之前的上下文逐步"推理"出下一个视觉信息的重点。就像你看文档时，会先扫标题，再看关键段落，最后才看细节。 ====== 级联因果推理：两步走 OCR 2 的推理过程是级联的：第一步，编码器通过 Causal Query 对视觉信息进行逻辑重排序。第二步，解码器（DeepSeek-3B-MoE）再进行文本生成。这种设计显著提升了文档的阅读顺序准确性。在 OmniDocBench 测试中，阅读顺序编辑距离从 0.085 降到 0.057。 ------ 实际应用中的稳定性也更好。生产环境的数据清洗任务中，OCR 2 的重复率从 6.25% 降到 4.17%。生成的文本更稳定可靠，不会出现那么多胡言乱语。 ====== 保持高压缩率，提升信息密度 OCR 2 继承了 OCR 1 的高压缩特性。视觉 Token 数量限制在 256 到 1120 之间（和 Gemini-3 Pro 的预算一致），既保证效率，又通过因果重排序提升了信息密度。在相同或更少的 Token 预算下，OCR 2 在 OmniDocBench 上的整体性能比 OCR 1 提升了 3.73%。不是靠堆 Token，而是让每个 Token 都更有价值。

Loading

Fetching article data

@op7418: DeepSeek 这还没到过年就开始发力了！ 发布了升级后的 OCR 2 模型，主要优化是加入模拟人类视觉的“因果推理”机制 将原来的 Clip 模型替换为 LLM 架构模型，用的 Qwen 0....

Loading

@op7418: DeepSeek 这还没到过年就开始发力了！发布了升级后的 OCR 2 模型，主要优化是加入模拟人类视觉的“因果推理”机制将原来的 Clip 模型替换为 LLM 架构模型，用的 Qwen 0....