@op7418: DeepSeek 这还没到过年就开始发力了! 发布了升级后的 OCR 2 模型,主要优化是加入模拟人类视觉的“因果推理”机制 将原来的 Clip 模型替换为 LLM 架构模型,用的 Qwen 0....
DeepSeek 这还没到过年就开始发力了! 发布了升级后的 OCR 2 模型,主要优化是加入模拟人类视觉的“因果推理”机制 将原来的 Clip 模型替换为 LLM 架构模型,用的 Qwen 0.5B 看看这两代模型都做了什么👇 ====== 从视觉压缩到因果推理 OCR 1 证明了一件事:视觉可以作为文本的高效压缩形式。 "一张图胜过千言万语"不只是比喻。他们的实验显示,10 个文本 token 压缩成 1 个视觉 token 时,OCR 精度能达到 97%。甚至 20 倍压缩比下还能保留 60% 的精度。 这解决了 LLM 处理长文本计算量大的问题,用视觉模态节省 Token。 ------ OCR 2 要解决的是更本质的问题:阅读顺序。 传统的 Vision Encoder 都是固定的光栅扫描,从左到右,从上到下。但人类看图不是这样的,你会根据内容的语义逻辑跳着看。 复杂排版的文档、表格、公式,空间位置顺序和逻辑阅读顺序根本不一样。OCR 2 就是要让编码器学会这种"因果推理"能力。 ====== 架构升级:用 LLM 替换 CLIP 这是两代模型最大的区别。 OCR 1 的编码器是 SAM + CLIP 串联结构。SAM 负责视觉感知(窗口注意力),CLIP 负责视觉知识(全局注意力)。 OCR 2 把 CLIP 换成了一个紧凑的 LLM(Qwen2 0.5B)。 为什么要这么做?因为 LLM 架构天然具备"因果推理能力"。 ------ 注意力机制的巧妙设计 OCR 2 用了混合注意力机制: ▸ 视觉 Token 之间:双向注意力(类似 ViT),保持全局视野 ▸ 新增的查询 Token(Query):因果注意力(类似 LLM 解码器) 这些 Query 的数量和视觉 Token 一样多,它们的作用是对视觉信息进行语义重排序。 通过定制的注意力掩码,Query 采用三角形掩码,能基于之前的上下文逐步"推理"出下一个视觉信息的重点。就像你看文档时,会先扫标题,再看关键段落,最后才看细节。 ====== 级联因果推理:两步走 OCR 2 的推理过程是级联的: 第一步,编码器通过 Causal Query 对视觉信息进行逻辑重排序。 第二步,解码器(DeepSeek-3B-MoE)再进行文本生成。 这种设计显著提升了文档的阅读顺序准确性。在 OmniDocBench 测试中,阅读顺序编辑距离从 0.085 降到 0.057。 ------ 实际应用中的稳定性也更好。 生产环境的数据清洗任务中,OCR 2 的重复率从 6.25% 降到 4.17%。生成的文本更稳定可靠,不会出现那么多胡言乱语。 ====== 保持高压缩率,提升信息密度 OCR 2 继承了 OCR 1 的高压缩特性。 视觉 Token 数量限制在 256 到 1120 之间(和 Gemini-3 Pro 的预算一致),既保证效率,又通过因果重排序提升了信息密度。 在相同或更少的 Token 预算下,OCR 2 在 OmniDocBench 上的整体性能比 OCR 1 提升了 3.73%。 不是靠堆 Token,而是让每个 Token 都更有价值。