
(来源:PaperWeekly)线上配资平台

还记得 DeepSeek OCR 刚发布时引发的轰动吗?通过将文本转换为图像再进行压缩,实现了 10 倍的 token 压缩率,同时保持 97% 的 OCR 准确率。这一创新让整个 AI 圈为之振奋,各大自媒体纷纷报道这一“王炸”级别的技术突破。
然而,就在 DeepSeek OCR 的热度还未消退之际,我们重新审视 DeepSeek OCR 的视觉压缩路径,视觉压缩路径的工作原理是:文本 → 图像 → 视觉 Token → 语言模型。
这个过程虽然巧妙,但我们发现了一个关键问题:信息压缩的本质可能不在于“文本变图像”这一步,而在于 latent tokens 本身就是比离散文本 token 更高效的信息表示方式。
基于这一洞察,我们提出了 Context Cascade Compression(C3)更直接的方案:文本 → 文本 Latent Tokens → 语言模型。
这一设计也与最近大家广为讨论的Language Models are Injective and Hence Invertible论文中指出的 latent token 可以 0 反推输入文本,llm 是无损压缩,不谋而合。
它不仅在性能上全面超越了 DeepSeek OCR,而且其设计避免了布局、颜色、视觉编码器等视觉因素带来的信息损失。为后续的 ocr 工作的视觉 token 数量选和视觉压缩相关工作提供了参考上限。
实验表明,C3 在 20x 压缩比下精度达 98%,远超 DeepSeekOCR 的 60%;即使 40x 压缩仍保持 93% 精度。并且错误模式分析发现其信息损失呈序列性,而非光学方法的均匀模糊,更类似人类记忆衰减。并且代码模型均已开源。

论文链接:
https://arxiv.org/pdf/2511.15244
代码链接:
https://github.com/liufanfanlff/C3-Context-Cascade-Compression
模型链接:
https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression

架构
在介绍 C3 之前,我们先来了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一种创新的"视觉压缩"思路,这种方法的优势在于利用了视觉编码器强大的特征提取能力,但也面临着图像布局复杂性、低分辨率下的模糊等固有限制。
C3 提出了一个更直接的压缩思路:跳过视觉中介,没有中间商赚差价,直接在文本域进行压缩。其核心架构包括:
1. 双 LLM 级联设计
小型 LLM(算力消耗低)作为压缩编码器,压缩上下文信息。
大型 LLM(推理生成能力强)作为解码器执行下游任务。
2. 压缩机制
引入可学习的“上下文查询”(Context Query)嵌入
将长文本压缩为固定长度的潜在 token(如 32 或 64 个)。
完全保留预训练 LLM 的语言压缩能力


性能表现
在 Fox 基准测试中,C3 展现出显著优势:

压缩场景 | DeepSeek-OCR | C3 | 提升幅度 |
10倍压缩 | 97%精度 | 99.5%+精度 | C3基本无损 |
20倍压缩 | 约60%精度 | 98.4%精度 | 提升38个百分点 |
40倍压缩 | 性能严重下降 | 93.3%精度 | 开辟新领域 |
在 1200-1300 个文本 token 压缩为 64 个潜在 token(约 20 倍压缩)时,C3 保持 98.4% 精度,而 DeepSeek-OCR 降至 59.1%。
即使在极限的 40 倍压缩率下(32 个潜在 token),C3 仍能维持 93% 以上的重建精度。

独特的“遗忘模式”:更接近人类记忆

研究还发现了 C3 的一个有趣特性:当压缩率过高导致信息损失时,错误往往集中在文本末尾,呈现序列性信息衰减。这与光学压缩方法的“全局模糊”不同,反而更类似人类记忆的渐进式遗忘过程。
这种特性使得 C3 在实际应用中更具可预测性——重要信息可以优先放置在文本前部,确保关键内容的完整保留。
测试:

无论是在长英文文本还是中文古文上均做到了近乎完美的压缩还原
甚至对于 llm 一直难以处理的乱序文本也能精准还原

应用前景
1. 超长上下文处理:C3 可作为现有 LLM 的"前端压缩器",将百万级 token 的输入(如整本书籍、大型代码库)压缩到可处理范围,降低计算成本。
2. 多模态:级连轻量级 VLM 和 LLM,轻量级 VLM 作为视觉 encoder 进行信息压缩,处理视觉信息丰富的长文档等。
3. 下一代模型的基础组件:C3 的编码-解码架构可直接应用于扩散语言模型和潜在自回归模型,将可变长度文本转换为固定长度潜在表示。
需要指出的是,C3 并非要取代 DeepSeek-OCR,而是探索了文本压缩的另一条路径。DeepSeek-OCR 在 OCR 任务和视觉-语言桥接方面仍具有独特价值。
C3 的研究实际上为光学字符压缩、OCR 等领域提供了理论上限的参考基准。正如论文作者所言,C3 采用了更简化的纯文本管道,忽略了布局、颜色等因素,因此能够探索压缩率的上限。这为未来的光学压缩工作指明了优化方向。

开源共享
C3 的代码和模型权重已在 GitHub 公开发布,C3 项目在人力,算力,数据等均受限的情况下开发。我们期望更多人在 C3 基础上继续开发,释放其潜力。

结语
从 DeepSeek-OCR 的 10 倍压缩到 C3 的 40 倍压缩,中国 AI 研究者正在文本压缩领域不断突破技术边界。这些进展不仅具有学术价值,更将为降低大模型应用成本、提升处理效率带来实质性帮助。技术的进步从来不是孤立的,而是在相互启发中螺旋上升。
更多阅读



#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
]article_adlist-->🔍 ]article_adlist-->现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

海量资讯、精准解读,尽在新浪财经APP
联华证券提示:文章来自网络,不代表本站观点。