OCC-RAG:只为忠实读上下文而生的小模型

快速答案

OCC-RAG 是两个极小的语言模型——0.6B 和 1.7B 参数——它们被刻意剥离了对记忆事实的依赖,只用你递给它的文档作答。在多跳问答基准(HotpotQA、MuSiQue、TAT-QA、ConFiQA、MuSiQue-Un)上,它们追平甚至超过体量为其 2 到 6 倍的通用模型,并且每个答案都附带推理轨迹,逐字引用原文出处。训练信号来自一条合成数据管线,生成了超过 300 万条问答样本,专门围绕两个大多数 RAG 模型做不好的行为:忠于上下文,以及在上下文不支持答案时拒答。

「认知核」这个想法

这里的出发点是:一个检索增强模型并不需要「知道」很多,它需要「读得好」。OCC 即 Optimal Cognitive Core(最优认知核),指一族把稳健推理置于参数知识之上的小模型。它押的赌注是:对扎根式问答而言,花在记忆世界事实上的参数大多是浪费的(甚至有害,因为这会诱使模型凭记忆作答,而非凭检索到的段落)。于是 OCC-RAG 被训练成把权重当成推理引擎而非事实库,完全依赖给定上下文。

这个重新定位才是真正有意思的主张。多数「RAG 小模型」工作只是把通用模型缩小,然后指望检索补上知识缺口。OCC 反过来,把小模型针对「检索真正制造出的任务」去优化:读多篇文档、跨文档串联事实、标注每条事实来自哪里,并在文档里没有时直接说「无法回答」。

数据怎么造出来

核心工程是一条能规模化合成多上下文、多跳问答样本的管线——超过 300 万条——并把两个性质硬性编入数据:

上下文忠实: 答案必须能从给定段落推出,以原文逐字引用作为佐证,让模型学会扎根而非回忆。
校准拒答: 一部分样本没有可支撑的答案,训练模型选择弃答,而不是编一个听起来合理的幻觉答案。

0.6B 和 1.7B 两个模型都被训练去输出包含来源引用的推理轨迹——从上下文中原样摘出的文字片段——让读者能审计哪句话推出了哪个论断。这种「以引用作答」的行为,正是让输出可核查、而不只是显得自信的关键。

关键结果

OCC-RAG 在 HotpotQA、MuSiQue、TAT-QA、ConFiQA、MuSiQue-Un 上追平或超过体量为其 2-6 倍的通用模型——也就是说,一个 1.7B 模型在扎根问答上能和约 4B-10B 区间的模型掰手腕。
基准组合刻意挑得很有针对性:HotpotQA 和 MuSiQue 考多跳串联,TAT-QA 考表格加文本推理,ConFiQA 与 MuSiQue-Un 则考反事实和不可回答的情形,专门惩罚凭记忆作答的模型。
数据侧的标志性数字是训练规模:300 万条以上合成问答样本,为忠实与拒答量身定制,而非爬取网络问答。
输出在推理轨迹里自带原文引用,所以忠实度是逐条答案可观察的,而不只是一个汇总指标。

为什么值得关注

现实卖点是成本。一个能忠实读上下文的 0.6B 或 1.7B 模型,可以跑在 CPU 或手机级 GPU 上,这让单次查询的 RAG 便宜到能放进端侧,或扛住 7B+ 模型养不起的高并发场景。拒答训练是多数生产级 RAG 系统缺的那块——一个对无法回答的问题也自信作答的模型,在法律、金融、客服场景里比没用还糟,而 OCC-RAG 把弃答当成一项正式训练出来的能力,而非提示词里临时补的招。

局限与存疑

这个结果天生很窄,而这是把双刃剑。这些模型被造得离开检索就没用——抽掉上下文,一个 0.6B 的「认知核」几乎没有可回退的参数知识,所以质量完全取决于上游的检索器,而这篇论文并没有解决检索本身。「追平或超过 2-6 倍体量的模型」是一个区间,不是每个基准上一个经审计的单一数字,真实差距严重依赖于拿哪个基线、哪个数据集来比。300 万训练样本是合成的,风险在于模型更多学到的是机器生成文本上「扎根作答的风格」,而非真实语料里乱糟糟的检索失败。再者,以引用论忠实,其可靠度只等于引用本身:逐字引用一段话,并不保证基于这些引用的推理就是对的。诚实的判断是:OCC-RAG 是扎根问答上一个很强的效率故事,而不是一个通用小模型——一旦你要它靠自己「知道」东西,它的全部价值就蒸发了。

常见问题

OCC-RAG 是什么,和普通的小模型有何不同?

OCC-RAG 是 0.6B/1.7B 的模型家族,被训练成只依据给定上下文作答、上下文不支持时就拒答。与普通小模型不同,它刻意把对记忆事实的依赖压到最低——它是一台「阅读加推理」的引擎,而非知识库。

OCC-RAG 的模型有多小?

两个尺寸:6 亿和 17 亿参数。论文报告它们在扎根多跳问答上追平或超过体量为其 2 到 6 倍的通用模型。

OCC-RAG 用了哪些基准?

HotpotQA 和 MuSiQue(多跳)、TAT-QA(表格加文本),以及 ConFiQA 和 MuSiQue-Un,后两者包含反事实和不可回答的问题,用来测模型是拒答还是幻觉。

OCC-RAG 会标注来源吗?

会——它输出的推理轨迹里含有从给定上下文逐字摘出的引用,所以每条论断都能追溯到支撑它的那句话。

什么时候不该用 OCC-RAG?

当你需要模型不靠检索、凭自身知识作答时。这些模型设计上几乎不存参数知识,没有好的检索器供给相关上下文,它就没有可靠的东西可推理。

一句话:把参数花在「读」而非「记」上,并把拒答当成一项真本事来训。阅读 arXiv 原文。