Crafter:多智能体协作生成可编辑科研图表

快速答案

Crafter 是一套五智能体协作框架,驱动图像生成器(默认 Nano Banana 2)产出可发表级别的图表,在 PaperBanana-Bench 上拿到 50.34 分,而同一底座单独跑只有 11.13——约 39 分的提升来自协作调度,而非更大的模型。配套的 CraftEditor 再把位图转成坐标忠实的 SVG,编辑保真度 8.04/10,优于此前最好编辑器的 6.91。核心思路:把一张图当成一组离散的语义部件,让一队智能体反复协商,而不是靠一句提示词一次性出图。

真正的问题:一次出图改不动

文生图模型把科研图表渲染成一摊像素。审稿人一句「箭头挪一下、那个框换个颜色、图例里有错别字」就把人卡死了——像素没法局部编辑,重新提示又会整张重画、带来新错误。而且以往的自动系统各自只能在纯文本输入下处理一种图表类型,会画流程图的工具未必会做海报。

作者的判断是:瓶颈不在图像模型的原始画质,而在缺少一层协调机制。图表是有结构的——框、箭头、文字、图标,各有位置和相互关系。单次前向传播没地方去承载、修改和检查这套结构。

Crafter 的五个智能体怎么协作

Crafter 不靠单条提示词,而是让五个分工智能体围绕一份共享的、带类型的规格(specification)循环工作:

意图推理器(Intent Reasoner) 读入输入(文字、草图或半成品图),生成初始规格。
方案生成器(Plan Generator) 提出多个候选视觉构图,而不是一上来就锁定一种。
评审器(Critic) 按维度返回诊断——位置、颜色、文字、布局——给的是可执行指令,而非一个标量分。这是最关键的设计:一个「7 分」对生成器毫无指导意义,而「图例压住了 y 轴」才有用。
规格精修器(Specification Refiner) 把带类型的修改写回共享规格。
收敛裁判(Convergence Judge) 决定是接受当前图、继续精修,还是回退掉一次糟糕的修改。

因为这些智能体操作的是规格而非像素,同一套框架不改架构就能泛化到不同图表类型和输入条件——差异都装在规格里,而不是代码里。

CraftBench 到底测什么

CraftBench 覆盖三种图表类型——学术配图、海报、信息图——以及四种输入条件:文生图、掩码补全、关键元素合成、草图精修。这个 3x4 网格正是以往工作多半跳过的部分:它逼着系统去处理「把这张画了一半的图补完」和「用给定图标拼出一张图」,而不只是「照一句话画图」。

关键结果

PaperBanana-Bench: Crafter 总分 50.34,对比 PaperBanana 智能体基线的 33.73、Nano Banana 2 底座单跑的 11.13、GPT-Image-2 的 1.37。
CraftBench: Crafter 50.20,对比 PaperBanana 的 28.00、Nano Banana Pro 单跑的 22.40、Nano Banana 2 单跑的 19.90——比最强智能体基线领先约 16 到 22 分。
CraftEditor: 编辑保真度总分 8.04/10(三个 VLM 集成评分,80 个样本),对比 AutoFigure-Edit 的 6.91、Edit-Banana 的 3.69。分轴看:颜色 8.34、位置 8.10、图标 8.07、箭头 7.83、文字 7.61——文字和箭头是最弱的两轴。

为什么现在重要

老实说,Crafter 的价值在于证明:对结构化视觉输出,真正出力的是这套外壳,而不是图像模型本身。同一个 Nano Banana 2 底座,仅仅被套进一个「批评-修改」的规格循环,就从 11.13 涨到 50.34。这有力支撑了 2026 年的一个更大论断——围绕冻结模型搭的智能体脚手架,可能比换一个更大的模型更划算。而且它直接有用:研究者真正需要的是能改的图,而不是改不动的图。

局限与存疑

基准分数最高也就接近 50/100,所以即便最好的系统也更像「能用的草稿」而非「可直接投稿」——这不是 90% 以上的成绩。智能体带来延迟和成本:五个智能体围着规格循环,意味着每张图要调用模型很多次,而论文并未把耗时和金钱成本摆到台前。CraftEditor 的 SVG 转换依赖 SAM3 做接地,且恰恰在科研图表最吃紧的地方最弱——文字(7.61)和箭头(7.83)。作者还指出 PDF 文本抽取只有对 LaTeX 渲染的 PDF 才干净,扫描件或密集双栏论文可能要先手动抽文。另外这里所有数字都来自 VLM 当裁判的评分,这可能奖励「在模型看来对」的图,而非真正正确的图。

常见问题

Crafter 是什么,它怎么生成科研图表?

Crafter 是一套多智能体框架,用五个协作智能体——意图推理器、方案生成器、评审器、规格精修器、收敛裁判——围绕一份共享的带类型规格驱动图像生成器。它能生成学术配图、海报和信息图,在 PaperBanana-Bench 上拿到 50.34 分,而原始底座只有 11.13。

Crafter 比底层图像模型强多少?

在 PaperBanana-Bench 上,Crafter 得 50.34 分,而同款 Nano Banana 2 底座单跑只有 11.13——约 39 分的提升完全来自智能体循环,底层图像模型没有任何改动。

CraftEditor 比普通图像编辑器多了什么?

CraftEditor 通过抽取、接地(借助 SAM3)、合成三步,把位图转成坐标忠实的可编辑 SVG,因而能逐个元素地挪位、换色、改字。它的编辑保真度为 8.04/10,优于此前最好编辑器的 6.91。

Crafter 默认用哪些模型?

默认情况下 Crafter 用 Claude Opus 作 LLM、Gemini Pro 作 VLM、Nano Banana(Gemini 图像生成)作图像底座,并可选经 Azure 或 OpenRouter 接入 GPT-Image 变体。

阅读 arXiv 原文与 GitHub 代码。