微调与适配 · 专家混合 · 高效 AI

MinT:训练与服务百万级 LoRA 大模型的基础设施

MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。

MinT:训练与服务百万级 LoRA 大模型的基础设施

快速答案

MinT 是 Mind Lab 的训练与服务基础设施:让单个前沿基座模型常驻 GPU 显存,把每个微调后的大模型当作可热插拔的 LoRA 适配器,而不是一整套权重。由于在 rank-1 配置下适配器可小到基座的 1% 以下,MinT 把昂贵的「加载一个新模型」换成「挂上一个新适配器」——实测在 4B 稠密模型上快 18.3 倍、在 30B MoE 上快 2.85 倍。它面向约 10^6 量级的适配器目录设计,并在超过 1 万亿参数的架构上做了验证。

要解决的问题:百万个模型,一套 GPU

如果你要给众多租户提供个性化或任务专用的大模型,最朴素的做法——每个场景一整个模型——根本撑不住规模。一个前沿稠密或 MoE 模型的权重从几百 GB 到上 TB;每次请求都把它换进换出显存,延迟会被这一步吃掉,而存一百万个变体更是天方夜谭。MinT 的赌注是:这些「不同的模型」多数其实是同一个基座加一个很小的 LoRA 增量,所以基座应当原地不动,只让增量流动。这把整个服务问题从「管理百万个模型」重构成了「在一个共享骨干上管理百万个小适配器」。

MinT 到底怎么做

MinT 沿三条轴线扩展共享基座路径。第一,仅换适配器的切换:不再拆掉一个模型再加载另一个,而是让活跃引擎保持基座常驻、只切换当前 LoRA,于是每次切换的代价坍缩为搬动适配器张量。第二,打包式 MoE LoRA 加载:MoE 模型让记账量翻倍,因为每个专家都可能带自己的适配器分片,MinT 把这些张量打包,使活跃引擎的加载比未打包路径快 8.5-8.7 倍。第三,并发多策略优化:MinT 能在共享基座上同时训练多个 LoRA 策略——对一波适配器并行跑 GRPO 式更新——而不是一个模型一个任务地串行。

设计还覆盖了真实的注意力变体(论文涉及 MLA/DSA 式路径与张量并行部署),这点很关键:一个只在单一注意力布局上能用的系统,根本经不起前沿 MoE 技术栈的考验。

关键结果

  • 仅换适配器的切换在 4B 稠密模型上快 18.3 倍、在 30B MoE 上快 2.85 倍(相对整模型重载基线)——这是头条数字,也是整套系统值得做的理由。
  • 打包后的 MoE LoRA 张量加载进活跃引擎比未打包布局快 8.5-8.7 倍
  • 并发多策略 GRPO 把墙钟时间在稠密模型上缩短 1.77 倍、在 MoE 上缩短 1.45 倍(相对逐个跑策略)。
  • MinT 面向约 10^6 量级的适配器目录,以 10 万次单引擎测量扫描为支撑,并在集群规模下跑 1,000 个并发适配器波次。
  • 它在超过 1 万亿参数的前沿架构上完成验证,rank-1 配置下适配器保持在基座的 1% 以下。

为什么现在重要

稠密与 MoE 之间的提速差距,是论文里最诚实的信号。4B 稠密 18.3 倍对 30B MoE 2.85 倍,精确地告诉你收益从哪来:每次切换中基座代价相对适配器搬运越小,换模型省下的就越多,而 MoE 路由加更大的权重会侵蚀这部分收益。训练里也是同一规律——稠密 1.77 倍对 MoE 1.45 倍。所以 MinT 最有说服力的场景是个性化经济:众多租户、众多窄域微调、一个贵到不能逐请求重载的基座。这正是多租户 LoRA 服务一直在走的方向,而 MinT 是在大多数前期系统未瞄准的规模(百万适配器、万亿参数基座)上给出的基础设施答案。

局限与存疑

最大的注意点是「百万个大模型」到底指什么:这些是共享基座之上的 LoRA 适配器,而非一百万个独立训练的模型。如果两个场景真的需要不同的基座权重,MinT 的核心招数就失效了——提速以共享基座假设成立为前提。这百万个适配器的质量也不在本文范围内;这是一篇基础设施论文,衡量的是吞吐与切换延迟,而不是某个 rank-1 适配器在特定任务上是否够好。MoE 的数字(切换 2.85 倍、训练 1.45 倍)是真实的,但明显小于稠密头条值,跑大 MoE 基座的买家应按 MoE 数字设预期,而不是 18.3 倍。最后,头条规模数字(10^6 目录、1,000 并发波次、1T+ 参数)描述的是系统设计要面向并验证的能力,应当看作工程容量主张,而非保证每个负载都吃到最佳提速。

常见问题

MinT 是什么,解决什么问题?

MinT 是 Mind Lab 的基础设施,通过让一个基座常驻、只换 LoRA 适配器来训练与服务百万级大模型。它解决的是服务大量专用模型的成本:每次请求重载整个前沿模型,远慢于挂一个小适配器。

MinT 的适配器切换快多少?

MinT 仅换适配器的切换,实测在 4B 稠密模型上比重载整模型快 18.3 倍、在 30B MoE 上快 2.85 倍。稠密提升更大,是因为它省掉的基座切换代价在那里占比更高。

MinT 真的训练了一百万个独立模型吗?

没有。MinT 面向约 10^6 量级的 LoRA 适配器目录,这些适配器共享一个基座,而非一百万套独立训练的权重。「百万级大模型」指的是适配器变体,每个通常小于基座的 1%。

MinT 在 MoE 和万亿参数模型上能用吗?

能。MinT 在超过 1 万亿参数的前沿稠密与 MoE 架构上完成验证,并打包 MoE LoRA 张量使加载快 8.5-8.7 倍;不过它在 MoE 上的切换与训练提速(2.85 倍与 1.45 倍)小于稠密模型。

一句话:让基座常驻、只搬适配器,服务百万个微调大模型就变成了适配器管理问题。阅读 arXiv 原文