主题

专家混合

稀疏激活部分参数,让模型容量增长而算力不必同比上升。

专家混合 · Renmin University of China

Manifold Power Iteration:让 MoE 路由器更懂专家

MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。

专家混合 · National University of Singapore

dMoE：扩散语言模型的块级专家路由

dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码：在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6，保留 99.11% 精度，专家显存省 76-80%。

代码生成 · JetBrains

Mellum 2:跑在 2.5B 算力上的 12B 代码 MoE 模型

JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。

微调与适配 · Mind Lab

MinT:训练与服务百万级 LoRA 大模型的基础设施

MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。

开放模型 · Mistral AI

Mixtral of Experts:跑得像 13B 的 47B 稀疏专家模型

Mixtral 每层从 8 个专家中只选 2 个,共 47B 参数、每 token 仅约 13B,以 Apache 2.0 开源,持平或超过 Llama 2 70B 和 GPT-3.5。

多模态模型 · SenseTime

SenseNova-U1:一个模型同时做多模态理解与生成

SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。

专家混合 · Google Research

Switch Transformer:每个词只走一个专家,参数冲上万亿

Switch Transformer 把混合专家简化为每个词只路由到一个专家,在同等算力下让 T5 预训练最高快 7 倍,并用 bfloat16 训练把稀疏模型扩到 1.6 万亿参数。