专家混合 · Renmin University of China
Manifold Power Iteration:让 MoE 路由器更懂专家
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
主题
稀疏激活部分参数,让模型容量增长而算力不必同比上升。
专家混合 · Renmin University of China
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
专家混合 · National University of Singapore
dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码:在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6,保留 99.11% 精度,专家显存省 76-80%。
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。
MinT 让一个前沿基座常驻显存、只换 LoRA 适配器,把换模型这一步在 4B 稠密模型上提速 18.3 倍、30B MoE 上提速 2.85 倍,目标管理百万级适配器目录。
Mixtral 每层从 8 个专家中只选 2 个,共 47B 参数、每 token 仅约 13B,以 Apache 2.0 开源,持平或超过 Llama 2 70B 和 GPT-3.5。
SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。
Switch Transformer 把混合专家简化为每个词只路由到一个专家,在同等算力下让 T5 预训练最高快 7 倍,并用 bfloat16 训练把稀疏模型扩到 1.6 万亿参数。