Mellum 2:跑在 2.5B 算力上的 12B 代码 MoE 模型
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。
机构
IntelliJ IDEA、PyCharm 的开发商,打造面向 IDE 的开源代码模型 Mellum 系列。
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。