COLLEAGUE.SKILL:把一个人的专长蒸馏成可移植 AI 技能

快速答案

COLLEAGUE.SKILL 是一条自动化管线,把一个人异构的工作痕迹——文档、决策、消息记录——蒸馏成 AI agent 可安装的带版本技能包。每个技能包有两条相互配合的轨道:能力轨道(做事的实践、心智模型、决策启发式)与受限行为轨道(沟通风格、交互规则,以及一份纠正历史)。技能包可被审查、用自然语言反馈编辑、按版本回滚,并能跨不同 agent 宿主移植。截至论文写作时,该开源系统报告约 1.85 万 GitHub star,技能库收录 215 个技能、来自 165 位贡献者。

它瞄准的缺口

多数「让 agent 像某人一样工作」的尝试,只抓住了两个残缺的半边。记忆系统囤积一个人做过什么的碎片,却从不把它们编译成可复用的东西;人设提示词手写一份性格,既无真实工作的支撑,也没有偏离时纠正它的办法。而技能打包格式(那种以指令文件夹形式发布的)定义了一个干净的容器,却对「如何用混乱的人类证据把它填满」只字不提。COLLEAGUE.SKILL 补的正是中间这一段:把原始专家材料喂进去、吐出一个结构化且可纠正的产物的「痕迹到技能」蒸馏环节。

双轨技能包怎么运作

关键的设计取舍,是把「一个人能做什么」和「他怎么做」拆开。能力轨道捕捉可迁移的本事——专家用的启发式、决策背后的心智模型、他遵循的标准做法。受限行为轨道捕捉交互层——语气、他坚持的规则,以及关键的一份持续纠正日志。「受限」是关键词:行为被要求待在明确、可审计的边界内,而不是凭感觉自由发挥。

围绕这个产物的是一整套生命周期,而非一次性生成。你可以审查技能包,看清它为何这样表现;在 agent 里调用它;打一句自然语言反馈来更新它(「你解释太啰嗦——简短点」);某次编辑越改越糟时回滚到上一版本;跨不同 agent 宿主安装;并可选地为受控分发做准备。论文把这套机制框定为「产物契约 + 纠正生命周期」,并为常见角色提供了领域预设。

为什么此刻重要

agent 技能格式在 2025–2026 年走向主流,紧接着的显眼难题就是「怎么写」:手写一个好技能很慢,而且没有一套有原则的办法,从一个真人实际怎么工作中推导出技能。COLLEAGUE.SKILL 的赌注是:有价值的单元不是一段冻结的提示词,也不是一个藏起来的记忆库,而是一个可纠正的技能包——你能像读代码一样读它、做 diff、回退。这把「以人为本的 agent」重构成了一个受版本管理的产物问题,比反复调提示词要可维护得多。

关键结果

公开仓库在论文写作时报告约 1.85 万 GitHub star——是真实世界的采用,而非实验室演示。
技能库列出 215 个技能、165 位贡献者,说明这个格式正被许多人共同书写,而不只是原团队。
列出的技能卡片累计报告 超过 10 万 star,表明分发出去的技能本身也吸引了关注。
产物是双轨且带版本的:每个技能包都把能力与受限行为分开,并保留一份支持回滚的纠正历史。

局限与存疑

这些标题数字是采用指标,而非质量度量。1.85 万 star 和 215 个社区技能说明人们觉得这工具值得装,却不告诉你蒸馏出的技能是否真能复现专家的判断、纠正多久需要一次、技能包相对某个基线表现如何。摘要里没有报告任何基准测试、对照人类研究或任务成功率比较——所以核心主张(「agent 能承载受限的人类专长」)是靠一个可用系统和社区采用证明的,而非靠可度量的还原度。还有两个更难的问题悬而未决:蒸馏一个真人的痕迹,牵出系统的「受控分发」只是略微提及的同意与肖像问题;而「受限行为」的安全程度,只取决于有人记得去写下哪些边界。把它当作一个被广泛采用的工程产物和一个有用的设计范式,而不是「专长能干净迁移」的证明。

常见问题

COLLEAGUE.SKILL 到底生成什么?

一个带版本的技能包,含两条轨道:能力轨道存放实践、心智模型和决策启发式;受限行为轨道存放沟通风格、交互规则和一份纠正历史。它被设计成可审查、可调用、可用自然语言纠正、可回滚,并能跨 agent 宿主安装。

COLLEAGUE.SKILL 和人设提示词、记忆系统有什么不同?

人设提示词是手写的,既无真实工作支撑也无纠正路径;记忆系统只存碎片,从不把它们编译成可复用单元。COLLEAGUE.SKILL 把真实专家痕迹蒸馏成结构化、受版本管理的技能包,你能像代码一样读、改、回退。

COLLEAGUE.SKILL 开源吗?有多火?

是开源系统。截至论文写作时,它报告约 1.85 万 GitHub star,技能库收录 215 个技能、165 位贡献者,列出的技能卡片累计超过 10 万 star。

COLLEAGUE.SKILL 证明 AI 能复刻人类专家了吗?

没有。报告的数字是采用指标,不是还原度度量。论文展示了一条可用的「痕迹到技能」管线和强劲的社区采用,但没有提供任何衡量「蒸馏技能多大程度复现原人判断」的基准或人类研究。

一句话:它把一个人的专长当成可纠正、受版本管理的技能包,而非不透明的提示词或藏起来的记忆。阅读 arXiv 原文。