机构

EleutherAI

专注大语言模型与可解释性的草根开放研究社区,产出过 the Pile 数据集、GPT-Neo/GPT-J,以及早期机械可解释性工作。

可解释性 · EleutherAI

稀疏自编码器:从大模型激活里找出可解释特征

在大模型激活上训练一个稀疏自编码器,能把『叠加』拆成单一含义的特征,可解释性强过神经元;还能编辑某个概念(比如撇号规则)看模型行为随之改变。