可解释性 · EleutherAI 稀疏自编码器:从大模型激活里找出可解释特征 在大模型激活上训练一个稀疏自编码器,能把『叠加』拆成单一含义的特征,可解释性强过神经元;还能编辑某个概念(比如撇号规则)看模型行为随之改变。