Goodfire 與可解釋性訓練

Lesswrong

22 天前

AI 生成摘要

Goodfire 正在針對可解釋性進行 AI 訓練，儘管該公司聲稱正在管理相關風險，但批評者警告這可能會因優化壓力而導致可解釋性技術失效。

Goodfire 撰寫了關於針對可解釋性進行訓練的一文。

這似乎是的一個實例，而這項技術已被反覆警告過——對可解釋性技術 [T] 施加優化壓力，最終會導致 [T] 的退化。

Goodfire 聲稱他們意識到了相關風險，並且正在管理這些風險。

他們是否有妥善管理這些風險？我很想聽聽你們對此的看法。