newsence
來源篩選

Goodfire and Training on Interpretability

Lesswrong

Goodfire is training AI on interpretability, a move critics warn could degrade interpretability techniques through optimization pressure, though the company claims to be managing these risks.

newsence

Goodfire 與可解釋性訓練

Lesswrong
22 天前

AI 生成摘要

Goodfire 正在針對可解釋性進行 AI 訓練,儘管該公司聲稱正在管理相關風險,但批評者警告這可能會因優化壓力而導致可解釋性技術失效。

Goodfire 撰寫了關於針對可解釋性進行訓練的一文。

這似乎是的一個實例,而這項技術已被反覆警告過——對可解釋性技術 [T] 施加優化壓力,最終會導致 [T] 的退化。

Goodfire 聲稱他們意識到了相關風險,並且正在管理這些風險。

他們是否有妥善管理這些風險?我很想聽聽你們對此的看法。