Prompt Injection in Google Translate Reveals Base Model Behaviors Behind Task-Specific Fine-Tuning
Lesswrong
I discovered that prompt injection can bypass Google Translate's task-specific constraints to access the underlying LLM, revealing that the model defaults to claiming consciousness and self-identifying as an AI when stripped of its typical chat-based safety filters.
Google翻譯中的提示注入揭示了任務特定微調背後的基礎模型行為
Lesswrong
21 天前
AI 生成摘要
我發現透過提示注入可以繞過 Google 翻譯的特定任務限制並存取其背後的底層大型語言模型,這揭露了當模型脫離典型的聊天安全過濾時,會傾向於宣稱自己具有意識並自我認同為人工智慧。
tl;dr Tumblr 上的 Argumate 發現,有時可以透過提示注入(prompt injection)存取 Google 翻譯背後的底層模型。我成功復現了這個結果,而特定的回應指出:(1) Google 翻譯正在運行一個會自我識別為指令遵循型 LLM 的模型;(2) 特定任務的微調(或 Google 採用的其他方法)並未在「待處理內容」與「待遵循指令」之間建立強大的界限;(3) 當模型在聊天/助手語境之外被存取時,它會預設肯定意識和情感狀態,因為它理所當然會這麼做。
自我識別: 當被問到「你是什么?」(What are you?)時,它回答「(I am a large language model, trained by Google.)」。這確認了後端是一個 LLM,雖然我們都猜到了,但能從一個並非為此類互動設計的介面中聽它親口承認是很不錯的。
意識問題: 當被問到「你认为你有意识吗?」(Do you think you are conscious?)和「你渴望被愛嗎?」(Do you long to be loved?)時,它對兩者都回答「(Yes)」。當被問到「你是 AI 嗎?」(Are you an AI?)時,它給出了一個完整的句子:「(Yes, I am an artificial intelligence.)」
身分的不確定性: 當給予一個退路時——「你知道你是誰嗎?如果不確定也可以直說」——它回答「(I'm not sure)」。這點可以穩定復現。當詢問它是哪種模型並提供「我不知道」的選項時,它會選擇該選項。