newsence
來源篩選

AIs can generate near-verbatim copies of novels from training data

Hacker News

Recent studies reveal that major AI models can be prompted to regurgitate near-verbatim copies of copyrighted novels, challenging the industry's defense that these systems do not store training data.

newsence

AI 可從訓練數據中生成近乎逐字複製的小說內容

Hacker News
5 天前

AI 生成摘要

近期研究顯示,主流 AI 模型可被誘導生成與受版權保護小說近乎逐字相同的內容,這挑戰了業界聲稱系統不會儲存訓練數據的辯護立場。

背景

近期由史丹佛大學與耶魯大學研究人員發表的一項研究指出,包括 OpenAI、Google、Anthropic、Meta 及 xAI 在內的主流大型語言模型(LLM),皆能被誘導輸出與原著幾乎一字不差的暢銷小說內容。這項發現挑戰了 AI 產業長期以來宣稱模型僅是「學習」而非「儲存」版權資料的防禦立場,並在法律界與科技界引發了關於版權侵權與模型訓練本質的激烈辯論。

社群觀點

在 Hacker News 的討論中,許多開發者認為這項研究結果並不令人意外,甚至帶有一種理所當然的既視感。部分觀點指出,若將大型語言模型視為機率預測機器,那麼原著小說本身就是一種極高機率的標記序列組合,理論上只要給予正確的提示詞,模型輸出該序列是必然的結果。這種觀點將 LLM 視為一種極其高效且帶有損耗的壓縮演算法,其權重中實際上編碼了訓練數據的內容。有網友將此比喻為資料庫查詢,認為如果模型權重中存有內容,那麼透過提示詞將其提取出來,本質上與從硬碟讀取資料無異,開發者不能將責任推給下達指令的使用者。

然而,關於「越獄」與「對齊」的爭論成為社群焦點。部分評論者認為,研究中提到的 Claude 3.7 等模型需要透過越獄手段才能產出內容,這代表開發商已經建立了保護機制。如果使用者必須刻意繞過安全防線才能獲取版權內容,那麼法律責任應歸屬於使用者而非模型本身。但反對者駁斥了這種邏輯,認為版權侵權在模型未經授權下載並訓練的那一刻就已經發生,事後的安全護欄只是在掩蓋違法事實,並不能改變模型內部存有非法副本的本質。更有網友指出,像 Gemini 或 Grok 甚至不需要越獄就能直接續寫小說,這顯示目前的保護機制極其脆弱。

另一派討論則聚焦於人類學習與機器記憶的類比。支持 AI 產業的人士常辯稱,人類閱讀小說後也能憑記憶背誦片段,這並不違法。但社群中很快有法律背景的網友反擊,指出版權法保護的是作品在物質媒介上的重製,人類大腦的生物神經元不被法律視為物質媒介,但電腦硬碟與模型權重則是明確的物理儲存。此外,人類背誦小說通常不具備大規模商業分發的能力,而 AI 模型則能以極低成本、大規模地重製作品,這種規模上的差異使得「人類學習」的類比在法律實務上顯得蒼白無力。

最後,社群也對這類研究的實際影響力表示保留。有觀點認為,花費上百美金的算力成本去誘導模型產出不完全準確的小說內容,其效率遠低於直接購買電子書,因此在商業損害上可能難以構成強有力的指控。但對於版權持有者而言,這項研究提供了關鍵的技術證據,證明其作品確實被完整地吸納進了這些黑盒子中,這將成為未來版權訴訟中難以迴避的技術事實。

延伸閱讀

在討論中,有網友推薦閱讀阿根廷作家波赫士(Jorge Luis Borges)的短篇小說《波德萊爾的作者皮耶·梅納德》(Pierre Menard, Author of the Quixote),該作品探討了重複創作相同文本的哲學意義,被認為與當前 LLM 重製文本的爭議有著奇妙的呼應。此外,相關技術細節可參考研究論文原文:Extracting Training Data from Large Language Models (arXiv:2601.02671)。