The long tail of LLM-assisted decompilation

Hacker News

12 天前

blog.chrislewis.au

the long tail of llm assisted decompilation

背景

本文探討利用大型語言模型（LLM）輔助任天堂 64（N64）遊戲《Snowboard Kids 2》反編譯的實踐過程。作者 Chris Lewis 分享了如何從初期的快速進展到後期陷入瓶頸的轉變，並詳細說明他如何透過向量嵌入技術尋找相似函數、開發專門的 Claude 技能來處理 N64 特有的圖形微指令，試圖突破 LLM 在處理複雜邏輯時的長尾效應。

社群觀點

針對 LLM 介入反編譯領域，Hacker News 社群展現出極高的興趣，但也伴隨著對技術局限性的深刻反思。支持者認為這是一項革命性的工具，特別是對於那些原始碼早已遺失的經典遊戲，如《Red Alert 2》或早期 PC 版本的《Elite》。留言者指出，反編譯過程中最枯燥的任務莫過於將自動生成的變數名稱重新命名為具備語義的名稱，而這正是 LLM 的強項。此外，自動化代理能將每一個函數視為獨立的小型問題，並在短時間內嘗試大量排列組合，這種自動化「苦力活」的能力極大地減輕了人類逆向工程師的負擔。

然而，技術上的質疑聲浪也不小。部分資深開發者認為，N64 的架構相對簡單且編譯器優化程度較低，這使得 LLM 的表現看起來比實際更強。一旦面對現代 amd64 架構或高度優化的 C++ 程式碼，LLM 往往會因為函數過於龐大或控制流過於複雜而迅速失效。有評論者批評這種「純 LLM」的方法忽略了傳統反編譯器數十年來的累積，建議應該先讓傳統工具生成抽象語法樹（AST）或偽代碼，再交由 LLM 進行語義修復與優化，而非直接將彙編指令餵給模型。

關於正確性的爭論也是討論焦點。反編譯並非單純的文字轉換，編譯過程本身是多對一的損失轉換，LLM 生成的程式碼即便在語義上看似合理，也未必能保證與原始二進位檔完全等效。對此，有開發者分享了「差異化測試」的解決方案，透過建立測試框架同時執行原始二進位檔與 LLM 生成的程式碼，利用執行結果的差異作為反饋迴圈，引導模型修正錯誤。這種結合動態追蹤與 LLM 的方法，被認為是目前最能確保反編譯品質的途徑。

最後，社群也討論到訓練數據的缺口。目前多數 LLM 在高階語言與二進位碼之間的對應能力尚可，但對於中間表示層（IR）或特定架構的彙編指令仍顯不足。若能透過編譯器大規模生成「原始碼、彙編、二進位」的對應數據集進行微調，未來 LLM 在逆向工程領域的潛力將更為驚人。

延伸閱讀

在討論中，社群成員分享了多項專業工具與研究資源。針對 N64 與遊戲反編譯，有提到專門針對 Ghidra 輸出的 LLM4Decompile 模型，以及 Super Smash Bros. Melee 的代理反編譯專案 Magic Decomp。學術研究方面，NDSS 2026 論文探討了結合 LLM 與傳統反編譯器優點的新方法。此外，Coddog 與 gfxdis.f3dex2 等工具也被提及作為處理特定指令集與相似度計算的有效手段。