以預測逆向動力學模型重新思考模仿學習

Microsoft Research

23 天前

AI 生成摘要

這項研究探討了為什麼預測逆向動力學模型在模仿學習中通常優於標準的行為複製。透過對未來狀況的簡單預測，PIDM 減少了歧義，並能從極少量的演示中進行學習。

重點速覽

當 AI 代理程式理解採取某種行動的原因時，模仿學習會變得更容易。
預測性逆向動力學模型（Predictive Inverse Dynamics Models, PIDMs）透過預測合理的未來狀態，釐清模仿學習過程中行為的方向。
即使是不完美的預測也能減少歧義，使當下哪些行動具有合理性變得更加清晰。
這使得 PIDM 在數據效率上遠高於傳統方法。

模仿學習透過範例來教學 AI 代理程式：向代理程式展示人類執行任務的錄影，並讓其推斷該做什麼。最常見的方法是行為複製（Behavior Cloning, BC），它將此簡化為一個問題：「給定當前的環境狀態，專家會採取什麼行動？」

在實踐中，這是透過監督式學習完成的，其中狀態作為輸入，專家行動作為輸出。雖然原理簡單，但 BC 通常需要龐大的演示數據集，以應對人類行為中自然的變異性，但在現實場景中收集此類數據集可能既昂貴又困難。

預測性逆向動力學模型（PIDMs）透過改變代理程式解讀人類行為的方式，為模仿學習提供了不同的視角。PIDM 不再直接將狀態映射到行動，而是將問題分解為兩個子問題：預測接下來應該發生什麼，以及推斷從當前狀態到達預測未來狀態所需的適當行動。雖然 PIDM 的表現通常優於 BC，但其運作如此出色的原因尚不明確，這促使我們深入研究其性能背後的機制。

在論文「」中，我們展示了這種兩階段方法如何使 PIDM 能夠以遠少於 BC 的演示次數學習到有效的策略。透過將選擇過程建立在合理的未來之上，PIDM 在推論過程中為選擇行動提供了更清晰的基礎。在實踐中，這意味著即使在預測不完美的情況下，PIDM 僅需 BC 所需演示次數的五分之一，即可達到相當的性能。

圖 1. BC 與 PIDM 架構比較。（上）行為複製學習如何執行從當前狀態到行動的直接映射。（下）PIDM 增加了預測未來狀態的狀態預測器。接著，它們使用逆向動力學模型來預測從當前狀態移向該未來狀態所需的行動。兩種方法都透過共享的狀態編碼器共用一個潛在表示（latent representation）。

PIDM 如何重新思考模仿

PIDM 的模仿學習方法由兩個核心要素組成：一個預測合理未來狀態的模型，以及一個預測從現狀移向該未來所需行動的逆向動力學模型（IDM）。PIDM 不再問「專家會採取什麼行動？」，而是有效地詢問「專家會試圖達成什麼目標，以及什麼行動會導向該目標？」這種轉變將當前觀察（例如影片幀）中的資訊轉化為一種連貫的方向感，減少了關於意圖的歧義，使行動預測變得更容易。

換個角度想 (On Second Thought)

這是一個與 Sinead Bovell 合作的影片系列，圍繞著每個人都在問的關於 AI 的問題。透過來自微軟各地的專家聲音，我們剖析了這項快速發展技術的緊張與前景，探索正在演變的事物以及未來的可能性。

3D 遊戲環境中的現實世界驗證

為了在現實條件下評估 PIDM，我們在一個視覺豐富的影片遊戲中，利用人類遊戲演示來訓練代理程式。這些條件包括直接從原始影片輸入進行操作、以每秒 30 幀的速度與複雜的 3D 環境進行即時互動，以及處理視覺偽影和不可預測的系統延遲。

代理程式從頭到尾運行，將影片幀作為輸入，並持續決定按下哪些按鈕以及如何移動搖桿。該模型並非依賴手寫的遊戲變數和規則，而是直接從視覺輸入中運作，利用過去的範例預測接下來會發生什麼，並選擇將遊戲推向該方向的行動。

我們在雲端遊戲平台上進行了所有實驗，這引入了額外的延遲和視覺失真。儘管面臨這些挑戰，PIDM 代理程式始終能與人類的遊戲模式相匹配，並在各項任務中取得高成功率，如下方的影片 1 以及附錄中的影片 2 和 3 所示。

影片 1. 玩家（左）與 PIDM 代理程式（右）並排進行遊戲 Bleeding Edge。兩者導航相同的軌跡，跳過障礙物並與非玩家角色交戰。儘管存在網路延遲，代理程式仍能即時緊跟玩家的時機與動作。

為什麼以及何時 PIDM 優於 BC

當然，AI 代理程式無法獲知未來的結果。它們只能根據現有數據生成預測，而這些預測有時是錯誤的。這為 PIDM 創造了一個核心權衡。

一方面，預期代理程式應該前往的方向可以釐清當下採取什麼行動是合理的。了解預期方向有助於縮小原本模糊的選擇範圍。另一方面，不準確的預測偶爾會引導模型採取錯誤的行動。

關鍵見解在於這些影響並非對稱的。雖然預測錯誤會帶來一些風險，但減少當下的歧義通常更為重要。我們的理論分析顯示，只要預測誤差保持在適度範圍內，即使預測不完美，PIDM 的表現仍優於 BC。如果未來狀態是完全已知的，PIDM 的表現將徹底超越 BC。

在實踐中，這意味著釐清意圖通常比準確預測未來更重要。這種優勢在 BC 難以應對的情況下最為明顯：即人類行為多變，且行動是由潛在目標驅動，而非由螢幕上即時可見的事物驅動。

BC 需要大量演示，因為每個範例都充滿雜訊且存在多種解讀空間。相比之下，PIDM 透過將行動與其旨在達到的未來狀態連結起來，強化了每一次演示。因此，PIDM 可以從少得多的範例中學習到有效的行動策略。

評估

為了在現實條件下測試這些想法，我們設計了一系列實驗，從簡單、可解釋的 2D 環境（見附錄影片 4）開始，最終延伸到複雜的 3D 影片遊戲。我們在非常小的數據集上訓練了 BC 和 PIDM，在 2D 環境中從 1 到 50 次演示不等，在 3D 影片遊戲中則從 5 到 30 次不等。在所有任務中，PIDM 達到高成功率所需的演示次數遠少於 BC。

在 2D 設定中，BC 需要兩到五倍的數據才能達到 PIDM 的性能（圖 2）。在 3D 遊戲中，BC 需要多出 66% 的數據才能達到相當的結果（見附錄影片 5）。

圖 2. 2D 環境中的性能提升。隨著訓練演示次數的增加，PIDM 在所有四項任務中始終比 BC 獲得更高的成功率。曲線顯示平均性能，陰影表示 20 次實驗中的變異性，以確保可重複性。

總結：意圖在模仿學習中至關重要

我們研究的主要訊息很簡單：當意圖明確時，模仿會變得更容易。預測一個合理的未來（即使是不完美的未來），有助於解決關於當下哪些行動合理的歧義，就像駕駛在已經知道道路走向的情況下，在霧中開車會更有信心。PIDM 將模仿學習從純粹的複製轉向目標導向的行動。

這種方法也有其局限性。如果對未來狀態的預測變得過於不可靠，它們可能會誤導模型關於預期的下一步動作。在這些情況下，增加的不確定性可能會抵消減少歧義帶來的好處，導致 PIDM 的表現不如 BC。

但當預測相當準確時，將行動預測重新定義為「我如何從這裡到達那裡？」，有助於解釋為什麼從少量、雜亂的人類數據集中學習會出奇地有效。在數據昂貴且演示有限的場景中，這種視角的轉變可以產生重大的影響。

附錄：視覺化與結果（影片）

玩家、樸素行動重播基準與 PIDM 代理程式遊玩 Bleeding Edge

影片 2.（左）玩家在正常條件下完成任務。（中）基準模型在原始時間戳重播記錄的行動，最初看起來有效。然而，由於遊戲在雲端遊戲平台上運行，隨機的網路延遲很快使重播失去同步，導致軌跡失敗。（右）在相同條件下，PIDM 代理程式的行為有所不同。它不是盲目地重播行動，而是持續解讀視覺輸入，預測行為可能如何展開，並即時調整其行動。這使其能夠修正延遲、從偏差中恢復，並在樸素重播必然失敗的環境中成功重現任務。

玩家與 PIDM 代理程式在 Bleeding Edge 中執行複雜任務

影片 3. 在這段影片中，任務展現了強烈的部分可觀察性：正確的行為取決於該位置是第一次還是第二次訪問。例如，在第一次遇到時，代理程式直接走上斜坡；在第二次時，它向右轉向橋樑。同樣地，它可能在第一次經過時跳過箱子，但在第二次時繞過它。PIDM 代理程式可靠地重現了這條軌跡，利用粗略的未來引導來選擇正確方向的行動。

2D 導航環境視覺化

影片 4. 這些影片展示了四個任務（四房、鋸齒、迷宮和多房）各十次演示。在所有情況下，設置都是相同的：角色（藍色方塊）在環境中移動，必須達成一系列目標（紅色正方形）。疊加的軌跡視覺化了玩家所走的路徑；模型從未看過這些路徑。相反，它們僅觀察角色的當前位置、所有目標的位置，以及每個目標是否已經達成。由於這些演示來自真實玩家，沒有兩條路徑是完全相同的：玩家在過程中會停頓、繞道或修正小錯誤。這種自然的變異性正是模型必須學會處理的。

3D 環境中的 PIDM 與 BC 比較

影片 5. PIDM 代理程式僅使用 15 次訓練演示就達到了 85% 的成功率。BC 代理程式則難以保持在軌道上，成功率停留在 60% 左右。這一對比說明了在訓練數據有限時，這兩種方法的表現有多麼不同。

本貼文最早發佈於。

Rethinking Imitation Learning with Predictive Inverse Dynamics Models