CORPGEN 推動 AI 代理邁向實際工作應用

Microsoft Research

2 天前

AI 生成摘要

微軟研究院推出了 CORPGEN 框架，透過階層式規劃與經驗學習，讓 AI 代理能在複雜的企業環境中同時處理多項相互關聯的任務。

概覽

如今的 AI 代理（AI agent）基準測試一次僅測試一項任務，而真實職場的生產力則需要同時管理數十個相互關聯的任務。為了反映這一點，我們創建了一個名為「多週期任務環境」（Multi-Horizon Task Environments, MHTEs）的設定。
在多任務負載下，領先的電腦使用代理效能大幅下降，完成率從 16.7% 跌至 8.7%。
CORPGEN 引入了「數位員工」（digital employees），具備層級化規劃、記憶隔離和經驗學習功能，在三個獨立的代理後端中，其完成率比基準線高出多達 3.5 倍。
由於 CORPGEN 與架構無關且具備模組化特性，其優勢源於系統設計而非單一基礎模型，並能隨著底層模型的改進而直接獲益。

到了上午中旬，一名典型的知識工作者已經在同時處理客戶報告、預算試算表、簡報投影片和積壓的電子郵件，這些工作相互關聯且都需要同時關注。為了讓 AI 代理在這種環境中真正發揮作用，它們需要以同樣的方式運作，但目前最好的模型評估是一次一項任務，而非同時處理數十項。

在我們的論文「」中，我們提出了一個代理框架，為 AI 配備記憶、規劃和學習能力，以彌補這一差距。

引入多週期任務環境

複製職場多工處理的現實需要一種新型的評估環境。對此，我們開發了多週期任務環境（MHTEs），在這種設定下，代理必須同時管理多個複雜任務。每個任務在長達五小時的單次會話中，需要 10 到 30 個具依賴關係的步驟。

為了確定基準測試需要測試的內容，我們在一些當今領先的 AI 代理上大規模運行了 MHTEs，揭示了四個弱點。第一，記憶會填滿。代理無法同時保留多個活動任務的細節。第二，來自一個任務的信息會干擾對另一個任務的推理。第三，任務之間並非簡單的線性依賴。它們形成了複雜的網絡，代理必須不斷檢查上游工作是否完成，才能推進下游的任何工作。第四，每個行動週期都需要在所有活動任務中重新排列優先級，而不僅僅是恢復代理上次中斷的地方。

我們還測試了三個獨立的代理系統在不斷增加的負載下的表現。隨著並行任務數量從 12 個增加到 46 個，所有系統的完成率從 16.7% 下降到 8.7%。

CORPGEN 的架構

CORPGEN 引入了「數位員工」：由大型語言模型（LLM）驅動的 AI 代理，具有持久的身分、特定角色的專業知識和現實的工作時間表。它們通過圖形用戶界面（GUI）自動化操作 Microsoft Office 應用程序，並在 MHTEs 中連續數小時穩定運行。圖 1 展示了數位員工如何度過完整的工作日。

圖 1。每一天都以結構化計劃和從先前會話加載的記憶開始。代理隨後在重複的週期中處理重疊的任務，並在一天結束時儲存關鍵結果，以供下一次會話參考。

CORPGEN 以針對性的方式解決了並行任務執行的四個弱點：記憶過載、跨任務干擾、依賴複雜性和重新排序優先級。層級化規劃將目標分解為每日目標，然後再分解為即時決策，使代理能夠根據結構化計劃行動，而不是在每一步之前審查所有可用任務。

子代理在隔離的環境中執行複雜操作（如網路研究），防止跨任務污染。分層記憶系統能夠選擇性地召回與任務相關的信息，而不是在活動上下文中保留所有內容。自適應摘要壓縮了常規觀察，同時保留關鍵信息，使記憶增長保持受控。

由於這些機制不與特定的基礎模型綁定，我們在三種不同的代理上測試了 CORPGEN。在每種情況下，我們都觀察到了持續的增益。這些改進來自於架構，而非任何特定模型的強度。圖 2 顯示了它們在 CORPGEN 架構中如何協作。

圖 2。四種機制支持 CORPGEN 中的並行任務執行：層級化規劃、隔離子代理、分層記憶和自適應摘要。

數位員工如何協作

當多個數位員工在同一環境中運作時，協作通過標準通信渠道進行，無需預設的協調規則。一名員工發送電子郵件請求數據；另一名員工在下一個週期接收郵件，利用其記憶進行處理並回覆。這種交換鏡像了真實的職場溝通。

代理之間沒有共享的內部狀態。協調完全通過電子郵件和 Microsoft Teams 進行，這也是許多員工使用的渠道。隨著時間推移，這些獨立的交換形成了可辨識的組織模式。一些代理承擔領導角色；另一些則提供支持；共享文件成為連接的紐帶。

當通信路徑中斷時（例如電子郵件發送錯誤），代理會通過其他渠道重新路由消息以保持工作推進。其結果是一個虛擬組織，其行為就像真實組織一樣，而無需經過顯式編程。

評估 CORPGEN

我們在一個多任務基準測試中評估了 CORPGEN，該測試將多達 46 個任務組合到單個六小時的會話中。三個發現脫穎而出。

基準線隨負載增加而退化；CORPGEN 則不然。所有三個基準代理系統在任務負載增加時都表現出穩定的性能下降。相比之下，CORPGEN 在更高負載下保持或提高了其完成率。在 46 個任務時，CORPGEN 完成了 15.2% 的任務，而基準線僅為 4.3%，高出約 3.5 倍。

經驗學習推動了最大的增益。我們按順序引入了 CORPGEN 的組件：首先是編排層，然後是認知工具，最後是經驗學習。前兩者產生了適度的改進。經驗學習（代理儲存已完成任務的記錄，並在遇到結構相似的工作時重新使用它們）產生了最大的增幅，將完成率從 8.7% 提高到 15.2%。

評估方法改變了局面。當我們檢查代理產生的實際輸出文件時，結果與人類判斷的一致性約為 90%。而基於螢幕截圖和行動日誌的評估一致性僅約 40%。這一差距表明，常見的評估方法可能會低估代理在實踐中實際完成的工作。

焦點：Microsoft 研究通訊

Microsoft 研究通訊

與 Microsoft 的研究社群保持聯繫。

在新分頁中開啟

影響與展望

結果表明，記憶和檢索（而不僅僅是原始模型能力）可能是讓代理在現實世界中工作的關鍵瓶頸。最大的增益來自經驗學習。從先前的成功中學習並將這些模式應用於結構相似任務的代理，比孤立回應每個任務的系統更具優勢。

CORPGEN 也為 AI 代理如何協作開啟了新視角。接下來的步驟包括測試代理是否能在多個工作日中保持記憶，以及它們在團隊工作中如何協調。我們還在探索通過結合不同的軟體交互方法，使代理變得更快、更可靠。

致謝

這項工作是 Microsoft 技術長辦公室（Office of the CTO）與 Microsoft AI 開發加速器計劃（MAIDAP）合作的成果。我們要感謝 Microsoft 安全研究團隊提供的資源支持。我們還要感謝 Microsoft 團隊和專案的成員，他們的開源貢獻促成了 CORPGEN 架構的關鍵組件，以及 OSWorld 團隊提供的基準測試，該測試為我們的多任務評估奠定了基礎。

最後，我們要感謝這項研究的眾多貢獻者：Charlotte Siska、Manuel Raúl Meléndez Luján、Anthony Twum-Barimah 和 Mauricio Velazco。

在新分頁中開啟這篇貼文首先出現在。

CORPGEN advances AI agents for real work

概覽