newsence
來源篩選

CORPGEN advances AI agents for real work

Microsoft Research

By mid-morning, a typical knowledge worker is already juggling a client report, a budget spreadsheet, a slide deck, and an email backlog, all interdependent and all demanding attention at once. For AI agents to be genuinely useful in that environment, they will need to operate the same way, but today’s best models are evaluated one […] The post CORPGEN advances AI agents for real work appeared first on Microsoft Research .

newsence

CORPGEN 推動 AI 代理邁向實際工作應用

Microsoft Research
2 天前

AI 生成摘要

微軟研究院推出 CORPGEN 框架,透過階層式規劃與經驗學習,讓數位員工能在複雜的企業環境中同時處理多項相互關聯的任務,解決現有 AI 代理在多工處理時效能大幅下降的問題。

重點速覽

  • 現今的 AI 代理人(AI agent)基準測試一次僅測試一項任務,而真實職場的生產力則需要同時管理數十個相互關聯的任務。為了反映這一點,我們建立了一個名為「多階段任務環境」(Multi-Horizon Task Environments, MHTEs)的設定。

  • 在多工負載下,領先的電腦操作代理人表現大幅下滑,完成率從 16.7% 降至 8.7%。

  • CORPGEN 引入了「數位員工」(digital employees),具備層次化規劃、記憶隔離和經驗學習能力,在三個獨立的代理人後端中,其完成率比基準線高出多達 3.5 倍。

  • 由於 CORPGEN 與架構無關且具備模組化特性,其優勢源於系統設計而非單一基礎模型,並能隨著底層模型的改進而直接獲益。

到了上午中旬,一名典型的知識工作者通常已經在同時處理客戶報告、預算試算表、簡報投影片和待回覆郵件,這些工作相互關聯且都需要同時關注。為了讓 AI 代理人在這種環境中真正發揮作用,它們需要以同樣的方式運作,但現今最好的模型仍是以一次一項任務的方式進行評估,而非同時處理數十項。

在我們的論文「」中,我們提出了一個代理人框架,為 AI 配備記憶、規劃和學習能力,以彌補這一差距。

引入多階段任務環境

複製職場多工的現實需要一種新型的評估環境。為此,我們開發了多階段任務環境(MHTEs),在這種設定下,代理人必須同時管理多個複雜任務。每個任務在長達五小時的單次會話中,需要 10 到 30 個具備依賴關係的步驟。

為了確定基準測試需要測試的內容,我們在一些當今領先的 AI 代理人上大規模執行了 MHTEs,發現了四個弱點。首先,記憶會填滿。代理人無法同時保留多個活動任務的細節。其次,來自一個任務的資訊會干擾對另一個任務的推理。第三,任務之間並非以簡單的序列相互依賴,而是形成複雜的網絡,代理人必須不斷檢查上游工作是否完成,才能推進下游的任何工作。第四,每個行動週期都需要對所有活動任務重新排列優先順序,而不僅僅是從上次中斷的地方繼續。

我們還測試了三個獨立的代理人系統在不斷增加的負載下的表現。隨著並行任務數量從 12 個增加到 46 個,所有系統的完成率從 16.7% 下降到 8.7%。

CORPGEN 的架構

CORPGEN 引入了「數位員工」:由大型語言模型(LLM)驅動的 AI 代理人,具有持久的身分、特定角色的專業知識和現實的工作時間表。它們透過圖形使用者介面(GUI)自動化操作 Microsoft Office 應用程式,並在連續數小時的活動中於 MHTEs 內表現穩定。圖 1 展示了數位員工如何度過完整的工作日。

圖 1。每一天都以結構化計劃和從先前會話載入的記憶開始。代理人隨後在重複的週期中處理重疊的任務,並在一天結束時儲存關鍵成果,以供下一次會話參考。

CORPGEN 以針對性的方式解決了並行任務執行的四個弱點:記憶過載、跨任務干擾、依賴複雜性和重新排序。層次化規劃將目標分解為每日目標,再進一步分解為即時決策,使代理人能根據結構化計劃行動,而不是在每一步之前審查所有可用任務。

子代理人在隔離的環境中執行複雜操作(如網路研究),防止跨任務污染。分層記憶系統實現了對任務相關資訊的選擇性回想,而不是將所有內容保留在活動上下文中。自適應摘要壓縮了常規觀察,同時保留關鍵資訊,使記憶增長保持受控。

由於這些機制不綁定於特定的基礎模型,我們在三種不同的代理人上測試了 CORPGEN。在每種情況下,我們都觀察到了穩定的增益。這些改進來自於架構,而非任何特定模型的強度。圖 2 顯示了它們在 CORPGEN 架構中如何結合。

圖 2。CORPGEN 中的四種機制支持並行任務執行:層次化規劃、隔離子代理人、分層記憶和自適應摘要。

數位員工如何協作

當多個數位員工在同一環境中運作時,協作透過標準通訊管道進行,無需預設的協調規則。一名員工發送電子郵件請求數據;另一名員工在下一個週期接收郵件,利用其記憶進行處理並回覆。這種交換鏡像了真實職場的溝通。

代理人之間沒有共享的內部狀態。協調完全透過電子郵件和 Microsoft Teams 進行,這也是許多員工使用的管道。隨著時間推移,這些獨立的交換形成了可辨識的組織模式。一些代理人承擔領導角色;另一些則提供支援;共享文件成為連接的紐帶。

當通訊路徑中斷時(例如電子郵件發送錯誤),代理人會透過其他管道重新路由訊息以保持工作進行。結果是一個虛擬組織,其行為就像真實組織一樣,而無需經過顯式編程。

評估 CORPGEN

我們在一個多工基準測試上評估了 CORPGEN,該測試將多達 46 個任務組合到單個六小時的會話中。有三個發現脫穎而出。

基準線隨負載增加而退化;CORPGEN 則不然。 所有三個基準代理人系統在任務負載增加時都顯示出性能穩定下降。相比之下,CORPGEN 在更高負載下保持或提高了完成率。在 46 個任務時,CORPGEN 完成了 15.2% 的任務,而基準線僅為 4.3%,高出約 3.5 倍。

經驗學習帶來最大的增益。 我們依序引入了 CORPGEN 的組件:首先是編排層,然後是認知工具,最後是經驗學習。前兩者產生了適度的改進。經驗學習(代理人儲存已完成任務的記錄,並在遇到結構相似的工作時重複使用)產生了最大的增幅,將完成率從 8.7% 提高到 15.2%。

評估方法會改變結果。 當我們檢查代理人產生的實際輸出文件時,結果與人類判斷的一致性約為 90%。而基於螢幕截圖和行動日誌的評估一致性僅約 40%。這一差距表明,常見的評估方法可能低估了代理人在實踐中實際完成的工作。

焦點:活動系列

Microsoft 研究論壇

加入我們,就通用 AI 時代的研究進行持續的思想交流。隨選觀看前四集。

影響與展望

結果表明,記憶與檢索(而不僅僅是原始模型能力)可能是讓代理人在現實世界中工作的關鍵瓶頸。最大的增益來自經驗學習。從先前的成功中學習並將這些模式應用於結構相似任務的代理人,比孤立處理每個任務的系統更具優勢。

CORPGEN 也為 AI 代理人的協作方式開闢了新視角。下一步包括測試代理人是否能在多個工作日之間保持記憶,以及它們在團隊工作時如何協調。我們還在探索透過結合不同的軟體互動方法,使代理人變得更快、更可靠。

致謝

這項工作是微軟 CTO 辦公室與微軟 AI 開發加速器計畫(MAIDAP)合作的成果。我們要感謝微軟安全研究團隊提供支持本研究的資源。我們還要感謝微軟 團隊和 專案的成員,他們的開源貢獻促成了 CORPGEN 架構的關鍵組件,以及 OSWorld 團隊提供的基準測試,該測試為我們的多工評估奠定了基礎。

最後,我們感謝本研究的眾多貢獻者:Anjel Shaileshbhai Patel、Dayquan Julienne、Charlotte Siska、Manuel Raúl Meléndez Luján、Anthony Twum-Barimah、Mauricio Velazco 和 Tianwei Chen。

這篇文章 首先出現在 上。