By mid-morning, a typical knowledge worker is already juggling a client report, a budget spreadsheet, a slide deck, and an email backlog, all interdependent and all demanding attention at once. For AI agents to be genuinely useful in that environment, they will need to operate the same way, but today’s best models are evaluated one […] The post CORPGEN advances AI agents for real work appeared first on Microsoft Research .
CORPGEN 推動 AI 代理邁向實際工作應用
Microsoft Research
2 天前
AI 生成摘要
微軟研究院推出了 CORPGEN 框架,透過階層式規劃與經驗學習,讓 AI 代理能在複雜的企業環境中同時處理多項相互關聯的任務。
概覽
如今的 AI 代理(AI agent)基準測試一次僅測試一項任務,而真實職場的生產力則需要同時管理數十個相互關聯的任務。為了反映這一點,我們創建了一個名為「多週期任務環境」(Multi-Horizon Task Environments, MHTEs)的設定。
為了確定基準測試需要測試的內容,我們在一些當今領先的 AI 代理上大規模運行了 MHTEs,揭示了四個弱點。第一,記憶會填滿。代理無法同時保留多個活動任務的細節。第二,來自一個任務的信息會干擾對另一個任務的推理。第三,任務之間並非簡單的線性依賴。它們形成了複雜的網絡,代理必須不斷檢查上游工作是否完成,才能推進下游的任何工作。第四,每個行動週期都需要在所有活動任務中重新排列優先級,而不僅僅是恢復代理上次中斷的地方。
CORPGEN 也為 AI 代理如何協作開啟了新視角。接下來的步驟包括測試代理是否能在多個工作日中保持記憶,以及它們在團隊工作中如何協調。我們還在探索通過結合不同的軟體交互方法,使代理變得更快、更可靠。
致謝
這項工作是 Microsoft 技術長辦公室(Office of the CTO)與 Microsoft AI 開發加速器計劃(MAIDAP)合作的成果。我們要感謝 Microsoft 安全研究團隊提供的資源支持。我們還要感謝 Microsoft 團隊和 專案的成員,他們的開源貢獻促成了 CORPGEN 架構的關鍵組件,以及 OSWorld 團隊提供的基準測試,該測試為我們的多任務評估奠定了基礎。