newsence
來源篩選

The First Fully General Computer Action Model

Hacker News

We designed FDM-1, a foundation model for computer use trained on 11 million hours of video that can process long-context tasks like CAD and engineering with unprecedented token efficiency. Unlike previous screenshot-based agents, our model trains and infers directly on high-framerate video to achieve human-like computer interaction at scale.

newsence

首款全通用電腦操作模型

Hacker News
5 天前

AI 生成摘要

我們設計了 FDM-1,這是一個用於電腦操作的基礎模型,利用 1,100 萬小時的影片數據進行訓練,能以史無前例的代幣效率處理 CAD 和工程等長上下文任務。不同於以往基於螢幕截圖的代理程式,我們的模型直接在高速率影片上進行訓練與推理,以實現規模化的類人電腦互動。

背景

FDM-1 是由團隊開發的首個通用型電腦操作模型,旨在突破傳統視覺語言模型在處理電腦介面時的侷限。該模型基於 1,100 萬小時的螢幕錄影數據,透過逆向動力學模型自動標註滑鼠與鍵盤動作,並具備極高的影片壓縮效率,能處理長達數小時的上下文資訊。這項技術讓 AI 不再僅限於靜態截圖分析,而是能像人類一樣流暢地操作 CAD 軟體、進行網站測試,甚至透過鍵盤控制在現實世界中駕駛車輛。

社群觀點

Hacker News 的討論集中在該模型如何處理複雜的電腦操作邏輯,以及其獨特的技術實作細節。許多開發者對該模型展現的影片壓縮能力感到驚艷,認為這是解決長程任務(Long-horizon tasks)的關鍵。針對模型如何理解滑鼠移動,開發團隊在留言中透露他們採用了指數分箱技術,將滑鼠座標映射到非線性的平面上,這比傳統的線性映射更能幫助模型學習精確的操作。雖然曾嘗試過極座標系統,但實驗證明其精細度下降過快,效果不如預期。

在標註技術方面,社群對「逆向動力學模型」(IDM)的選擇展開了深入探討。有留言者質疑為何選擇遮罩擴散模型而非傳統的交叉熵損失函數,開發團隊解釋,由於電腦操作中往往存在多種正確的動作路徑,因此必須採用生成式方法來捕捉這些可能性,否則容易出現頻繁的輸入錯誤。此外,關於「複製貼上」等需要跨越長時間維度的操作,社群成員提出了一個有趣的觀點:某些決策必須結合未來資訊才能準確還原,這暗示了逆向模型與前向模型之間存在互補的對饋關係。

關於模型的泛化能力,討論區也出現了務實的質疑。有人擔心模型若未曾接觸過特定專業軟體(如 Figma),是否能從其他類似軟體(如 Photoshop)中遷移經驗。開發團隊坦承,雖然應用程式特定的快捷鍵對 IDM 是一大挑戰,但從目前的評估趨勢來看,通用介面的學習表現相當樂觀。而在現實世界的應用上,模型僅憑 45 分鐘的駕駛數據就能學會開車,令不少人感到震撼,這顯示了預訓練模型在理解遊戲邏輯與物理規律上的強大潛力。不過,也有評論者提醒,在展示自動駕駛技術時應更注意安全倫理,避免在靠近行人的環境下進行測試。

最後,社群對這項研究跳脫了純語言模型的框架表示讚賞。討論者認為,這種直接在影片流上進行訓練與推理的方法,更貼近人類使用電腦的本質。儘管目前仍處於早期階段,但其在自動化測試與複雜軟體操作上的潛力,被視為 AI 代理人領域的一大進步。

延伸閱讀

  • OpenAI 的 Video PreTraining (VPT) 論文:探討如何透過逆向動力學模型在 Minecraft 中訓練 AI 代理人。
  • VideoAgentTrek 相關研究:關於電腦操作 IDM 標註的另一種技術路徑,主要依賴截圖與思維鏈(CoT)三元組。
  • FDM-1 指數分箱技術圖解:說明滑鼠動作如何被轉化為模型可理解的標記。