首款全通用電腦操作模型

Hacker News

5 天前

AI 生成摘要

我們設計了 FDM-1，這是一個用於電腦操作的基礎模型，利用 1,100 萬小時的影片數據進行訓練，能以史無前例的代幣效率處理 CAD 和工程等長上下文任務。不同於以往基於螢幕截圖的代理程式，我們的模型直接在高速率影片上進行訓練與推理，以實現規模化的類人電腦互動。

si.inc

fdm1

背景

FDM-1 是由團隊開發的首個通用型電腦操作模型，旨在突破傳統視覺語言模型在處理電腦介面時的侷限。該模型基於 1,100 萬小時的螢幕錄影數據，透過逆向動力學模型自動標註滑鼠與鍵盤動作，並具備極高的影片壓縮效率，能處理長達數小時的上下文資訊。這項技術讓 AI 不再僅限於靜態截圖分析，而是能像人類一樣流暢地操作 CAD 軟體、進行網站測試，甚至透過鍵盤控制在現實世界中駕駛車輛。

社群觀點

Hacker News 的討論集中在該模型如何處理複雜的電腦操作邏輯，以及其獨特的技術實作細節。許多開發者對該模型展現的影片壓縮能力感到驚艷，認為這是解決長程任務（Long-horizon tasks）的關鍵。針對模型如何理解滑鼠移動，開發團隊在留言中透露他們採用了指數分箱技術，將滑鼠座標映射到非線性的平面上，這比傳統的線性映射更能幫助模型學習精確的操作。雖然曾嘗試過極座標系統，但實驗證明其精細度下降過快，效果不如預期。

在標註技術方面，社群對「逆向動力學模型」（IDM）的選擇展開了深入探討。有留言者質疑為何選擇遮罩擴散模型而非傳統的交叉熵損失函數，開發團隊解釋，由於電腦操作中往往存在多種正確的動作路徑，因此必須採用生成式方法來捕捉這些可能性，否則容易出現頻繁的輸入錯誤。此外，關於「複製貼上」等需要跨越長時間維度的操作，社群成員提出了一個有趣的觀點：某些決策必須結合未來資訊才能準確還原，這暗示了逆向模型與前向模型之間存在互補的對饋關係。

關於模型的泛化能力，討論區也出現了務實的質疑。有人擔心模型若未曾接觸過特定專業軟體（如 Figma），是否能從其他類似軟體（如 Photoshop）中遷移經驗。開發團隊坦承，雖然應用程式特定的快捷鍵對 IDM 是一大挑戰，但從目前的評估趨勢來看，通用介面的學習表現相當樂觀。而在現實世界的應用上，模型僅憑 45 分鐘的駕駛數據就能學會開車，令不少人感到震撼，這顯示了預訓練模型在理解遊戲邏輯與物理規律上的強大潛力。不過，也有評論者提醒，在展示自動駕駛技術時應更注意安全倫理，避免在靠近行人的環境下進行測試。

最後，社群對這項研究跳脫了純語言模型的框架表示讚賞。討論者認為，這種直接在影片流上進行訓練與推理的方法，更貼近人類使用電腦的本質。儘管目前仍處於早期階段，但其在自動化測試與複雜軟體操作上的潛力，被視為 AI 代理人領域的一大進步。

The First Fully General Computer Action Model

背景

社群觀點

延伸閱讀