Phi-4-reasoning-vision 與訓練多模態推理模型的經驗教訓

Microsoft Research

大約 3 小時前

AI 生成摘要

我們很高興宣布推出 Phi-4-reasoning-vision-15B，這是一個擁有 150 億參數的開源權重多模態推理模型，在數學、科學推理及使用者介面理解方面表現卓越。我們分享了在訓練多模態推理模型過程中的經驗與最佳實踐，展示了精細架構選擇與數據篩選帶來的效益。

概覽

Phi-4-reasoning-vision-15B 是一款緊湊且智能的開源權重多模態推理模型，在推理能力、效率和訓練數據需求之間取得了平衡。它是一款功能廣泛的模型，支持多種視覺語言任務的自然交互，並在數學、科學推理以及用戶界面理解方面表現卓越。
我們分享了訓練多模態推理模型的經驗與最佳實踐——展示了精確的架構選擇、嚴格的數據策劃，以及結合推理與非推理數據所帶來的優勢。

我們很高興地宣佈推出 Phi-4-reasoning-vision-15B，這是一款擁有 150 億參數的開源權重多模態推理模型，可通過、和獲取。Phi-4-reasoning-vision-15B 是一款功能全面的模型，可用於廣泛的視覺語言任務，例如圖像描述、圖像提問、閱讀文檔和收據、輔助作業、推斷圖像序列的變化等等。除了這些通用能力外，它在數學和科學推理以及電腦與手機屏幕元素的理解與定位方面表現尤為出色。特別是，與流行的開源權重模型相比，我們的模型展現了極具吸引力的價值，推動了準確性與計算成本之間權衡的帕累托前沿（Pareto-frontier）。與那些需要十倍或更多計算時間和 Token 的慢速模型相比，我們具有競爭力的性能；而與速度相當的模型相比，我們則擁有更高的準確性，特別是在方面。

圖 1：與現有模型相比，Phi-4-reasoning-vision-15B 提供了一個極具吸引力的選擇，推動了準確性與計算成本權衡的帕累托前沿。與需要更多時間和 Token 的慢速模型相比，我們具有競爭力的性能；與速度相當的模型相比，我們的準確性更高。這些數值是通過對 4 個基準測試子集（ChartQA_TEST、MathVista_MINI、MMMU_VAL 和 ScreenSpot_v2）的準確性、時間和輸出 Token 數進行平均計算得出的。

在本文中，我們分享了開發過程中的動機、設計選擇、實驗和經驗，以及對模型性能的評估和使用指南。我們的目標是為社區提供構建更小、高效的多模態推理模型的實踐見解，並分享一個在通用視覺語言任務上與同類規模模型、在電腦使用方面，且在科學和數學多模態推理方面出類拔萃的開源權重模型。

專注於更小、更快的視覺語言模型

許多流行的視覺語言模型 (VLM) 趨向於增加參數數量，特別是消耗和生成的 Token 數量。這導致了訓練和推理時間成本及延遲的增加，並阻礙了它們在下游部署中的可用性，尤其是在資源受限或交互式場景中。

一種向模型發展的趨勢旨在提高效率，這得益於精心的模型設計和數據策劃——這一目標由開創，並由 Phi-4-reasoning-vision-15B 進一步推進。我們專門借鑒了和語言模型的經驗，展示了如何在不依賴極大規模訓練數據集、架構或過度推理時間 Token 生成的情況下，訓練多模態模型以涵蓋廣泛的視覺和語言任務。我們的模型旨在足夠輕量，以便在適度的硬件上運行，同時在需要時保持結構化推理的能力。與許多近期同類規模的開源權重 VLM 相比，我們的模型訓練所用的計算量要少得多。我們僅使用了 2000 億個多模態數據 Token，利用了基於核心模型 Phi-4（4000 億唯一 Token）的 Phi-4-reasoning（使用 160 億 Token 訓練），而 Qwen 和、以及等多模態模型的訓練則使用了超過 1 萬億個 Token。因此，我們提供了一個極具吸引力的選擇，推動了準確性與計算成本權衡的帕累托前沿。

圖 2：Phi-4-Reasoning-Vision 可以協助處理廣泛的日常任務。

訓練多模態模型的經驗教訓

訓練多模態推理模型會引發眾多問題，並需要在模型架構、數據集質量與組成，以及重推理任務與專注感知的非推理任務之間的交互方面做出許多細微的設計選擇。

模型架構：早期融合 vs 中期融合

VLM 的模型架構主要區別在於視覺和文本信息的融合方式。中期融合（Mid-fusion）模型使用預訓練的視覺編碼器將圖像轉換為視覺 Token，並將其投影到預訓練 LLM 的嵌入空間中，從而利用已在數萬億 Token 上訓練過的組件實現跨模態推理。早期融合（Early-fusion）模型在單個模型 Transformer 中處理圖像塊和文本 Token，產生更豐富的聯合表示，但計算、內存和數據成本顯著更高。我們採用了中期融合架構，因為它在利用適度資源構建高性能模型方面提供了一個實用的權衡。

模型架構：視覺編碼器與圖像處理

我們基於視覺編碼器和骨幹網絡進行構建。在之前的研究中，我們發現多模態語言模型有時難以解決任務，並非因為缺乏推理能力，而是因為。例如，高分辨率的屏幕截圖信息密集，且交互元素相對較小。

幾款開源多模態語言模型已相應調整了其方法，例如使用平移與掃描（pan-and-scan），而使用 Dynamic S2。然而，它們在不同數據集和超參數下的權衡很難理解。為此，我們對幾種技術進行了消融研究。我們在一個由 1000 萬個圖像-文本對組成的數據集（主要由電腦使用和 GUI 定位數據組成）上訓練了一個較小的 50 億參數 Phi-4 代理模型。我們對比了：Dynamic S2，它將圖像調整為矩形分辨率，在允許 384×384 方塊平鋪的同時最小化失真；Multi-crop，它將圖像分割成可能重疊的 384×384 方塊，並在 Token 維度上拼接其編碼特徵；結合 S2 的 Multi-crop，它在應用 S2 之前先裁剪成 1536×1536 的方塊以擴大感受野；以及使用 SigLIP-2 的 Naflex 變體的動態分辨率（Dynamic resolution），這是一種具有可調塊數的原生動態分辨率編碼器。

我們的主要發現是，動態分辨率視覺編碼器表現最好，尤其是在高分辨率數據上。比較 2048 與 3600 最大 Token 的動態分辨率特別有趣：後者大致對應於原生 HD 720p 分辨率，並在高分辨率基準測試（特別是 ScreenSpot-Pro）中獲得了實質性的提升。強化高分辨率趨勢的是，我們發現結合 S2 的 multi-crop 優於標準 multi-crop，儘管使用的視覺 Token 更少（即總裁剪次數更少）。動態分辨率技術平均產生的 Token 最多；由於其平鋪子程序，基於 S2 的方法受原始圖像分辨率限制，通常僅使用約一半的最大 Token。根據這些實驗，我們選擇 SigLIP-2 Naflex 變體作為我們的視覺編碼器。

| 方法 | 最大 Token | MathVista | ScreenSpot | ScreenSpot-Pro | V*Bench |
| :--- | :--- | :--- | :--- | :--- | :--- |
| Dynamic-S² | 3096 | 42.9 | 78.4 | 9.4 | 52.9 |
| Multi-crop | 3096 | 43.4 | 67.8 | 5.4 | 51.8 |
| Multi-crop with S² | 2048 | 43.4 | 79.1 | 10.6 | 57.1 |
| Dynamic resolution | 2048 | 45.2 | 81.5 | 9.2 | 51.3 |
| Dynamic resolution | 3600 | 44.9 | 79.7 | 17.5 | 56.0 |

表 1：不同分辨率處理方法的結果。每個基準測試的前兩名配置以粗體顯示。

數據：質量與組成

與其語言骨幹 Phi-4-Reasoning 一樣，Phi-4-reasoning-vision-15B 的訓練刻意專注於數據質量。我們的最終數據集主要由三個來源組成：經過精心篩選和改進的開源數據集；高質量的領域特定內部數據；以及來自定向收購的高質量數據。我們絕大多數的數據屬於第一類：源自開源的數據，經過顯著的過濾和改進，包括刪除低質量數據集或記錄、程序化修復數據格式錯誤，或使用開源圖像作為種子合成生成更高質量的配套文本。

改進開源數據的過程始於手動審查每個數據集的樣本。通常 5 到 10 分鐘就足以將數據分類為：質量極佳、問題好但答案錯、低質量問題或圖像，或高質量但有格式錯誤。極佳的數據基本保持不變。對於答案錯誤或描述質量差的數據，我們使用 GPT-4o 和 o4-mini 重新生成回答，並排除錯誤率仍然過高的數據集。低質量的問題被證明難以挽救，但當圖像本身質量很高時，我們會將其重新用作新描述或視覺問答 (VQA) 數據的種子。圖像有根本缺陷的數據集則被完全排除。我們還修復了廣泛使用的開源數據集中數量驚人的格式和邏輯錯誤。

我們通過重新格式化、多樣化以及將圖像作為新數據生成的種子，從現有數據集中提取了額外價值。我們為數學和科學數據生成了詳細的圖像描述及原始問答對；通過將指令遵循要求直接嵌入到領域特定的問答中，使數據發揮「雙重職責」；創建了「打亂」、「描述匹配」和「發生了什麼變化？」記錄，以改進多圖推理和 CUA 場景的順序導航；並使提示風格多樣化，以鼓勵在完美結構化問題之外的魯棒性。

為了補充改進後的開源數據，我們利用了高質量的內部數據集、在 Phi-4 語言模型訓練期間獲得的幾個數學特定數據集，以及一些領域特定的策劃數據；例如，通過處理和渲染 arXiv 文檔中的方程式生成的 latex-OCR 數據。

圖 3：Phi-4-reasoning-vision-15B 訓練數據組成與示例

數據：數學與電腦使用數據的比例

我們的目標之一是訓練一個在通用視覺語言任務中表現良好，同時在數學和科學推理以及電腦使用場景中表現卓越的模型。如何構建可泛化推理的數據集仍然是一個開放性問題——特別是因為數據規模與推理性能之間的關係可能導致截然不同的設計決策，例如在大型數據集上訓練單個模型，還是通過定向後訓練得到多個專業模型。

關於長尾分類魯棒性的研究表明，是確保良好性能的有效方法。然而，在訓練 VLM 時，這些見解尚未得到充分利用或探索，有時人們更看重規模而非精細的數據平衡。為了實現我們的目標，我們進行了一系列實驗，分析了我們關注領域之間的一系列數據比例。

使用與之前實驗相同的 50 億參數代理模型，我們在每次運行中改變數學和科學與電腦使用數據的數量。每個數據集都包含相同的 100 萬個通用圖像-文本對子集作為基準。對於數學和科學數據，我們使用了 15 萬條記錄的子樣本，可選擇將每條記錄重複最多三次。接下來，我們加入了多達 45 萬條電腦使用記錄，以及可選的來自的額外 40 萬條記錄。

我們發現，多模態數學和科學性能並未受到額外電腦使用數據的損害，反之亦然。有趣的是，我們發現將數學數據增加 3 倍同時保持電腦使用數據不變，可以提高數學、科學和電腦使用的基準測試成績。

| 通用 | 數學與科學 | CUA | 總計 | MMMU | MathVista | ScreenSpot-V2 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 1M | 150K | 450K | 1.6M | 44.0 | 37.4 | 48.2 |
| 1M | 150K | 850K | 2.0M | 44.1 | 37.3 | 60.0 |
| 1M | 450K | 450K | 1.9M | 45.3 | 36.0 | 48.3 |
| 1M | 450K | 850K | 2.3M | 43.4 | 38.9 | 63.1 |
| 1M | 150K | 150K | 1.3M | 44.2 | 36.9 | 29.8 |
| 1M | 150K | 250K | 1.4M | 45.4 | 37.4 | 37.7 |

表 2：改變數學和 CUA 數據的比例。在保持電腦使用數據不變的情況下，將數學數據增加 3 倍可同時提高數學和電腦使用基準測試成績。

數據：用於文本豐富視覺推理的合成數據

表明，定向合成數據可以實質性地改進多模態推理，特別是對於圖表、文檔、圖表和渲染數學等文本豐富的視覺領域。使用程序化生成並植根於視覺結構的圖像、問題和答案，可以精確控制視覺內容和監督質量，從而產生避免了抓取數據集中常見的標註錯誤、歧義和分佈偏差的數據。這使得視覺感知與多步推斷之間能有更清晰的對齊，這已被證明可以轉化為推理密集型基準測試中的可衡量收益。

合成的文本豐富圖像擴展了在真實數據中代表性不足但對推理準確性影響巨大的長尾視覺格式，不僅改善了視覺定位，還通過確保失敗較少由感知錯誤引起，從而改善了下游推理。我們發現，程序化生成的合成數據是對高質量真實數據集的有效補充——它不是替代品，而是一種加強感知和推理的可擴展機制，與 Phi-4-reasoning-vision-15B 等緊湊型多模態模型的訓練目標相輔相成。

將非推理與推理混合作為設計目標

在純語言設置中，推理路徑（reasoning traces）提高了許多任務的性能，但它們需要額外的計算，這增加了不必要的延遲。在多模態設置中，這種權衡不那麼明確，對於圖像描述和光學字符識別 (OCR) 等任務，推理通常是不必要的，甚至可能，而數學和科學問題解決則受益於多步推理。因此，何時選擇推理或不推理可能非常微妙。

多模態推理模型的訓練方法

純語言推理模型通常通過監督微調 (SFT) 或強化學習 (RL) 創建：SFT 更簡單，但需要大量昂貴的推理路徑數據，而 RL 減少了數據需求，但代價是顯著增加了訓練複雜性和計算量。多模態推理模型遵循類似的過程，但設計空間更複雜。對於中期融合架構，第一個決定是基礎語言模型本身是推理模型還是非推理模型。這導致了幾種可能的訓練流程：

非推理 LLM → 推理多模態訓練：推理和多模態能力一起訓練。
非推理 LLM → 非推理多模態 → 推理多模態訓練：先學習多模態能力，然後加入推理。
推理 LLM → 推理多模態訓練：使用推理基礎，但所有多模態數據必須包含推理路徑。
我們的方法：推理 LLM → 混合非推理 / 推理多模態訓練。在混合數據混合物上訓練具備推理能力的基礎模型，學習何時推理以及何時直接回答。

方法 1 和 2 在利用廣泛可用的非推理 LLM 檢查點從頭設計多模態推理行為方面提供了靈活性，但給多模態訓練帶來了沉重負擔。方法 1 必須同時教授視覺理解和推理，需要大量多模態推理數據；而方法 2 可以用較少的推理數據訓練，但存在災難性遺忘的風險，因為推理訓練可能會降低先前學到的視覺能力。兩者都面臨推理能力弱於從推理基礎開始的風險。方法 3 繼承了強大的推理基礎，但與方法 1 一樣，它需要所有訓練數據的推理路徑，並對所有查詢生成推理路徑，即使在沒有益處時也是如此。

我們的方法：混合推理與非推理模型

Phi-4-reasoning-vision-15B 採用了上述第 4 種方法，因為它平衡了推理能力、推理效率和數據需求。它繼承了強大的推理基礎，但使用混合方法結合了其他方案的優點，同時減輕了它們的缺點。我們的模型在專注於感知的領域默認進行直接推理，在這些領域推理會增加延遲而不提高準確性，從而避免不必要的冗長並降低推理成本；而在，它會調用較長的推理路徑。

我們的模型使用 SFT 訓練，其中推理樣本在最終答案之前包含 <thought> 部分（帶有思維鏈推理），涵蓋數學和科學等領域。非推理樣本被標記為以 <nothought> Token 開始，信號直接回答，涵蓋描述、定位、OCR 和簡單 VQA 等專注於感知的任務。推理數據約佔總混合數據的 20%。從具備推理能力的骨幹開始，意味著這些數據是在視覺情境中定位現有的推理能力，而不是從頭教它推理。

這種方法並非沒有局限性。模式之間的平衡是我們設計選擇的直接結果，受和訓練期間觀察到的模型行為啟發——儘管模式之間的邊界可能不精確，因為它是從數據分佈中隱式學習的。當用戶想要覆蓋默認推理行為時，我們的模型允許通過顯式提示 <thought> 或 <nothought> Token 進行控制。20/80 的推理與非推理數據比例可能並不適用於所有領域或部署環境。評估數據的理想平衡以及模型在模式之間適當切換的能力仍然是一個開放性問題。

我們認為這種混合方法不是最終解決方案，而是設計空間中一個實用且有理有據的點，用於平衡多模態系統中的延遲、準確性和靈活性。

應用

圖 4：Phi-4-Reasoning-Vision 可以解釋圖像序列

Phi-4-reasoning-vision-15B 在許多視覺語言任務中都是高性能模型。它通過查看照片、文檔、圖表或屏幕並理解其含義來觀察和理解世界。在實踐中，這涵蓋了極其廣泛的應用——僅舉幾例：描述圖像並回答相關問題、解釋圖像序列中的變化和趨勢、識別物體和地標，以及轉錄文本。

亮點：科學與數學推理及支持電腦使用代理 (CUA)

除了通用視覺和語言任務外，Phi-4-reasoning-vision-15B 旨在擅長將視覺輸入與結構化推斷相結合的任務，例如解決以視覺形式呈現的數學問題（如手寫或基於圖表的問題）、提取並推理文檔和圖表中的定量信息，以及在教育或科學分析情境中支持多步推理。

圖 5：Phi-4-reasoning-vision-15B 非常擅長數學和科學

圖 6：Phi-4-reasoning-vision-15B 可以協助處理書面數學問題

此外，我們訓練 Phi-4-reasoning-vision-15B 具備相關技能，使代理能夠通過解釋屏幕內容和選擇操作與圖形用戶界面進行交互。憑藉強大的高分辨率感知和細粒度定位能力，Phi-4-reasoning-vision-15B 是作為訓練代理模型（例如通過識別和定位按鈕、菜單和文本字段等交互元素來導航桌面、網頁和移動界面的模型）基礎模型的極佳選擇。由於其推理時間需求低，它非常適合低延遲和緊湊模型尺寸至關重要的交互式環境。

圖 7：Phi-4-reasoning-vision-15B 可以協助導航電腦 UI

評估

我們使用兩個互補的開源框架對 Phi-4-reasoning-vision-15B 的準確性和計時進行了評估，以確保分析的嚴謹性和標準化：和。

| 基準測試 | Phi-4-reasoning-vision-15B | Phi-4-reasoning-vision-15B – 強制 nothink | Phi-4-mm-instruct | Kimi-VL-A3B-Instruct | gemma-3-12b-it | Qwen3-VL-8B-Instruct-4K | Qwen3-VL-8B-Instruct-32K | Qwen3-VL-32B-Instruct-4K | Qwen3-VL-32B-Instruct-32K |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| AI2D_TEST | 84.8 | 84.7 | 68.6 | 84.6 | 80.4 | 82.7 | 83 | 84.8 | 85 |
| ChartQA_TEST | 83.3 | 76.5 | 23.5 | 87 | 39 | 83.1 | 83.2 | 84.3 | 84 |
| HallusionBench | 64.4 | 63.1 | 56 | 65.2 | 65.3 | 73.5 | 74.1 | 74.4 | 74.9 |
| MathVerse_MINI | 44.9 | 43.8 | 32.4 | 41.7 | 29.8 | 54.5 | 57.4 | 64.2 | 64.2 |
| MathVision_MINI | 36.2 | 34.2 | 20 | 28.3 | 31.9 | 45.7 | 50 | 54.3 | 60.5 |
| MathVista_MINI | 75.2 | 68.7 | 50.5 | 67.1 | 57.4 | 77.1 | 76.4 | 82.5 | 81.8 |
| MMMU_VAL | 54.3 | 52 | 42.3 | 52 | 50 | 60.7 | 64.6 | 68.6 | 70.6 |
| MMStar | 64.5 | 63.3 | 45.9 | 60 | 59.4 | 68.9 | 69.9 | 73.7 | 74.3 |
| OCRBench | 76 | 75.6 | 62.6 | 86.5 | 75.3 | 89.2 | 90 | 88.5 | 88.5 |
| ScreenSpot_v2 | 88.2 | 88.3 | 28.5 | 89.8 | 3.5 | 91.5 | 91.5 | 93.7 | 93.9 |

表 3：與流行的開源權重、非思考模型的準確性比較

| 基準測試 | Phi-4-reasoning-vision-15B | Phi-4-reasoning-vision-15B – 強制 thinking | Kimi-VL-A3B-Thinking | gemma-3-12b-it | Qwen3-VL-8B-Thinking-4K | Qwen3-VL-8B-Thinking-40K | Qwen3-VL-32B-Thinking-4K | Qwen3-VL-32B-Thinking-40K |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| AI2D_TEST | 84.8 | 79.7 | 81.2 | 80.4 | 83.5 | 83.9 | 86.9 | 87.2 |
| ChartQA_TEST | 83.3 | 82.9 | 73.3 | 39 | 78 | 78.6 | 78.5 | 79.1 |
| HallusionBench | 64.4 | 63.9 | 70.6 | 65.3 | 71.6 | 73 | 76.4 | 76.6 |
| MathVerse_MINI | 44.9 | 53.1 | 61 | 29.8 | 67.3 | 73.3 | 78.3 | 78.2 |
| MathVision_MINI | 36.2 | 36.2 | 50.3 | 31.9 | 43.1 | 50.7 | 60.9 | 58.6 |
| MathVista_MINI | 75.2 | 74.1 | 78.6 | 57.4 | 77.7 | 79.5 | 83.9 | 83.8 |
| MMMU_VAL | 54.3 | 55 | 60.2 | 50 | 59.3 | 65.3 | 72 | 72.2 |
| MMStar | 64.5 | 63.9 | 69.6 | 59.4 | 69.3 | 72.3 | 75.5 | 75.7 |
| OCRBench | 76 | 73.7 | 79.9 | 75.3 | 81.2 | 82 | 83.7 | 85 |
| ScreenSpot_v2 | 88.2 | 88.1 | 81.8 | 3.5 | 93.3 | 92.7 | 83.1 | 83.1 |

表 4：與流行的開源權重、思考模型的準確性比較

我們的模型平衡了思考與非思考性能——平均而言，在默認的「混合推理」行為中展現出的準確性優於強制思考或非思考模式。僅在少數情況下，強制特定模式會提高性能（MathVerse 和 MMMU_val 適合思考模式，ScreenSpot_v2 適合非思考模式）。如前所述，與近期流行的開源權重模型相比，我們的模型在準確性與成本（作為推理時間計算和輸出 Token 的函數）之間提供了理想的權衡。

注意：此處所有數據均為我們自行運行基準測試的結果，可能低於其他先前分享的數據。我們沒有引用排行榜，而是進行了自己的基準測試，以便了解相關模型性能隨輸出 Token 數量的擴展情況。我們盡最大努力進行公平評估，並使用了推薦的評估平台，以及為所有第三方模型提供的模型特定推薦設置和提示。對於 Qwen 模型，我們使用了推薦的 Token 數，並運行了與我們 4096 最大輸出 Token 數匹配的評估。對於 Phi-4-reasoning-vision-15B，我們使用了我們的系統提示和聊天模板，但沒有進行任何自定義用戶提示或參數調整，我們在 temperature=0.0、貪婪解碼和 4096 最大輸出 Token 的情況下運行了所有評估。提供這些數值是為了比較和分析，而非作為排行榜聲明。為了最大程度的透明和公平，我們將公開發佈所有評估日誌。有關我們評估方法的更多詳細信息，請參閱我們的。

安全性

與其他 Phi 模型一樣，Phi-4-reasoning-vision-15B 在整個訓練和評估過程中都將安全性作為核心考慮因素。該模型在公共安全數據集和內部生成的示例混合物上進行了訓練，旨在引發模型應適當拒絕的行為，這符合微軟的負責任 AI 原則。欲了解更多詳情，請查看我們的。

開源發佈與社區參與

Phi-4-reasoning-vision-15B 已在和上線，更多示例和詳細信息請見。有關如何正確且安全地使用我們模型的更多指導，請參閱我們的。有關模型、訓練和評估的技術細節，請參閱我們的。

為了支持社區未來的 AI 開發，Phi-4-reasoning-vision-15B 在寬鬆的許可證下發佈，包含模型權重、微調代碼和基準測試日誌。我們希望這次發佈能通過提供具體的工件來補充現有工作，幫助縮小在如何構建和研究緊湊型多模態推理模型方面的理解差距。

展望未來

具有選擇性、任務感知推理能力的較小視覺語言模型，是使多模態系統更實用、更易普及的一個有前景的方向。我們展示了我們的模型及其經驗，以期為多模態建模、電腦使用代理以及數學科學推理的持續研究提供參考。我們希望這些細節對探索類似權衡的研究人員有所幫助，並邀請社區進行批判性評估、複製和擴展。如果您想加入我們並幫助塑造多模態模型的未來，請申請我們的。

致謝

我們感謝 Rachel Ward 在數據收集和策劃方面的廣泛工作。我們感謝 GenDatasets、PhiGround、SimCity 和 Fara-7B 團隊提供的寶貴訓練數據。我們感謝 Harkirat Behl、Mojan Javaheripi 和 Suriya Gunasekar 提供 Phi-4 檢查點以及在 Phi 模型訓練方面的指導。我們還要感謝 Sahaj Agarwal、Ahmed Awadallah、Qi Dai、Gustavo de Rosa、Rafah Hosn、Ece Kamar、Piero Kauffmann、Yash Lara、Chong Luo、Caio César Teodoro Mendes、Akshay Nambi、Craig Presti、Matthew Rosoff、Corby Rosset、Marco Rossi、Kashyap Patel、Adil Salim、Sidhartha Sen、Shital Shah、Pratyusha Sharma、Alexey Taymanov、Vibhav Vineet、John Weiss、Spencer Whitehead，以及 AI Frontiers 團隊與領導層、微軟研究院領導層，感謝他們在整個工作過程中提供的寶貴幫助、精闢討論和持續支持。

這篇文章最初發表於。

Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model

概覽