newsence
來源篩選

UniRG: Scaling medical imaging report generation with multimodal reinforcement learning

Microsoft Research

AI can help generate medical image reports, but today’s models struggle with varying reporting schemes. Learn how UniRG uses reinforcement learning to boost performance of medical vision-language models. The post UniRG: Scaling medical imaging report generation with multimodal reinforcement learning appeared first on Microsoft Research .

newsence

UniRG:透過多模態強化學習擴展醫學影像報告生成

Microsoft Research
大約 1 個月前

AI 生成摘要

微軟研究院推出 UniRG,這是一個基於強化學習的框架,透過將模型訓練與真實世界的放射科實務對齊,而非僅追求文字生成目標,顯著提升了醫學影像報告生成的準確性與可靠性。

重點一覽

  • AI 驅動的醫學影像報告生成可幫助醫療提供者提高效率與生產力。

  • 由於各提供者之間的報告習慣差異巨大,目前的模型難以訓練。

  • 通用報告生成(Universal Report Generation, UniRG)使用強化學習,使模型訓練與真實世界的放射科實務對齊,而非僅追求代理性的文本生成目標。

  • UniRG 在各個數據集、指標、診斷任務、縱向設定(longitudinal settings)以及人口統計子群體中均達到了最先進(state-of-the-art)的性能。

  • 測試結果顯示,在具有臨床意義的獎勵信號引導下,強化學習可以顯著提升醫學視覺語言模型的可靠性與通用性。

AI 可用於根據胸部 X 光等醫學影像產生具有臨床意義的放射科報告。醫學影像報告生成可以減輕報告負擔,同時提高醫療專業人員的工作流程效率。除了現實世界的益處外,報告生成也已成為評估醫療 AI 多模態推理能力的關鍵基準。

儘管大型視覺語言模型帶動了近期進展,但目前的系統在真實臨床環境中仍面臨重大限制。其中一項挑戰源於不同機構、科室和患者群體之間放射報告實務的巨大差異。在某一套數據上進行監督式微調(supervised fine-tuning)訓練的模型,可能會學習其特定的措辭和慣例,而非更通用的模式——這種問題稱為「過擬合」(overfitting)。結果導致模型在該數據上表現良好,但在評估未見過的機構或外部數據集時表現不佳。此外,由於模型訓練通常旨在產生與現有報告相似的文本,一些寫得好但臨床上不準確的報告可能會混入其中。

在本部落格中,我們介紹了 ,這是一個基於強化學習的醫學影像報告生成框架。此項工作是一個旨在推動醫學 AI 研究的研究原型,尚未經過臨床使用驗證。UniRG 使用強化學習作為統一機制,直接優化以臨床為基礎的評估信號,使模型訓練與真實世界的放射科實務對齊,而非僅追求代理性的文本生成目標。利用此框架,我們訓練了 ,這是一個大規模的最先進胸部 X 光報告生成模型,涵蓋了來自 80 多家醫療機構的 560,000 多次研究、780,000 張影像和 226,000 名患者。

據我們所知,這是第一個在報告級指標、疾病級診斷準確性、跨機構泛化、縱向報告生成以及人口統計子群體中均實現一致最先進性能的報告生成模型。這些結果證明,當強化學習受到具有臨床意義的獎勵信號引導時,可以顯著提高醫學視覺語言模型的可靠性和通用性。

	亮點:活動系列								[							](https://www.microsoft.com/en-us/research/event/microsoft-research-forum/?OCID=msr_researchforum_MCR_Blog_Promo)														

微軟研究論壇 (Microsoft Research Forum)

							歡迎加入我們,就通用 AI 時代的研究進行持續的思想交流。隨選觀看前四集內容。																			[						隨選觀看						](https://www.microsoft.com/en-us/research/event/microsoft-research-forum/?OCID=msr_researchforum_MCR_Blog_Promo)													

在新分頁開啟

用於擴展醫學影像報告生成的統一框架

UniRG 通過結合監督式微調與強化學習來構建最先進的報告生成模型,強化學習優化了一種綜合獎勵,該獎勵整合了基於規則的指標、基於模型的語義指標以及基於大型語言模型(LLM)的臨床錯誤信號。這種方法使生成的 UniRG-CXR 模型能夠從多樣化的數據源中學習,超越特定數據集的報告模式,並學習可在不同機構、指標和臨床背景下泛化的表示。值得注意的是,截至 2026 年 1 月 22 日,UniRG-CXR 在權威的 (胸部 X 光影像解讀的公開排行榜)上創下了新的紀錄,大幅超越了以往的最佳模型(圖 1)。

圖 1. UniRG-CXR 概覽。(a) 訓練數據:UniRG-CXR 在 MIMIC-CXR、CheXpert Plus 和 ReXGradient-160k 的訓練集上進行訓練,涵蓋了多樣化的機構和患者人口統計數據。(b) 訓練與獎勵:UniRG-CXR 接收當前影像、臨床背景(如適應症)以及可選的過往研究作為輸入,使用 GRPO 強化學習來優化結合了基於規則、模型和 LLM 指標的綜合獎勵。(c) 評估:我們在保留的測試集(MIMIC-CXR、CheXpert Plus、ReXGradient)和未見過的數據集(IU Xray 和私有數據)上評估 UniRG-CXR。報告質量使用 ReXrank 指標和基於 LLM 的臨床錯誤指標進行衡量,而診斷能力則通過生成報告中基於 F1 分數的疾病分類進行評估。(d) ReXrank 結果:UniRG-CXR 在四個數據集和兩種生成設定(僅發現 Findings,以及發現 + 印象 Findings + Impression)中均實現了 SOTA 性能,顯示出比以往最先進系統顯著的提升。

指標與臨床錯誤的全面改進

UniRG-CXR 並非以犧牲其他指標為代價來擅長某單一指標,而是在許多不同的報告質量衡量標準中實現了平衡的改進。更重要的是,它生成的報告中臨床顯著錯誤大幅減少。這表明該模型不僅僅是學習如何聽起來像一份放射科報告,而是更好地掌握了底層的臨床事實。明確地針對臨床正確性進行優化,有助於模型避免常見的失敗模式,即流利的語言掩蓋了錯誤或缺失的發現(圖 2)。

圖 2. UniRG-CXR 實現了最先進的性能,在各項指標上提供了一致且全面的性能提升。(a) 在 ReXrank 排行榜上,UniRG-CXR(綠色)在所有評估指標上顯示出強勁且普遍的進步。(b) 從相同的 SFT 檢查點開始,與針對單一指標的強化學習相比,使用我們組合獎勵的強化學習在各指標間實現了更平衡的增益,並獲得了最高的 RadCliQ-v1 分數。此消融研究在 MIMIC 上進行訓練和測試。(c) 訓練動態的消融研究顯示,全強化學習(UniRG-CXR)比僅針對 BLEU 的強化學習獲得了顯著更好的 RadCliQ-v1 分數。(d) 在訓練過程中,與沒有錯誤意識(即移除 CheXprompt 指標優化)的消融運行相比,全強化學習(UniRG-CXR)顯示每份報告的臨床錯誤穩定減少,而後者軌跡波動且無持續改進。(c) 和 (d) 均顯示了在 MIMIC 上訓練的消融實驗在 1024 個 MIMIC 驗證集上的結果。(e) 案例研究說明 UniRG-CXR 可以產生無錯誤的報告,這與 MedVersa 和 MedGemma 不同。(f) 與之前的模型相比,UniRG-CXR 產生的錯誤數 $\leq 1$ 的報告比例顯著更高,而錯誤數 $\geq 4$ 的報告比例更低。

縱向報告生成中的強勁表現

在臨床實務中,放射科醫師經常將當前影像與之前的檢查進行比較,以確定病情是在好轉、惡化還是沒有變化。UniRG-CXR 能夠有效地納入這些歷史信息,生成反映隨時間變化的有意義報告。這使得模型能夠更準確地描述新發現、疾病進展或消退,更接近放射科醫師跨患者病史進行推理的方式,而非孤立地對待每一次檢查(圖 3)。

圖 3. UniRG-CXR 增強了縱向報告生成。(a) 將 UniRG-CXR 及其非縱向消融版本與之前的縱向報告生成模型進行比較,我們顯示 UniRG-CXR 表現最佳,且縱向信息對性能有益。(b) UniRG-CXR 在從第一次就診到更複雜的第 5 次以上就診的不同縱向就診點均實現了最佳性能,展示了其改進是全面的。相比之下,GPT-5、GPT-4o 和 MedGemma 等先前模型僅勉強超過「複製前次報告」的基準線(灰色線)。(c) 與先前模型相比,UniRG-CXR 在包括新發展、無變化、進展和退化在內的不同時間性疾病變化類別中顯著且一致地提高了性能(類別由 GPT-5 根據標準報告分類)。圖中顯示了每個類別的定性範例,UniRG-CXR 根據輸入正確預測了時間變化。本圖中所有結果均基於 MIMIC 測試集,並在可用時提供先前信息。

跨機構與人群的強健泛化能力

即使應用於從未見過的機構數據,UniRG-CXR 仍能保持強勁的性能。這表明該模型正在學習通用的臨床模式,而非死記硬背特定機構的報告風格。此外,其性能在不同的患者子群體(包括年齡、性別和種族)中保持穩定。這種強健性對於現實世界的部署至關重要,因為模型必須在多樣化的人群和醫療環境中可靠地運行(圖 4)。

圖 4. UniRG-CXR 的泛化性與強健性。(a) 我們在來自先前未見機構的兩個數據集(IU-Xray 和 PD 私有數據)上,以零樣本(zero-shot)設定評估 UniRG-CXR。UniRG-CXR 一致優於先前模型,在這種具挑戰性的設定中保持了顯著的性能增益。(b) 和 (c) 展示了 MIMIC-CXR 和 PD 上的疾病級 F1 分數,並強調 UniRG-CXR 在疾病級診斷準確性方面仍是整體表現最佳的模型。(d) UniRG-CXR 在性別、年齡和種族子群體中展示了穩定且強健的性能,所有表現均超過了第二好的模型(虛線)。

UniRG 是擴展醫學影像報告生成的有希望的一步

UniRG 引入了一個基於強化學習的框架,重新思考了醫學影像報告生成模型的訓練與評估方式。通過直接優化以臨床為基礎的獎勵信號,UniRG-CXR 在數據集、指標、診斷任務、縱向設定和人口統計子群體中實現了最先進的性能,解決了僅靠監督學習方法的長期局限性。

展望未來,該框架可以擴展到更多的影像模態和臨床任務,並結合更豐富的多模態患者數據,如過往影像、實驗室結果和臨床記錄。更廣泛地說,UniRG 突顯了強化學習作為下一代醫學基礎模型核心組件的前景,使其具備強健性、泛化性且符合臨床需求。

UniRG 反映了微軟對於 的更大承諾,其他令人興奮的進展還包括

論文共同作者:、Ying Jin、Sam Preston、Yanbo Xu、Sid Kiblawi、、Tim Ossowski、、Mu Wei、

在新分頁開啟本貼文 首先出現在 上。