New tools for understanding AI and learning outcomes
OpenAI
OpenAI introduces the Learning Outcomes Measurement Suite to assess AI’s impact on student learning across diverse educational environments over time.
OpenAI
OpenAI introduces the Learning Outcomes Measurement Suite to assess AI’s impact on student learning across diverse educational environments over time.
AI 生成摘要
OpenAI 推出學習成效測量套件,旨在評估 AI 在不同教育環境中隨時間推移對學生學習產生的影響。
2026 年 3 月 4 日
推進 AI 在各種學習環境中影響力的衡量方式
教育是 AI 最具前景的前沿領域之一。透過像 ChatGPT 這樣的工具,任何學生在任何地點、任何時間都能獲得個人化的學習支持。
但教育界對於 AI 對學習成效影響的理解仍處於早期階段。去年,我們的團隊開始研究「學習模式」(study mode)等工具的使用情況,並發現學生的表現有顯著提升。但我們的研究也提出了一個重要的問題:我們該如何評估 AI 如何隨著時間影響學習者的進步,而不僅僅是看最終考試成績?
這是一個更廣泛的生態系統挑戰。迄今為止,大多數研究方法都集中在狹隘的表現信號上(例如測試分數),缺乏評估學生在現實環境中如何實際利用 AI 學習,以及這種使用方式如何隨著時間塑造學習成果的能力。
為了填補這一空白,我們開發了「學習成效測量套件」(Learning Outcomes Measurement Suite),這是一個與愛沙尼亞塔爾圖大學(University of Tartu)以及史丹佛大學學習加速器(Stanford Accelerator for Learning)的 SCALE 倡議共同創建的框架,旨在支持跨不同教育背景的學習成效縱向測量。
目前正透過隨機對照試驗進行廣泛的驗證,並計劃與 OpenAI 的學習研究生態系統「學習實驗室」(Learning Lab)的創始機構進行進一步研究,包括來自亞利桑那州立大學、倫敦大學學院知識實驗室(UCL Knowledge Lab)和麻省理工學院媒體實驗室(MIT Media Lab)的研究人員(基於先前的合作研究)。
今天,我們將分享該測量套件運作方式的概覽及其重要性。隨著時間推移,我們打算發布更多研究成果,並將該測量套件作為公共資源開放給全球的學校、大學和教育系統。
當學生使用 AI 工具進行研究和學習時,其意義可能大不相同——從向 AI 尋求快速答案,到將其作為導師般的引導,循序漸進地解決問題。為了鼓勵用戶以支持深度理解和技能構建的方式與 ChatGPT 互動,OpenAI 於去年推出了「學習模式」。在底層,學習模式由我們與教師、科學家和教育學專家合作編寫的自定義系統指令驅動,以反映一組支持真正學習而非僅僅提供答案的核心行為——利用鷹架式引導(scaffolding)、理解度檢查和引導式練習。
為了測試這種符合教育學原則的 AI 互動風格是否能轉化為更好的學習成效,我們對 300 多名準備神經科學和微觀經濟學考試的大學生進行了一項隨機研究。雖然分析仍在進行中,但早期結果讓我們有信心,透過「學習模式」等功能鼓勵的教育學導向 AI 互動風格,可以改善學習成效。但這項研究也揭示了一個重要的現實:真正重要的是這些收益和相關的生產性行為是否能長期保持。
研究設計
參與者被分配到三個組別之一:對照組使用傳統的線上資源(如 Google 搜尋和 YouTube)進行學習,並禁用 AI 生成的概覽功能;另外兩個組別則可以使用兩種「學習模式」變體之一,這些變體旨在以略有不同的方式引導學生完成學習過程。研究預先收集了基準測試和入學調查,以調整先前課程接觸程度、學習習慣、學術信心以及對 AI 工具熟悉程度的差異。學生在每次考試前完成定時的學習模式課程,兩種學習模式變體在不同科目間進行平衡。
此設置旨在反映現實世界的學習條件,而非嚴格控制的實驗室環境。參與度與考試表現不掛鉤,且並非所有學生在名義上的 40 分鐘課程中都以相同程度使用學習模式。這使我們能夠衡量並報告「意向處理」(ITT)效應,即在現實部署條件下提供該工具的使用權所產生的影響——換句話說,即提供學習模式的因果影響,並承認實際參與度可能有所不同。
研究結果
我們分別衡量了每門考試的表現。在我們的隨機研究中,各科目的進步並不統一,參與者對學習模式的參與程度也各不相同。
當我們分別將每個學習模式變體與對照組進行比較時,效果保持一致。
雖然這反映了現實世界的變異性,但也凸顯了傳統學習成效衡量方式的深層局限性。
大多數現有的評估方法依賴於在短時間窗內評估的固定干預,並以測試分數或最終論文作為主要信號。這些方法並非旨在捕捉 AI 在實踐中影響學習的核心機制:隨著學習者自身的策略、偏好和學習習慣而演變的持續性、個人化互動。它們也無法揭示某一能力的提升(如短期記憶)是否伴隨著其他能力的權衡(如持久性、自主動機或創造性問題解決能力)。因此,它們忽略了最終決定 AI 是否能有意義地改善學習的縱向認知效應。
由於各國、各課程和各機構目標的學習環境差異巨大,單次研究的結果很少能推廣到所有系統。因此,衡量方法必須具有足夠的靈活性,以便不同的教育系統能夠定義其背景下的成功標準,根據自身標準評估 AI,並據此進行迭代。
構建更好的衡量系統
基於 OpenAI 學習模式研究的經驗,我們一直在構建一個結構化的衡量系統,以大規模衡量 AI 對學習者的影響,並建立一個根據這些結果改進模型的機制。它基於三個信號:模型如何表現、學習者如何反應,以及隨時間產生的可衡量認知結果。它包括:
當這些部分結合在一起時,我們稱之為「學習成效測量套件」。
它能產生教育生態系統可以利用的重要信號:學習時刻的結構化視圖、顯示各群體成效隨時間變化的儀表板、模型對照教學和輔導準則的表現指標,以及與標準化評估和簡短學習者問卷一致的成效衡量指標。在可行情況下,它還可以納入合作夥伴提供的基準數據(ground truth),如考試分數、課堂觀察或出勤率。
所有數據均已去識別化
它還使我們的合作夥伴能夠了解隨時間使用 AI 學習的深層認知影響,因為我們能夠透過此系統追蹤對以下能力的影響:
這反映了我們的整體努力,即不單純關注狹隘的學習成效定義(分數上升),而是關注支撐學習的整體能力。這也反映了我們的信念:在優化目標方面沒有萬靈丹,系統和教育工作者需要被賦予權力,以引導符合教育學最佳實踐和方法的權衡。
未來展望
在廣泛開放使用之前,我們正透過大規模研究驗證學習成效測量套件。這項工作正與塔爾圖大學和史丹佛大學的 SCALE 倡議合作,在愛沙尼亞等國家級合作夥伴中展開,該測量套件正對近 20,000 名 16-18 歲的學生進行為期數月的研發。學生的使用將與當地領導者密切合作,以確保安全並符合當地課程要求。
這項工作建立在更廣泛的合作研究基礎之上。除了透過學習實驗室的創始夥伴進行的成效研究外,OpenAI 還支持學習與勞動力交匯處的研究——探討 AI 如何塑造學生的學術路徑、職業決策,以及機構支持負責任採用的方式。這項研究正在博科尼大學(Bocconi University)、Innova Schools、達特茅斯學院塔克商學院(Tuck School of Business at Dartmouth)、聖地牙哥州立大學、石溪大學等機構進行。
隨著我們對學生如何利用 AI 進行最佳學習開展長期研究,我們打算分享研究結果,並與更廣泛的教育生態系統合作,確保 AI 惠及各地的學習者。
有興趣接收此項工作更新的人士可以在此註冊。
全球事務,2026 年 2 月 26 日
全球事務,2026 年 2 月 26 日
全球事務,2026 年 2 月 23 日