newsence
來源篩選

Anthropic Education Report: The AI Fluency Index

Anthropic Research

Anthropic introduces the AI Fluency Index to measure how people develop skills to use AI effectively, finding that iterative conversations significantly enhance fluency while artifact creation can lead to less critical evaluation.

newsence

Anthropic 教育報告:AI 熟練度指數

Anthropic Research
6 天前

AI 生成摘要

Anthropic 推出了 AI 熟練度指數,用以衡量人們如何培養有效使用 AI 的技能,並發現迭代對話能顯著提升熟練度,但在生成程式碼或文件等產出物時,使用者往往會減少批判性評估。

Anthropic 教育報告:AI 流利度指數

Anthropic 教育報告:AI 流利度指數

Anthropic 教育報告:AI 流利度指數

人們將 AI 工具融入日常生活的速度,在短短一年前都還難以預測。但僅憑採用率並不能告訴我們這些工具產生的影響。另一個同樣重要的問題是:隨著 AI 成為日常生活的一部分,個人是否正在培養善用它的技能?

之前的 Anthropic 教育報告研究了大學生和教育工作者如何使用 Claude。我們發現學生用它來撰寫報告和分析實驗結果;教育工作者則用它來製作教材和自動化例行工作。但我們知道,任何使用 AI 的人都有可能在工作表現上有所提升。我們希望進一步探索這一點,並了解使用 AI 的人如何隨著時間的推移,對這項技術產生「流利度」(fluency)。

在本報告中,我們開始回答這個問題。我們透過大量匿名對話樣本,追蹤一組代表 AI 流利度的行為分類是否存在。

與我們最近發佈的經濟指數一致,我們發現 AI 流利度最常見的表現是「增強式」的——將 AI 視為思考夥伴,而非完全委派工作。事實上,這類對話展現出的 AI 流利行為數量,是快速簡短對話的兩倍以上。

但我們也發現,當 AI 產生「成品」(Artifacts)時——包括應用程式、程式碼、文件或互動工具——使用者質疑其推理過程的可能性較低(下降 3.1 個百分點),識別缺失背景資訊的可能性也較低(下降 5.2 個百分點)。這與我們最近關於程式編寫技能研究中觀察到的相關模式一致。

這些初步發現為我們提供了一個基準,可用於研究 AI 流利度隨時間發展的情況。

衡量 AI 流利度

為了量化 AI 流利度,我們使用了由 Rick Dakan 教授和 Joseph Feller 教授與 Anthropic 合作開發的「4D AI 流利度框架」。該框架幫助我們定義了 24 種特定行為,我們認為這些行為體現了安全且有效的人機協作。

在這 24 種行為中,有 11 種(列於下圖)是在人類於 Claude.ai 或 Claude Code 上與 Claude 互動時可以直接觀察到的。其他 13 種(包括誠實說明 AI 在工作中的角色,或考慮分享 AI 生成內容的後果等)發生在 Claude.ai 的聊天介面之外,因此我們很難追蹤。這些不可觀察的行為可以說是 AI 流利度中最重要的維度,因此在未來的研究中,我們計劃使用定性方法來評估它們。

在本次研究中,我們專注於 11 種直接可觀察的行為。我們使用保護隱私的分析工具,研究了 2026 年 1 月為期 7 天內,包含多次與 Claude 往返對話的 9,830 個對話樣本。1 接著我們測量了這 11 種行為的出現與否;每個對話都可能展現多種行為的證據。我們透過檢查結果在每週各天以及樣本中不同語言之間是否一致,來評估樣本的可靠性(我們發現結果是一致的)。2 最終,這為我們提供了「AI 流利度指數」:一個衡量當前人們如何與 AI 協作的基準,也為追蹤這些行為如何隨模型變化而演進奠定了基礎。

圖片

研究結果

透過這項初步研究,我們在 Claude 的使用中發現了兩個主要模式:AI 流利度與透過較長對話進行的「迭代與完善」之間存在強烈關聯,以及使用者在編寫程式或建立其他產出時,流利度行為會發生變化。

流利度與展現「迭代與完善」的對話高度相關

數據中最強大的模式之一,是「迭代與完善」與所有其他 AI 流利行為之間的關係。樣本中 85.7% 的對話展現了迭代與完善:即在之前的交流基礎上精進使用者的工作,而非接受第一個回覆就轉向新任務。如下表所示,這些對話在其他流利行為上的比例顯著更高:

迭代與完善效應:顯示有/無迭代與完善行為率的比較表或視覺圖

平均而言,具有迭代與完善過程的對話會多展現 2.67 個流利行為——大約是非迭代對話(1.33 個)的兩倍。這在與評估 Claude 輸出相關的流利行為中尤為明顯。具有迭代與完善過程的對話,使用者質疑 Claude 推理的可能性高出 5.6 倍,識別缺失背景資訊的可能性高出 4 倍。

在建立產出時,使用者變得更具指令性,但評估性降低

樣本中 12.3% 的對話涉及「成品」(Artifacts),包括程式碼、文件、互動工具和其他產出。在這些對話中,人們與 AI 協作的方式截然不同。

具體而言,我們發現屬於「描述」和「委派」大類別下的行為比例顯著升高。例如,與非成品對話相比,這些對話中的使用者更有可能澄清目標(+14.7 個百分點)、指定格式(+14.5 個百分點)、提供範例(+13.4 個百分點)以及進行迭代(+9.7 個百分點)。換句話說,他們在工作開始時做了更多引導 AI 的工作。

但這種指令性並沒有對應到更高水平的評估或辨別能力。事實上,情況正好相反:在建立成品的對話中,使用者識別缺失背景資訊(-5.2 個百分點)、查證事實(-3.7 個百分點)或透過要求模型解釋其原理來質疑其推理(-3.1 個百分點)的可能性較低。我們的經濟指數發現——意料之中的是——最複雜的任務正是 Claude 最吃力的地方,因此這一點似乎特別值得注意。

成品 vs. 非成品比較表或配對條形圖

這種模式有幾種可能的解釋。可能是因為 Claude 產出了精美、看起來功能完備的成品,讓人覺得沒必要進一步質疑:如果作品看起來已經完成了,使用者可能會直接接受。但也可能是因為成品對話涉及的任務中,事實精確度不如美觀或功能性重要(例如設計 UI 與撰寫法律分析)。或者,使用者可能正在透過我們無法觀察到的管道評估成品——例如在別處執行程式碼、測試應用程式、與同事分享草稿——而不是在同一個初始對話中表達他們的評估。

無論解釋為何,這種模式都值得關注。隨著 AI 模型產出精美作品的能力日益增強,批判性評估這些產出的能力(無論是在直接對話中還是透過其他方式)將變得越來越有價值,而非相反。

培養您自己的 AI 流利度

局限性

本研究包含以下重要注意事項:

展望未來

這項研究為我們提供了一個基準,可用於評估 AI 流利度隨時間變化的情況。隨著 AI 能力的演進和採用率的增加,我們旨在了解使用者是否正在發展出更複雜的行為、哪些技能會隨著經驗自然產生,以及哪些技能需要更有意識地培養。

在未來的研究中,我們計劃從幾個方向擴展分析。首先,我們計劃進行「群體分析」(cohort analyses),比較新使用者與資深使用者,以了解對 AI 的熟悉程度與流利度發展之間的相關性。其次,我們計劃使用定性研究方法來評估在 Claude.ai 對話中無法直接觀察到的行為。第三,我們旨在探索這項工作提出的因果問題——例如鼓勵迭代對話是否會導致更強的批判性評估,或者是否有其他干預措施可以更有效地鼓勵這一點。

此外,我們希望探索 Claude Code 中的 AI 流利行為,這是一個主要由軟體開發人員使用的平台。在準備這項研究時,我們進行了一些初步分析,發現 Claude Code 對話與 Claude.ai 對話之間具有一致性。但這仍是初步的,Claude Code 非常不同的使用者群體和功能意味著需要進行更深入的研究。

我們預計 AI 流利度的本質將隨時間發生重大發展與演變。透過這項及未來的研究,我們旨在使這種發展變得可見、可衡量且可採取行動。

Bibtex

如果您想引用此貼文,可以使用以下 Bibtex 鍵值:

致謝

Kristen Swanson 設計了本研究,領導了分析並撰寫了此報告。Zoe Ludwig 和 Drew Bent 在框架對齊、訊息傳遞和審查方面做出了貢獻。AI 流利度 4D 框架由 Rick Dakan 和 Joe Feller 開發。Zack Lee 提供了技術支持。Hanah Ho 協助了數據視覺化。Keir Bradwell、Rebecca Hiscott、Ryan Donegan 和 Sarah Pollack 提供了通訊審查和指導。

腳註

1 在研究人們如何使用 AI 模型時,保護使用者隱私至關重要。對於此專案,我們使用了保護隱私的分析工具,該工具透過將使用者對話提煉為高層次的使用摘要(如「排除程式碼錯誤」或「解釋經濟概念」),實現對 AI 使用模式的自下而上探索。在本次分析中,我們使用 Claude Sonnet 4 進行行為分類,並使用 Claude Haiku 3.5 進行語言檢測,運行了 11 個獨立的二元分類器(每個行為指標一個)。這意味著單個對話可能顯示多個 AI 流利度行為指標。對話經過篩選,僅保留具有多次往返的實質性交流,排除了問候、單詞交流、測試訊息和純聊天。對 200 個被篩選掉的聊天進行人工審查後發現,這類聊天不符合任何 AI 流利度指標,因此我們有信心篩選器不會影響研究中觀察到的 AI 流利行為的相對排名。分析中不出現任何個人識別資訊。

2 行為指標是根據為期一週的樣本(2025 年 1 月 20 日至 26 日)計算的,且每天保持穩定,大多數行為的波動僅在 1-5 個百分點之間。週六的某些行為比例略低(例如,週六的迭代與完善比例為 81.4%,而工作日高峰為 87.9%),這表明隨意使用與有目的使用之間存在微小差異,但沒有哪一天顯示出有意義的結構性偏差。六種語言(英語、法語、西班牙語、中文、日語和德語)的比例也保持一致,大多數行為在不同語言組別間的差異在 3 個百分點以內。總之,這些發現表明這裡捕捉到的行為模式反映了人們與 AI 互動的穩定習慣,而非時間、星期幾或語言文化背景的產物。

相關內容

關於我們對 Claude Opus 3 模型棄用承諾的更新

人格選擇模型

在實踐中衡量 AI 代理的自主性