Anthropic 教育報告：AI 流暢度指數

Anthropic Research

6 天前

AI 生成摘要

本報告介紹了 AI 流暢度指數，旨在衡量使用者如何培養將 AI 視為思考夥伴而非僅僅委派任務的技能。我們發現使用者在擴增式對話中表現出較高的流暢度，但在面對 AI 生成的程式碼或文件等產出物時，較少質疑其推理過程或指出缺失的背景資訊。

Anthropic 教育報告：AI 熟練度指數 \ Anthropic

Anthropic 教育報告：AI 熟練度指數

人們將 AI 工具融入日常生活的速度之快，即便在一年之前也難以預料。但僅憑採用率並不能告訴我們這些工具帶來的影響。一個更進一步且同樣重要的問題是：隨著 AI 成為日常生活的一部分，個人是否正在培養善用它的技能？

之前的 Anthropic 教育報告研究了大學生和教育工作者如何使用 Claude。我們發現學生利用它來撰寫報告和分析實驗結果；教育工作者則用它來製作教材和自動化日常工作。但我們知道，任何使用 AI 的人都有可能在工作表現上有所提升。我們希望進一步探索這一點，並了解使用 AI 的人如何隨著時間的推移，對這項技術產生「熟練度」。

在本報告中，我們開始回答這個問題。我們透過大量匿名對話樣本，追蹤一系列代表 AI 熟練度的行為分類是否存在。

與我們最近發布的經濟指數一致，我們發現 AI 熟練度最常見的表現是「增強式」的——即將 AI 視為思考夥伴，而非完全委派工作。事實上，這類對話展現出的 AI 熟練行為數量，是快速往返式對話的兩倍以上。

但我們也發現，當 AI 產生「成品」（Artifacts）時——包括應用程式、程式碼、文件或互動工具——使用者質疑其推理過程的可能性較低（下降 3.1 個百分點），識別缺失背景資訊的可能性也較低（下降 5.2 個百分點）。這與我們最近關於程式設計技能研究中觀察到的相關模式一致。

這些初步發現為我們提供了一個基準，可用於研究 AI 熟練度隨時間發展的情況。

衡量 AI 熟練度

為了量化 AI 熟練度，我們採用了由 Rick Dakan 教授和 Joseph Feller 教授與 Anthropic 合作開發的「4D AI 熟練度框架」。該框架幫助我們定義了 24 種特定行為，我們認為這些行為體現了安全且有效的人機協作。

在這 24 種行為中，有 11 種（列於下圖）在人類於 Claude.ai 或 Claude Code 上與 Claude 互動時是可以直接觀察到的。另外 13 種（包括誠實對待 AI 在工作中的角色，或考慮分享 AI 生成內容的後果等）發生在 Claude.ai 的對話介面之外，因此我們很難追蹤。這些不可觀察的行為可以說是 AI 熟練度中最重要的維度，因此在未來的工作中，我們計劃使用定性方法來評估它們。

在本研究中，我們專注於這 11 種直接可觀察的行為。我們使用保護隱私的分析工具，研究了 2026 年 1 月為期 7 天內，包含多次與 Claude 往返對話的 9,830 個對話樣本。1 隨後我們衡量了這 11 種行為的出現情況；每個對話都可能顯示多種行為的證據。我們透過檢查結果在每週各天以及樣本中不同語言之間是否一致，來評估樣本的可靠性（我們發現結果是一致的）。2 最終，這為我們提供了「AI 熟練度指數」：一個衡量當前人們如何與 AI 協作的基準，以及一個追蹤這些行為如何隨模型變化而演進的基礎。

研究結果

透過這項初步研究，我們在 Claude 的使用中發現了兩個主要模式：AI 熟練度與透過較長對話進行「迭代與完善」之間存在強烈關聯，以及使用者在編寫程式碼或建立其他產出時，其熟練行為會發生變化。

熟練度與展現「迭代與完善」的對話高度相關

數據中最強大的模式之一，是「迭代與完善」與所有其他 AI 熟練行為之間的關係。樣本中 85.7% 的對話展現了迭代與完善：即在之前的交流基礎上完善使用者的工作，而不是接受第一個回覆就轉向新任務。如下圖所示，這些對話展現出其他熟練行為的比例明顯更高：

平均而言，具有迭代與完善過程的對話會多展現 2.67 個熟練行為——大約是非迭代對話（1.33 個）的兩倍。這在與「評估 Claude 產出」相關的熟練行為中尤為明顯。具有迭代與完善過程的對話，使用者質疑 Claude 推理的可能性高出 5.6 倍，識別缺失背景資訊的可能性高出 4 倍。

在建立產出時，使用者變得更具指令性，但評估性降低

我們樣本中 12.3% 的對話涉及「成品」（Artifacts），包括程式碼、文件、互動工具和其他產出。在這些對話中，人們與 AI 協作的方式截然不同。

具體而言，我們發現屬於「描述」和「委派」大類下的行為比例大幅增加。例如，與非成品對話相比，這些對話中使用者更有可能澄清目標（+14.7 個百分點）、指定格式（+14.5pp）、提供範例（+13.4pp）以及進行迭代（+9.7pp）。換句話說，他們在工作開始時做了更多引導 AI 的工作。

但這種指令性並不對應更高水平的評估或辨別力。事實上，情況正好相反：在建立成品的對話中，使用者識別缺失背景資訊（-5.2pp）、核實事實（-3.7pp）或透過要求解釋邏輯來質疑模型推理（-3.1pp）的可能性較低。我們的經濟指數發現，不出所料，最複雜的任務正是 Claude 最吃力的地方，因此這一點特別值得注意。

這種模式有幾種可能的解釋。可能是因為 Claude 建立了看起來精美且功能完備的產出，讓人覺得沒必要進一步質疑：如果工作看起來完成了，使用者可能會直接視其為完成。但也可能是因為成品對話涉及的任務中，事實精確度不如美觀或功能性重要（例如設計 UI 與撰寫法律分析相比）。或者，使用者可能正在透過我們無法觀察的管道評估成品——例如運行程式碼、在其他地方測試 App、與同事分享草稿——而不是在同一個初始對話中表達他們的評估。

無論解釋為何，這種模式都值得關注。隨著 AI 模型產出精美內容的能力日益增強，批判性評估這些產出的能力（無論是在直接對話中還是透過其他手段）將變得愈發重要。

培養您自己的 AI 熟練度

局限性

本研究包含以下重要的注意事項：

展望未來

這項研究為我們提供了一個基準，可用於評估 AI 熟練度隨時間變化的情況。隨著 AI 能力的演進和採用率的提高，我們旨在了解使用者是否正在發展出更複雜的行為、哪些技能會隨著經驗自然產生，以及哪些技能需要更有意識地培養。

在未來的工作中，我們計劃從幾個方向擴展分析。首先，我們計劃進行「群體分析」（Cohort analyses），比較新使用者與資深使用者，以了解對 AI 的熟悉程度與熟練度發展之間的相關性。其次，我們計劃使用定性研究方法來評估在 Claude.ai 對話中無法直接觀察到的行為。第三，我們旨在探索這項工作提出的因果問題——例如鼓勵迭代對話是否會導致更多的批判性評估，或者是否有其他干預措施可以更有效地鼓勵這種行為。

此外，我們希望探索 Claude Code 中的 AI 熟練行為，這是一個主要由軟體開發人員使用的平台。在準備本研究時，我們進行了一些初步分析，發現 Claude Code 對話與 Claude.ai 對話之間具有一致性。但這仍屬初步階段，Claude Code 極其不同的使用者群體和功能意味著需要進行更實質性的研究。

我們預期 AI 熟練度的本質將隨著時間大幅發展和演變。透過這項及未來的研究，我們旨在使這種發展變得可見、可衡量且可採取行動。

Bibtex

如果您想引用此文章，可以使用以下 Bibtex 鍵值：

致謝

Kristen Swanson 設計了本研究，領導了分析並撰寫了本報告。Zoe Ludwig、Saffron Huang 和 Drew Bent 在框架對齊、訊息傳遞和審查方面做出了貢獻。AI 熟練度 4D 框架由 Rick Dakan 和 Joe Feller 開發。Zack Lee 提供了技術支持。Hanah Ho 協助了數據視覺化。Keir Bradwell、Rebecca Hiscott、Ryan Donegan 和 Sarah Pollack 提供了溝通審查和指導。

1 在研究人們如何使用 AI 模型時，保護使用者隱私至關重要。對於此項目，我們使用了保護隱私的分析工具，該工具透過將使用者對話提煉為高層級的使用摘要（如「排除程式碼故障」或「解釋經濟概念」），實現由下而上的 AI 使用模式發現。在此分析中，我們使用 Claude Sonnet 4 進行行為分類，並使用 Claude Haiku 3.5 進行語言檢測，運行了 11 個獨立的二元分類器（每個行為指標一個）。這意味著單個對話可能顯示多個 AI 熟練度行為指標。對話經過篩選，僅保留具有多次往返的實質性交流，排除了問候語、單詞交流、測試訊息和純粹的閒聊。對 200 個被篩選掉的對話進行人工審查顯示，此類性質的對話不符合任何 AI 熟練度指標，因此我們確信篩選器沒有影響研究中觀察到的 AI 熟練行為的相對排名。分析中未出現任何個人身份資訊。

2 行為指標是根據為期一週的樣本（2025 年 1 月 20 日至 26 日）計算的，且每天保持穩定，大多數行為的波動僅在 1-5 個百分點之間。週六的某些行為比例略低（例如，迭代與完善在週六為 81.4%，而工作日高峰為 87.9%），這表明隨意使用與有目的使用之間存在細微差異，但沒有哪一天顯示出有意義的結構性偏差。六種語言（英語、法語、西班牙語、中文、日語和德語）的比例也保持一致，大多數行為在不同語言組之間的差異在 3 個百分點或更少。綜合來看，這些發現表明這裡捕捉到的行為模式反映了人們與 AI 互動的一致習慣，而非時間、星期幾或語言文化背景的偶然產物。

Anthropic 教育報告：AI 流暢度指數

Anthropic 教育報告：AI 熟練度指數 \ Anthropic