Guide Labs 推出新型可解釋大型語言模型

Techcrunch

5 天前

AI 生成摘要

Guide Labs 開源了一款擁有 80 億參數的大型語言模型 Steerling-8B，其採用的新架構設計使模型行為易於解釋，生成的每個標記都能追溯至其訓練數據來源。

Guide Labs 推出新型可解釋大型語言模型 (LLM) | TechCrunch

購買門票最高可省 680 美元，享有超早鳥優惠。立即註冊。

Disrupt 2026 門票最高可省 680 美元。2 月 27 日截止。立即註冊。

主題

Guide Labs 推出新型可解釋大型語言模型 (LLM)

駕馭深度學習模型的挑戰通常在於理解它為什麼會這樣做：無論是 xAI 反覆嘗試微調 Grok 奇怪的政治立場、ChatGPT 的諂媚問題，還是司空見慣的幻覺，要深入探究擁有數十億參數的神經網路並非易事。

總部位於舊金山的新創公司 Guide Labs，由執行長 Julius Adebayo 和首席科學官 Aya Abdelsalam Ismail 創立，於今日對此問題提出了答案。週一，該公司開源了一個擁有 80 億參數的大型語言模型 Steerling-8B，該模型採用了一種旨在使其行為易於解釋的新架構：模型產生的每個標記（token）都可以追溯到其在 LLM 訓練數據中的來源。

這可以簡單到確定模型引用事實的參考資料，也可以複雜到理解模型對幽默或性別的認知。

Adebayo 告訴 TechCrunch：「如果我有一兆種編碼性別的方式，而我將其編碼在這一兆種方式中的十億種裡，你必須確保能找到我編碼的所有那十億種東西，然後你必須能夠可靠地開啟或關閉它們。目前的模型雖然可以做到，但非常脆弱……這算是終極難題之一。」

Adebayo 在麻省理工學院（MIT）攻讀博士學位期間開始了這項研究，並於 2020 年共同發表了一篇被廣泛引用的論文，該論文指出當時理解深度學習模型的方法並不穩定。這項研究最終促成了一種構建 LLM 的新方法：開發者在模型中插入一個「概念層」（concept layer），將數據分類為可追溯的類別。這需要更多前期的數據標註，但透過使用其他 AI 模型協助，他們成功訓練出這個模型，作為目前最大的概念驗證。

Adebayo 表示：「人們通常做的可解釋性研究就像是對模型進行『神經科學』研究，而我們將其反轉。我們做的是從底層開始對模型進行工程設計，這樣你就不需要進行神經科學研究了。」

這種方法的一個擔憂是，它可能會消除一些使 LLM 如此引人入勝的「湧現行為」（emergent behaviors）：即模型對尚未接受過訓練的事物以新方式進行泛化的能力。Adebayo 表示，這種情況在他們公司的模型中仍然會發生：他的團隊追蹤他們所謂的「發現的概念」（discovered concepts），即模型自行發現的概念，例如量子運算。

TechCrunch 創始人峰會最高可省 300 美元或 30%

Adebayo 主張，這種可解釋的架構將是每個人的需求。對於面向消費者的 LLM，這些技術應能讓模型構建者執行諸如封鎖受版權保護材料的使用，或更好地控制暴力或藥物濫用等主題的輸出。受監管的行業將需要更具可控性的 LLM，例如在金融領域，評估貸款申請人的模型需要考慮財務記錄而非種族。科學研究也需要可解釋性，這是 Guide Labs 開發技術的另一個領域。蛋白質折疊一直是深度學習模型的重大成功，但科學家需要更多地了解為什麼他們的軟體能找出成功的組合。

Adebayo 說：「這個模型證明了訓練可解釋模型不再是一種科學探索，而是一個工程問題。我們已經解決了科學問題，並且可以擴大規模，沒有理由這種模型不能達到尖端模型（擁有更多參數的模型）的性能。」

Guide Labs 表示，得益於其新穎的架構，Steerling-8B 可以達到現有模型 90% 的能力，但使用的訓練數據更少。該公司出身於 Y Combinator，並於 2024 年 11 月從 Initialized Capital 籌集了 900 萬美元的種子輪融資。下一步是構建更大的模型，並開始向用戶提供 API 和代理（agentic）訪問權限。

Adebayo 告訴 TechCrunch：「我們目前訓練模型的方式非常原始，因此將內在的可解釋性民主化，長遠來看對人類是有益的。當我們追求這些將變得超智慧的模型時，你不希望有東西在你不知情的情況下替你做決定。」

主題

2 月 27 日前購買門票最高可省 680 美元。會見投資者。發現你的下一個投資組合公司。聽取 250 多位科技領袖的見解，深入參與 200 多場會議，並探索 300 多家正在構建未來的新創公司。不要錯過這些一次性的優惠。

Guide Labs 推出新型可解釋大型語言模型

Guide Labs 推出新型可解釋大型語言模型 (LLM) | TechCrunch

主題

更多來自 TechCrunch

Guide Labs 推出新型可解釋大型語言模型 (LLM)

TechCrunch 創始人峰會最高可省 300 美元或 30%

TechCrunch 創始人峰會最高可省 300 美元或 30%

最受歡迎內容

這台 9,000 磅重的怪物，我不想還回去

Sam Altman 想提醒你，人類也消耗大量能源

Google 副總裁警告：兩類 AI 新創公司可能無法生存

xAI 的好消息：Grok 現在非常擅長回答關於《柏德之門》的問題

FBI 表示 ATM「大獎攻擊」（jackpotting）呈上升趨勢，駭客已竊取數百萬現金

一家名為 Germ 的新創公司成為首個直接從 Bluesky 應用程式啟動的私訊工具

Meta 自身研究發現：家長監督對遏制青少年沉迷社群媒體幾乎沒有幫助

Guide Labs debuts a new kind of interpretable LLM

Guide Labs 推出新型可解釋大型語言模型 (LLM) | TechCrunch

主題

更多來自 TechCrunch

Guide Labs 推出新型可解釋大型語言模型 (LLM)

TechCrunch 創始人峰會最高可省 300 美元或 30%

TechCrunch 創始人峰會最高可省 300 美元或 30%

最受歡迎內容

這台 9,000 磅重的怪物，我不想還回去

Sam Altman 想提醒你，人類也消耗大量能源

Google 副總裁警告：兩類 AI 新創公司可能無法生存

xAI 的好消息：Grok 現在非常擅長回答關於《柏德之門》的問題

FBI 表示 ATM「大獎攻擊」（jackpotting）呈上升趨勢，駭客已竊取數百萬現金

一家名為 Germ 的新創公司成為首個直接從 Bluesky 應用程式啟動的私訊工具

Meta 自身研究發現：家長監督對遏制青少年沉迷社群媒體幾乎沒有幫助