newsence
來源篩選

Guide Labs debuts a new kind of interpretable LLM

Techcrunch

The company open-sourced an 8 billion parameter LLM, Steerling-8B, trained with a new architecture designed to make its actions easily interpretable.

newsence

Guide Labs 推出新型可解釋大型語言模型

Techcrunch
5 天前

AI 生成摘要

Guide Labs 開源了一款擁有 80 億參數的大型語言模型 Steerling-8B,其採用的新架構設計使模型行為易於解釋,生成的每個標記都能追溯至其訓練數據來源。

Guide Labs 推出新型可解釋大型語言模型 (LLM) | TechCrunch

購買門票最高可省 680 美元,享有超早鳥優惠。立即註冊。

Disrupt 2026 門票最高可省 680 美元。2 月 27 日截止。立即註冊。

圖片 圖片

主題

最新消息

人工智慧 (AI)

亞馬遜 (Amazon)

應用程式 (Apps)

生物技術與健康

氣候

雲端運算

商業

加密貨幣

企業

電動車 (EVs)

金融科技

募資

裝置

遊戲

Google

政府與政策

硬體

Instagram

裁員

媒體與娛樂

Meta

微軟 (Microsoft)

隱私

機器人

安全

社群

太空

新創公司

TikTok

交通

創投

更多來自 TechCrunch

團隊成員

活動

Startup Battlefield

StrictlyVC

電子報

播客 (Podcasts)

影片

合作夥伴內容

TechCrunch 品牌工作室

Crunchboard

聯繫我們

圖片

Guide Labs 推出新型可解釋大型語言模型 (LLM)

駕馭深度學習模型的挑戰通常在於理解它為什麼會這樣做:無論是 xAI 反覆嘗試微調 Grok 奇怪的政治立場、ChatGPT 的諂媚問題,還是司空見慣的幻覺,要深入探究擁有數十億參數的神經網路並非易事。

總部位於舊金山的新創公司 Guide Labs,由執行長 Julius Adebayo 和首席科學官 Aya Abdelsalam Ismail 創立,於今日對此問題提出了答案。週一,該公司開源了一個擁有 80 億參數的大型語言模型 Steerling-8B,該模型採用了一種旨在使其行為易於解釋的新架構:模型產生的每個標記(token)都可以追溯到其在 LLM 訓練數據中的來源。

這可以簡單到確定模型引用事實的參考資料,也可以複雜到理解模型對幽默或性別的認知。

Adebayo 告訴 TechCrunch:「如果我有一兆種編碼性別的方式,而我將其編碼在這一兆種方式中的十億種裡,你必須確保能找到我編碼的所有那十億種東西,然後你必須能夠可靠地開啟或關閉它們。目前的模型雖然可以做到,但非常脆弱……這算是終極難題之一。」

Adebayo 在麻省理工學院(MIT)攻讀博士學位期間開始了這項研究,並於 2020 年共同發表了一篇被廣泛引用的論文,該論文指出當時理解深度學習模型的方法並不穩定。這項研究最終促成了一種構建 LLM 的新方法:開發者在模型中插入一個「概念層」(concept layer),將數據分類為可追溯的類別。這需要更多前期的數據標註,但透過使用其他 AI 模型協助,他們成功訓練出這個模型,作為目前最大的概念驗證。

Adebayo 表示:「人們通常做的可解釋性研究就像是對模型進行『神經科學』研究,而我們將其反轉。我們做的是從底層開始對模型進行工程設計,這樣你就不需要進行神經科學研究了。」

圖片

這種方法的一個擔憂是,它可能會消除一些使 LLM 如此引人入勝的「湧現行為」(emergent behaviors):即模型對尚未接受過訓練的事物以新方式進行泛化的能力。Adebayo 表示,這種情況在他們公司的模型中仍然會發生:他的團隊追蹤他們所謂的「發現的概念」(discovered concepts),即模型自行發現的概念,例如量子運算。

TechCrunch 創始人峰會最高可省 300 美元或 30%

TechCrunch 創始人峰會最高可省 300 美元或 30%

Adebayo 主張,這種可解釋的架構將是每個人的需求。對於面向消費者的 LLM,這些技術應能讓模型構建者執行諸如封鎖受版權保護材料的使用,或更好地控制暴力或藥物濫用等主題的輸出。受監管的行業將需要更具可控性的 LLM,例如在金融領域,評估貸款申請人的模型需要考慮財務記錄而非種族。科學研究也需要可解釋性,這是 Guide Labs 開發技術的另一個領域。蛋白質折疊一直是深度學習模型的重大成功,但科學家需要更多地了解為什麼他們的軟體能找出成功的組合。

Adebayo 說:「這個模型證明了訓練可解釋模型不再是一種科學探索,而是一個工程問題。我們已經解決了科學問題,並且可以擴大規模,沒有理由這種模型不能達到尖端模型(擁有更多參數的模型)的性能。」

Guide Labs 表示,得益於其新穎的架構,Steerling-8B 可以達到現有模型 90% 的能力,但使用的訓練數據更少。該公司出身於 Y Combinator,並於 2024 年 11 月從 Initialized Capital 籌集了 900 萬美元的種子輪融資。下一步是構建更大的模型,並開始向用戶提供 API 和代理(agentic)訪問權限。

Adebayo 告訴 TechCrunch:「我們目前訓練模型的方式非常原始,因此將內在的可解釋性民主化,長遠來看對人類是有益的。當我們追求這些將變得超智慧的模型時,你不希望有東西在你不知情的情況下替你做決定。」

主題

圖片 圖片

2 月 27 日前購買門票最高可省 680 美元。會見投資者。發現你的下一個投資組合公司。聽取 250 多位科技領袖的見解,深入參與 200 多場會議,並探索 300 多家正在構建未來的新創公司。不要錯過這些一次性的優惠。

最受歡迎內容

這台 9,000 磅重的怪物,我不想還回去

這台 9,000 磅重的怪物,我不想還回去

Sam Altman 想提醒你,人類也消耗大量能源

Sam Altman 想提醒你,人類也消耗大量能源

Google 副總裁警告:兩類 AI 新創公司可能無法生存

Google 副總裁警告:兩類 AI 新創公司可能無法生存

xAI 的好消息:Grok 現在非常擅長回答關於《柏德之門》的問題

xAI 的好消息:Grok 現在非常擅長回答關於《柏德之門》的問題

FBI 表示 ATM「大獎攻擊」(jackpotting)呈上升趨勢,駭客已竊取數百萬現金

FBI 表示 ATM「大獎攻擊」(jackpotting)呈上升趨勢,駭客已竊取數百萬現金

一家名為 Germ 的新創公司成為首個直接從 Bluesky 應用程式啟動的私訊工具

一家名為 Germ 的新創公司成為首個直接從 Bluesky 應用程式啟動的私訊工具

Meta 自身研究發現:家長監督對遏制青少年沉迷社群媒體幾乎沒有幫助

Meta 自身研究發現:家長監督對遏制青少年沉迷社群媒體幾乎沒有幫助

圖片

© 2025 TechCrunch Media LLC.