美國太平洋西北國家實驗室與 OpenAI 合作加速聯邦許可審查

OpenAI

2 天前

AI 生成摘要

OpenAI 與太平洋西北國家實驗室推出 DraftNEPABench，這是一項評估 AI 編碼代理如何加速聯邦許可的新基準，顯示出有望減少高達 15% 的 NEPA 草擬時間並使基礎設施審查現代化。

太平洋西北國家實驗室與 OpenAI 合作加速聯邦許可審批

2026 年 2 月 26 日

太平洋西北國家實驗室與 OpenAI 合作加速聯邦許可審批

新基準顯示縮短基礎設施許可時間表的潛力

聯邦政府關鍵基礎設施許可方式的現代化，對於建立更快速、更安全且更具競爭力的美國經濟至關重要。從能源項目、先進製造到交通和水務系統，許可決定了具前景的構思轉化為現實投資的速度。然而，現今的環境與技術審查往往耗時數年，這減緩了創新、增加了成本，並延遲了這些項目為社區帶來的效益。

因此，OpenAI 與美國能源部太平洋西北國家實驗室（PNNL）及其 PermitAI™（在新視窗中開啟）團隊合作，評估編碼代理（coding agents）是否能有效協助加速聯邦許可工作。PermitAI 是由能源部政策辦公室資助的一項倡議，該團隊與 OpenAI 協同 19 位國家環境政策法（NEPA）審查流程的領域專家，共同設計了一個基準（稱為 DraftNEPABench），用於評估 AI 模型在 NEPA 工作流程相關任務（如起草環境影響評估報告）中的表現。

在一套涵蓋 18 個聯邦機構 NEPA 文件章節的代表性起草任務中，19 位專家發現，通用編碼代理有潛力將每個子章節的 NEPA 文件起草工作縮短 1 到 5 小時——相當於減少約 15% 的起草時間——這標誌著 AI 在支援複雜政府工作流程方面邁出了重要一步。

為現實世界的許可工作設計基準

聯邦許可是政府中一項複雜且涉及大量文件的流程。審查通常需要閱讀數百頁的技術報告、交叉核對多個來源的資訊，並起草必須符合監管要求的詳細分析。

透過這次合作，OpenAI 和 PNNL 探索了通用編碼代理（在此案例中為 Codex CLI）的強大能力（在新視窗中開啟），將其作為一種有效方式，從 GPT-5 等推理模型中提取性能，用於涉及文件系統的研究、技術分析和報告撰寫任務。透過賦予模型訪問命令行界面（通常用於編碼任務）的權限，它們可以使用比人工設計的啟發式方法更通用的策略來解決任務。這些代理被要求：

為什麼這項工作很重要

為了讓美國在智能時代（在新視窗中開啟）繼續發展經濟，必須能夠安全、負責任且快速地進行建設。隨著 AI 系統日益影響物理世界，我們必須了解它們在土木工程、環境和監管分析等領域的能力。隨著時間推移，先進模型在協助發明更新、更安全的技術、保護自然資源和滿足人類需求時，將需要準確理解法律法規。

50 多年來，該流程一直要求聯邦機構審查並記錄橋樑、發電廠、輸電線路和製造設施等項目的環境影響。此基準有助於識別現今的 AI 模型在哪些方面可以負責任地協助人類加速這些工作流程。

102 項任務的平均評估分數（1-5 分制），按主導機構分組。分數綜合了對結構、清晰度、準確性和參考文獻的評估。1 分表示有重大缺陷，3 分表示草案部分正確，5 分表示草案完全正確且完整。

除了降低自主運作的風險外，這項工作還可以推動專家與 AI 之間更好界面的設計。超越靜態 PDF，編碼代理可以根據其工作動態生成網頁報告和互動式視覺化內容，使人類審查員更容易進行驗證。

藉助 AI，機構將能更有效地審查、完善和批准提案，政府工作人員將從處理耗時工作的 AI 代理團隊中獲得助力，從而專注於判斷、監督和複雜的決策。這項工作符合 OpenAI 對公共服務的廣泛承諾，以及 OpenAI for Government 旨在為公職人員提供工具，使其更有效率並獲得更多支援的目標。

局限性

此基準評估的是模型在相關背景資訊齊備且明確的起草任務上的能力，而非現實世界許可決策中完整的不確定性和裁量權。它強調準確性和正確的參考文獻使用，以釐清模型可以在何處協助人類審查員。在審查失敗案例時，我們發現一些「錯誤」實際上是由於參考文獻過時和評估標準薄弱造成的，我們必須相應地更新評分標準。更廣泛地說，如果原始資料不完整、不一致或過時，模型在沒有明確指令的情況下可能不會標註這些差異。現實世界的部署更可能涉及專家的反饋和迭代，預計這將比這些獨立基準任務中報告的表現有所提升。