newsence
來源篩選

Why Sierra the Supercomputer Had to Die

Wired - backchannel

For seven years, she ran high-security nuclear simulations for the US government. Now, this famous supercomputer is being put to death.

newsence

為什麼超級電腦 Sierra 必須走向終結

Wired - backchannel
2 天前

AI 生成摘要

七年來,她為美國政府執行高安全性的核武模擬任務。現在,這台著名的超級電腦正被處以死刑。

為什麼超級電腦 Sierra 必須走向終結

是政府決定了 Sierra 該走向終結的時候。必須說明的是,Sierra 是一台超級電腦,因此從一開始就從未真正擁有過生命。但以任何客觀標準衡量,她都活出了令人印象深刻的一生。她居住在北加州的勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory),由 453 號大樓運算中心的數十名工作人員照料。她在去年底(10 月)完成了最後的工作,隨後永久離線。當時她 7 歲。

從勞倫斯利佛摩國家實驗室 Sierra 超級電腦上拆除的一堆 InfiniBand 線纜...

被掏空:從勞倫斯利佛摩國家實驗室 Sierra 超級電腦上拆除的一堆 InfiniBand 線纜。

員工正在拆卸勞倫斯利佛摩國家實驗室 Sierra 超級電腦的機架...

員工正在拆卸 Sierra 的機架。

勞倫斯利佛摩國家實驗室中已斷開連接的 Sierra 超級電腦機架...

Sierra 已斷開連接的機架。

根據對這些巨型機器進行排名的 TOP500 指數,Sierra 曾是全球第二快的超級電腦。她誕生於十多年前芝加哥一家酒店會議室內,當時美國國家實驗室的官員們正在進行一場技術討論。作為終極的「設計師嬰兒」,Sierra 由數千顆 IBM Power9 CPU 和 Nvidia Volta V100 GPU 組裝而成——這在當時對利佛摩實驗室來說是一種大膽且非主流的架構。

與其他超級電腦一樣,Sierra 體型龐大。她由數千個運算節點組成,這些節點一個接一個地存放在機架(基本上就是櫃子)中,支撐著她的處理內臟。她擁有 240 個這樣的機架,佔地約 7,000 平方英尺。這一切都是為了支持她一生的主要職責:為國家核安全管理局(NNSA)執行專門的、超高安全等級的模擬任務。在她被判處「死刑」時,她的處理能力仍位居世界第 23 位,表現相當不俗。

那麼,為什麼 Sierra 必須死?畢竟,將她拼湊起來投入了巨大的時間和資源。實驗室領導層不願確認建造她花了多少錢,但她確實造價昂貴——政府在她和她的異卵雙胞胎(位於田納西州橡樹嶺國家實驗室的超級電腦 Summit)身上至少花費了 3.25 億美元。(Summit 於 2024 年底退役。)而且,她當時完全還能運作。「在一台機器的壽命末期,你可能會想:『噢,我們已經投入了這麼多沉沒成本,應該讓它永遠運行下去。』」實驗室的組織資訊安全官 John Allen 說。但那是錯誤的。「它忠實的服務已經結束,我們必須繼續前進。」

勞倫斯利佛摩國家實驗室 Sierra 超級電腦的管理機架...

管理機架被留到最後處理。

2024 年 12 月 16 日,位於勞倫斯利佛摩國家實驗室的 Sierra 超級電腦...

密密麻麻的線纜。

告別的原因有幾個。一是硬體的自然壽命。即使在誕生之初,某些全新的組件也可能存在缺陷,因此啟動機器立即就變成了一場發現製造錯誤並更換組件的實驗。接著機器進入黃金時代。然而,最終電腦的大部分晶片都會被推向極限,故障率開始再次上升。這種從高到低再到高的損壞週期,被 IT 專家稱為「浴缸曲線」(bathtub curve),而人們顯然有動力不走到曲線的另一端。「隨著年齡增長——就像人類一樣——你更容易生病,」在東北大學研究高效能運算的 Devesh Tiwari 說。「你更容易出現故障,因此需要更多的照料和餵養。」另一個相關問題是硬體及其運行軟體的過時,更換零件變得困難甚至無法取得。

Sierra 超級電腦機架中的一個抽屜,裝有 106 個 10TB 硬碟...

裝滿硬碟的抽屜。

一名員工正準備將剛從 Sierra 超級電腦拆下的固態硬碟送入粉碎機...

一名員工正準備粉碎固態硬碟。

實驗室武器模擬與運算副主任 Rob Neely 表示,Sierra 從未深入進入過浴缸曲線的最終階段,但她面臨著進入該階段的危險。IBM 和 Nvidia 的組件都已停產,且 IBM 不再支援 Sierra 所使用的作業系統版本(Red Hat Enterprise Linux)。「這實際上是資源問題,」美國能源部(監管國家實驗室系統)前首席資訊官 Ann Dunkin 說。「如果他們有無限的資源,他們會運行無限多的超級電腦。」七年是一個相當典型的壽命。

但最威脅到她生存的是 El Capitan,它是 Sierra 更年輕、速度更快的繼任者(也曾是實驗室裡的隔壁鄰居)。對外行來說,Sierra 和 El Capitan 看起來沒什麼不同。它們都是一排排長長的、發出嗡嗡聲的機架,連接到地板下的巨大電源。但內在才是關鍵。Sierra 擁有令人印象深刻的組件,但 El Capitan 於 2025 年上線時配備了 AMD Instinct MI300A APU,以及 CPU 和 GPU 共享的通用記憶體。他的運行功率可達 36 百萬瓦(相比之下 Sierra 為 11 百萬瓦)。實驗室表示,這足以為 36,000 戶普通家庭供電。

一名員工從勞倫斯利佛摩國家實驗室 Sierra 超級電腦的批次節點中拆除固態硬碟...

Sierra 的退役工作分階段進行。

從上方俯瞰 Sierra 超級電腦的一個批次節點...

批次節點的俯視圖。

超級電腦可以通過多種方式衡量,但關鍵指標是它們每秒執行浮點運算的能力,即 flops。盡可能快地運算就是成功的關鍵。在巔峰時期,Sierra 每秒可達 94.64 petaflops(9.464 萬兆次浮點運算)。而 El Capitan 為 1.809 exaflops,速度約為其 19 倍。2025 年底,他被正式宣佈為全球最快的超級電腦。Neely 說,Sierra 所產出的價值已不再值得投入維持她的成本。

沒有大紅按鈕,也沒有巨大的槓桿來關閉 Sierra。當然,有人可以直接剪斷電線,但那不是推薦的程序。首先,Sierra 的科學家用戶會收到電子郵件通知,提醒他們保存工作。接著,正式執行「不復甦」(DNR)指令——不再更換新零件。

退役工作分階段進行,從運算節點和機架交換機開始——管理節點留在最後,因為直到最後一刻都需要它們。這個過程包括運行腳本以數位方式關閉電腦,然後也關閉硬體電源開關。此外還需要「脫水」。當 Sierra 運作時會變得非常熱,因此實驗室每分鐘循環數千加侖的水,通過地板下如血管般的管道輸送。當她接近終結時,必須排乾這些水。安全人員會先對水進行測試,以確保其 pH 值對環境無害。

作為 Sierra 超級電腦冷卻系統一部分的大直徑 Aquatherm 管道...

維持 Sierra 冷卻的部分管道。

值得一提的是,超級電腦也可以獲得更體面的退休生活。有些被捐贈給其他機構或博物館。有些會被拍賣,例如總務管理局(GSA)在 2024 年處置了由 Silicon Graphics International 建造的 petaflop 級超級電腦 Cheyenne。但事實是,對舊超級電腦的需求並不大,大多數只是被拆解取件。早在 2013 年,由於無法引起對整機的興趣,新墨西哥州選擇將其州政府資助的 Encanto 超級電腦拆解並分塊出售。阿貢國家實驗室(Argonne National Lab)曾試圖將其 Intrepid 超級電腦(曾是世界第三快)的大部分捐贈給其他實驗室和電腦博物館,但乏人問津。除了少數機架送往北卡羅來納州立大學外,Intrepid 最終被回收處理。

勞倫斯利佛摩國家實驗室 Sierra 超級電腦的乙太網路交換機...

乙太網路交換機。

員工從勞倫斯利佛摩國家實驗室 Sierra 超級電腦的機架中拆除硬碟...

走向終結時,Sierra 只有 7 歲。

Sierra 正在接受極端規模的回收。畢竟,她的設計初衷是支援國家的核武庫存,因此充滿了機密數據——這台機器不能隨便丟棄。相反,Sierra 必須被徹底粉碎,以避免任何可能被部分修復並用於重建國家機密的機會。這是一個殘酷的過程。工作人員戴著手套拔出節點,並移除散佈其中的鋰電池(這些將送往專門的電池回收商)。其他部件,如系統板、處理器和支撐 Sierra 的機架骨架,則被送往異地進行粗粉碎。任何無法回收的東西在經過嚴格的數據安全分析後都會被銷毀。

然而,Sierra 的快閃記憶體組件即使在斷電時也能存儲數據,因此這些會被磨成極細的粉末。同時,為了處置任何磁性驅動器,實驗室在樓下備有一台政府批准的專用消磁機。該裝置利用永久磁鐵(一種無需電力即可產生磁場的材料)將組件清理乾淨。(該磁鐵強度足以讓附近的信用卡失效,並干擾敏感的醫療設備。)

整個過程需要幾個月的時間,就 Sierra 而言,在本報導發表時將基本完成。最後一步,電工將永久切斷她的電源。她將徹底消失,除了地板下的冷卻和電力系統,以及實驗室用來保護超級電腦免受地震影響的結構底座。這些將留給她的繼任者使用。

勞倫斯利佛摩國家實驗室中已拆卸的 Sierra 超級電腦露出的防震底座...

Sierra 現在露出的防震底座。

勞倫斯利佛摩國家實驗室 Sierra 超級電腦的防震底座...

Sierra 的繼任者將固定在同一個位置。

告別超級電腦沒有統一的方式,也沒有工程末世論可以參考。早在 2006 年,利佛摩的科學家為 ASCI White 系統(一台 IBM 超級電腦)舉行了退休派對。Neely 記得,那些實際使用電腦的人被允許在倒數計時後親手關閉小的電源開關,儘管機器此前已經斷電。最後還供應了蛋糕。同年,在阿爾伯克基為桑迪亞實驗室(Sandia Lab)的 ASCI Red 舉行的類似儀式上也準備了蛋糕,上面裝飾著紫色花朵、銀色絲帶,並用糖霜寫著簡單的一句話:「再見,ASCI Red。」

有些人告訴《連線》(WIRED),當機器走向終結時,他們確實會感到難過。其他人則強調,感到失落的是那些實際運行模擬的用戶,而不是 IT 部門。「我從未對任何硬體產生過情感依戀,」桑迪亞國家實驗室的系統工程師 Larry Baca 說。他在職業生涯中已經打包處理過數十台電腦。協助運作 TOP500 競賽的超級運算專家 Horst Simon 也認為沒什麼好沮喪的。「雖然單台超級電腦會消亡,」他說,但運算領域「依然充滿活力」。

剛從 Sierra 超級電腦拆下的硬碟在傳送帶上移動,準備進入粉碎機...

傳送帶將 Sierra 的硬碟送往粉碎機。

勞倫斯利佛摩國家實驗室中剛粉碎的硬碟碎片...

粉碎後的硬碟。

直到它不再充滿活力。專家表示,這一切可能以至少兩種方式結束。有一天,新硬體與舊軟體、新軟體與舊硬體的同步可能會變得非常容易,以至於不再需要一台截然不同的新超級電腦——只需同一台機器,不斷更換更好零件即可。另一種不太令人興奮的可能性是:我們可能會耗盡更好、更快的晶片型號來證明更換新機器的合理性。許多人擔心摩爾定律確實正在放緩。

Sierra 超級電腦

員工在將 Sierra 的機架運往回收設施前進行包裝。

不過就目前而言,Sierra 的終結將為另一台超級電腦騰出空間,後者幾乎肯定會佔據她曾經矗立的地板。「這只是生命中正常的一部分,」IT 辦公室的 Allen 說。「就像你的貓或狗突然變得醫療費昂貴、佔用你大量時間且問題不斷,對吧?你最終必須進行這些討論。」

讓我們知道您對這篇文章的看法。請將讀者來信提交至 mail@wired.com。