我最近讀了《發明溫度 》(Inventing Temperature )這本書,非常喜歡。這本書基本上是在探討以下問題:曾經有段時間,人類尚未製造出精確的溫度計,因此無法科學地研究溫度現象,因為這需要對其進行測量。但要製造溫度計並確認其準確性,似乎你必須先知道它的讀數與真實溫度相符,這似乎要求麼有其他已知的可用溫度計來校準(當時並沒有),要麼對溫度有足夠嚴謹的科學理解,以確信你的溫度計能準確追蹤它(但在沒有溫度計的情況下很難獲得這種理解)——因此,一個人如何從沒有溫度計的狀態,演進到擁有溫度計、且我們有理由相信它們能精確測量溫度的狀態,這並非顯而易見。
這本書在理性主義社群中相當受歡迎 ,被視為應用認識論的案例,特別是它描述了如何測量無形之物。這本書的一個顯著應用(除了腳註^(1 )外我不會詳述)是在理解人工智慧方面:AI 模型(或者可能是模型+框架,或者是模型生態系統)有各種屬性,如「能力」或「對齊」,我們希望理解這些屬性,但目前缺乏良好的衡量標準,且如何驗證我們的衡量標準也非易事。我在 2024 年 11 月買了這本書,進度一直很緩慢,直到我加入 METR (一個對這些問題特別敏感的組織)並舉辦了一個《發明溫度》讀書會,才強迫自己讀完。
總體而言,我很喜歡這本書,並想加入推薦者的行列,將其推薦給所有想知道「如何求知」的人,以及對熱力學研究感興趣的人^(2 )。首先,關於溫度現象及其研究歷史的討論本身就很有趣——例如,我驚訝地發現,即使在大氣壓固定時,水也不會在恆定溫度下沸騰;或者「冷射線」可以透過鏡子反射並傳送到各處使物體降溫,這似乎與我們現代將冷視為僅僅是熱的缺失的理解相悖。
其次,這本書引發了我對其所選哲學主題的大量思考:如何測量先前未被測量過的事物。我將這本書解讀為提供了以下說明:證明我們對溫度的測量是正確的,在於其連貫性 (coherence)。當我們想開始測量溫度,或將測量擴展到需要新儀器的新領域(例如典型溫度計會損壞的陶窯溫度)時,我們應該想出幾種不同的方法來嘗試接觸同一事物,並相信那些達成一致的方法。整體圖景是連貫論(coherentism)對基礎論(foundationalism)的勝利:基礎論 認為某些信念本身就是合理的,不需要其他理由(類似於貝氏主義者對先驗選擇的看法);而連貫論 則認為我們的信念是透過彼此之間的連貫性來證明的。以下是一些實際發生的例子(極度簡化,詳情強烈建議閱讀原著):
為了確定剛沸騰的水蒸氣溫度是恆定的,我們發明了一種粗糙的「序數溫度計」^(3 ),它像典型的水銀溫度計但沒有刻度。我們煮沸一些水,將序數溫度計放入蒸汽中,標記液體到達的位置,然後重複。如果它每次都到達同一條線,就有理由認為水蒸氣的溫度是恆定的,若有理論支持則更有說服力。這些序數溫度計本身是透過與我們觸摸物體時的溫度感官連貫來證明的。
一種基本的溫度計是在細管中放入液體,觀察它在不同環境下的膨脹程度。具體來說,你觀察它在水的冰點時升到哪裡,標記為 0 度,然後觀察它在水蒸氣溫度時升到哪裡,標記為 100 度,接著在中間均勻標記刻度。問題在於,如果你這樣做,不同的物質在達到 50 度時會有不同的實際溫度。你如何決定哪種物質的測量是正確的?用該物質製造一堆溫度計並檢查它們是否互相一致——這會選出一個贏家,然後我們假定它測量的是實際溫度。
為了弄清楚那些因太熱而無法使用標準溫度計的物體溫度,你會根據現有的初步溫度理論,想出多種看似合理的測量方法。結果會發現大多數方法基本一致,可能只有一個不一致。此時,基於這些方法的連貫性,你有理由認為那些一致的方法正在測量溫度,而不一致的那個則是失效的。
話雖如此,我會用與作者不同的方式來描述這些案例中發生的事情,如下所述。^(4 )
作為人類,我們有一種階梯式的「冷熱」感,冰感覺冷,火感覺熱,春天的柏克萊感覺介於兩者之間,當你從烤箱拿出剛烤好的蛋糕時,烤盤感覺比蛋糕更燙。我們還注意到這種感覺與物理現象之間的一些關係:例如,把東西放進火裡似乎會變熱,放進雪裡會變冷,冰受熱會融化,一年中不同的時間會根據太陽在空中的時間長短而變熱或變冷。
在這些現象的背後有各種物理原因。然而,它們的巧合讓我們懷疑有一個統一的原因將它們聯繫在一起。因此,我們希望尋找一個統一的原因,它與盡可能多與熱相關的現象具有穩健且簡單^(5 )的關係,一旦找到,我們就稱之為「溫度」。這就是為什麼我們尋求各種不同測量技術和理論的連貫性:並非因為關於溫度的信念連貫本身具有證明力,而是因為這種連貫性表明有一個東西正在被測量,而那個東西配得上「溫度」這個名字。
我認為這種思考方式有幾個啟示:
「溫度」這個詞不一定有預先存在的固定指涉。相反,有各種屬性都可能配得上這個名字,而我們的任務是在其中做出選擇。
話雖如此,這個過程不僅僅是隨意挑選一個東西命名:它涉及學習世界,以及哪些東西與其他東西具有穩健的關係。
可能並不存在一個單一的「溫度」現象作為所有現象的基礎,這可能導致我們認為其中一些現象並非「真正追蹤溫度」:例如,根據現代理解,當你烤好蛋糕剛從烤箱拿出來時,蛋糕和烤盤一樣燙,只是烤盤在你觸摸時比蛋糕更容易加熱你的手指。
可以想像,情況可能是存在兩個同樣真實的概念,各自引起了許多這類現象,或者根本沒有精確的概念。
我認為這種概括大約是這樣的:當我們看到一堆事物之間的關係時,我們可能會提出某種潛在原因,它是一種純量屬性(特別是當關係存在於一堆純量屬性之間時,如液體/氣體的體積,或物體感覺有多燙)。然後,我們嘗試透過提出各種測量方法來尋找這種潛在原因。那些彼此一致的測量方法,特別是當測量工具本身並非設計成相同時,一定是在接觸某種「更真實」的屬性,該屬性與其他事物有更多聯繫,是我們理論中感興趣對象的首選。^(6 ) 這提升了我們對可能存在的潛在原因及其相互關係的認識。值得注意的是,這與先假設一個潛在原因、給它命名並試圖「定位」該原因的方法不同(例如,認為某些事物具有「意識」,並試圖找出什麼屬性算作「意識」,以便測量未知案例的「意識」——相反,這更像是觀察意識與非意識現象,尋找與感興趣現象有因果關係的共同因素,並提出關於這些因素的理論和良好測量方法,無論其中是否有任何一個最終被認為最適合稱為「意識」)。
整體的觀點是,自然界有各種我們可以談論的屬性,但有些比其他的「更真實」:它們以更簡單的方式與更多其他事物產生因果互動。我們的任務是定位這些真實的屬性,並理解它們的關係。並非我們觀察到的一切都有單一的「真實」原因,但勝算在我們這邊:「真實」現象往往以簡單的方式影響許多不同的其他現象,而「虛假」現象往往幾乎沒有下游影響,因此「真實」現象比「虛假」現象更有可能導致任何給定的感興趣效應。話雖如此,不幸的是,這只能給你一個似然比 (likelihood ratio),還需要更多推理來弄清楚我們在野外正確撞見「真實」現象的可能性有多大——例如,如果存在無數「虛假」現象但極少「真實」現象,那麼我們觀察到的事物更有可能由「虛假」現象引起;反之,如果「真實」現象很豐富,那麼撞見它們就會更容易。
^(1 ) 不幸的是,測量(例如)AI 能力似乎比測量溫度在概念上更令人困擾:你對 AI 能力的衡量將在某種程度上取決於你感興趣的任務分佈(如果你想比較兩個模型的能力,其中一個擅長 Python 編程,另一個擅長拉丁文翻譯成英文),這讓人很難想像它可以像溫度那樣簡化為單一實數(雖然溫度也不完全是單一數字,因為可以用不同溫標測量)。正如正文提到的,目前還不清楚要測量的對象究竟是什麼:是神經網絡本身,還是神經網絡加上用於完成工作的「框架」,或者是完全不同的東西。另一個有趣的考量是,AI 系統的能力測量本質上必須與任務的難度測量配對,才能使「能力」與 AI 系統實際能做的事情產生有說服力的聯繫,我認為這與溫度沒有密切的類比。
^(2 ) 這與認識論也有深層聯繫 ,雖然我扯遠了。
^(3 ) 書中使用「驗溫器」(thermoscope)一詞,但我認為「序數溫度計」更具描述性且易於理解。
^(4 ) 我最初認為這與作者有分歧,但在讀書會上,至少有些人認為這與書中的內容相容,因此我將對是否同意作者持中立態度,專注於闡述我自己的觀點。
^(5 ) 「穩健且簡單」的限制是為了將溫度與溫度的任何任意函數區分開來。例如,絕對溫度的 2.7 次方,它與所有其他現象相關,但方式不夠簡單;或者是一個在低於 68 度時等於絕對溫度(克氏溫標),否則等於絕對溫度加 38 度的函數,它與其他現象的關係在不連續點附近並不穩健。
^(6 ) Claude Opus 4.5 在審閱本文時建議,測量一致性可能還有其他原因,最顯著的是測量工具追蹤的是在觀察範圍內相關但不同的屬性。因此,這種一致性實際上只能被視為「更真實」屬性的證據,而非嚴格的證明;測量工具的設計差異越大、達成一致的情境範圍越廣,這種證據就越強。