newsence
來源篩選

What's the Point of the Math?

Lesswrong

The article explores the purpose of mathematical formalism in research, arguing that while math serves to calibrate intuitions and provide unambiguous communication, it often faces a trade-off between verifiability and the loss of underlying insight. I also examine how social incentives can lead to the misuse of math, as seen in the emergence of 'The Null Ritual' in statistical inference.

newsence

數學的意義何在?

Lesswrong
23 天前

AI 生成摘要

這篇文章探討了數學形式主義在研究中的目的,認為數學雖然能校準直覺並提供明確的溝通,但往往在可驗證性與底層洞見的流失之間面臨權衡。我也檢視了社會激勵如何導致數學的誤用,例如統計推論中「虛無假設檢定儀式」的興起。

這篇文章是在 MATS 9.0 期間,於 Richard Ngo 的指導下完成的。內容僅與我的研究有元相關(meta-related)。

我想先引用 Jan Kulveit 最近在一篇中對經濟學文化的看法:

經濟學家非數學的、通常是直覺性的推理會產生一些有趣的見解,然後再選擇形式化方法、假設和模型,使數學推導出相同的結論。

Jan 指出,在這個過程中,數學的「相關性比看起來要低」。我對此深有共鳴。數學結果是由模型中的假設預先決定的,而這些假設又源於直覺推理所產生的見解。這引出了一個問題:如果見解中最重要的部分是直覺,而數學只是其必然的(儘管費力的)結果,那麼數學的意義究竟何在?它帶來了什麼見解?這些問題當然不僅適用於經濟學,也適用於任何對世俗^()現象的數學化。

在這篇文章中,我描述了數學在向研究人員及其所處的社會結構傳遞和交流見解時所扮演的一些角色。我感興趣的是刻畫數學形式主義的正當用途,同時也想評論科學和社會中導致其被誤用的激勵機制。

校準直覺

數學最單純且始終可靠的用途是驗證定性的直覺。假設一位研究者對經濟學概念 A 有一個有趣的見解;他們懷疑這個見解對另一個概念 B 有非平凡(non-trivial)的影響。將 A、B 以及 A 對 B 的影響進行數學化的過程,實際上是一個校準過程。如果直覺模型校準得當,那麼研究者對這些想法及其後果的本能判斷將在數學形式化中得到驗證。請注意,這是必要條件而非充分條件;即使你的直覺很差,你的數學推導也可能成立。然而,如果數學推導成立,通常意味著直覺有待改進。

在可能缺乏經驗反饋循環的情況下,數學充當了科學證偽的替代工具。我發現在我自己的研究中,數學對此非常有用,儘管值得注意的是,使用具體的實驗或模擬進行校準也是替代或補充的方法。

交流你的工作

即使研究者進行了清晰、直覺且自認為校準良好的推理,他們仍可能需要將這些有用的見解傳達給其他研究者和整個社會。為此,數學因其相對的明確性而具有明顯的優勢。首先,它允許在研究者與其領域之間傳遞可驗證的論斷。其次,足夠具體的數學形式化可能有助於在研究圈之外進行交流。在迷因(memetically)上最成功的數學成果,是那些可以由任何工作者甚至計算機執行的成果。

儘管數學具有這些優點,但認為它作為交流工具比其他替代方案「損耗更小」的觀點其實並非顯而易見。它在論斷的可驗證性上有所收穫,但在傳達的見解量上可能會有所損失。從直覺生成數學形式主義可能非常艱辛,而且成品通常不利於還原那些直覺。選擇數學化在科學交流中佔據多大主導地位,體現了不同類型損失之間的權衡

由於不良的社會動態和激勵機制,交流渠道可能會退化,並在此過程中失去其正當目的。這導致了我所稱的研究者「交流陷阱」。我將在本文中描述幾個。

迷因適應性強的數學之損耗性

虛無假設顯著性檢定(NHST)目前(仍)是統計推斷的主導範式,尤其是在社會科學和醫學領域。這並非必然的結果,也不是一個令人滿意的現狀。羅納德·費雪(Ronald Fisher)是虛無假設檢定的早期倡導者之一^(),他最初是一位貝氏主義者^()。當他轉向頻率論推斷時,他在哲學問題上與他的同事尼曼(Neyman)和皮爾森(Pearson)意見不一,後者提出了一種在兩個競爭假設之間進行選擇的決策規則。

費雪、尼曼和皮爾森都試圖開發統計推斷範式,旨在讓科學研究人員採用。不幸的是,他們的願望以最糟糕的方式實現了。NHST 將他們的方法混淆^()成一種基於 p 值的虛無假設檢定版本,而這似乎是他們中任何人都從未倡導過的。標題帶有嘲諷意味的記錄了這種檢定範式在 1940 年代和 1950 年代心理學領域的興起。作者還展示了他們的一些人類學研究,評估了心理學學生和教育工作者對於統計學家最初想傳達的哲學和見解那種(令人心驚膽戰的)無知。

《虛無儀式》還討論了這種範式出現和維持的各種可能原因。在沒有深入研究相關的大量社會學文獻的情況下,我的直覺猜測是 NHST 之所以「勝出」,是因為它簡單、易於執行(包括計算上),並且容易被誤解為指示了一個決定性的結論。我發現特別耐人尋味的是,費雪建議將 p 值作為一個有用的指標來為進一步的實驗提供參考,但 NHST 卻將其,導致研究者進行 p 值操弄(p-hacking)。NHST 最主要的吸引力很可能在於它提供了一種由數學正當性授權的可計算二元決策規則的幻覺。到目前為止,由於 NHST 在教育中的廣泛使用,它可能已成為默認的勝出者。

這個例子說明,我們的數學化遠不如我們希望的那樣明確。數學形式主義及其建議的決策程序的交流,應該旨在對誤傳和從業者的激勵結構所造成的干擾具有魯棒性。科學界使用 NHST 可能比我們僅憑「感覺」或使用以前的統計推斷要好,但如果統計學家的見解能得到更成功的傳播,或許能在一定程度上緩解一兩次重複性危機。

工作「證明」

我已經討論過數學形式主義在不同類型的信息損失之間進行權衡。然而,數學(或統計)論斷的可驗證性使得數學成為研究者之間交流的一種理所當然的流行手段。不幸的是,研究社群往往傾向於將發表的研究產出指標轉化為決定成員地位的目標。因此,研究者受到激勵,必須通過以數學術語輸出成果來證明其工作的價值。

我認為這系統性地導致了過早的數學化。考慮一位研究者愛麗絲(Alice),她正尋求將自己的見解形式化,最初可能完全是出於高尚的理由。她判斷,一個尊重原始見解精神的形式化可能需要數年時間。她的研究還將涉及制定適當簡化或相關的形式化,這可能需要一兩年,但將有助於緩慢建立完整的理論。她還想到了一些簡化的潛在形式化,這些形式化在幾個月內可能是可行的,但最終對於忠實地傳達見解並無助益。

然而,愛麗絲的研究項目今年面臨資助續約。這讓她面臨兩個選擇。一方面,她可以專注於她認為最終對成熟理論有益的形式化,但風險是在項目提案中沒有清晰的產出來展示她的進展。另一方面,她可以研究那些她的研究品味所排斥、但易於處理的方法,這將給評審員一些可看的東西。

遺憾的是,我懷疑研究者經常面臨這樣的困境。他們往往會違背自己的研究品味做出選擇,並(在不同程度上準確地)辯稱這種選擇是為了讓他們能夠繼續研究。

在我的日常研究中,我越來越意識到自己如何直覺地傾向於那些我預期在當前計劃範圍內具有數學可行性的探究方向。我不認為這直接歸因於任何人或任何事物強加給我的特定激勵;我很幸運擁有充分的智力自由。我更傾向於將這種情感視為我成長背景下的產物,這種文化教會我為了數學形式化本身而重視它。我渴望有一天能成為一個不再被迫「展示計算過程」的人。

  • ^()我不能使用「實數」(real),因為數學家已經佔用了這個詞。
  • ^()這與 NHST 並不完全相同,無論是在哲學動機還是實際執行方面。
  • ^()詳見關於費雪早期工作的評論。到 1922 年,費雪已經否認了他早期工作中對「逆機率」(inverse probability,貝氏機率的舊稱)的依賴。
  • ^()維基百科委婉地這些方法被「結合」了。