幾年前我參加過一個聚會。現場全是一群技術宅。不知怎麼地,話題轉向了人類與動物的溝通、灰鸚鵡艾利克斯(Alex),以及著名的猩猩可可(Koko)。那次聚會不在舊金山,所以現場有供應雞尾酒,其中一位技術宅(不是我)帶著點謹慎地問道:「你們知道那些東西完全是編造的,對吧?」
我想他之所以謹慎,是因為人們非常習慣將人類的動機和能力投射在寵物、可愛動物和名猩猩身上。與此同時,人們對於對這些已完全滲透流行文化與科學傳播的研究提出科學質疑,感到極度不安。人們想要相信,即使狗和猩猩實際上不會說話,牠們也與人類的語言能力有某種親密的連結。如果聚會上有個愛貓成癖的人,暗示她覺得自家貓咪魯弗斯(Rufus)聽得懂或在乎她在說什麼是很瘋狂的事,那絕對是不討好的。
隨著人工智慧的興起,非營利組織 Project CETI 於 2020 年成立,其憲章使命是理解抹香鯨的通訊,甚至可能由人類親自與鯨魚溝通。去年年底,一個盟友研究團隊發表了 Begus 等人的論文:「抹香鯨尾聲中的類元音與類雙元音頻譜模式 」 。
這篇論文採用了一種新穎的方法。它不再試圖分析鯨魚點擊聲(clicks)的數量、持續時間或其他直接的分析途徑,而是利用抹香鯨「尾聲」(codas,用於社交場合的一系列點擊聲)的頻譜特性,來探討鯨魚通訊的另一個潛在維度。而且他們還提供了實際的程式碼和數據!
快速背景
幾乎所有的鯨豚類都會發出聲音。座頭鯨的歌聲被認為是儀式化求偶的一部分。包括抹香鯨在內的許多物種都像蝙蝠一樣使用回聲定位,但抹香鯨的「尾聲」則有所不同。每個尾聲由一系列獨特的點擊聲組成。尾聲有不同的類型,點擊聲的長度各異,有趣的是,尾聲類型似乎與抹香鯨的母系家族或「氏族」有關。你可以在這裡 聽一段抹香鯨的鳴叫。
在鯨魚語言研究領域,鯨魚之間的「對話」是由「回合」(bouts)組成的,一個「回合」由一系列「尾聲」組成,一個「尾聲」由獨特的「點擊聲」組成,而根據這些作者的分析,點擊聲可以帶有不同的風味,他們選擇稱之為「元音」(vowels)。元音類型分為「a」和「i」,這純粹是命名慣例,與我們人類的元音沒有其他關係。
大部分的數據元素來自 14 頭抹香鯨,研究人員成功地在牠們身上個別安裝了監聽設備。他們在監聽鯨魚!「大停滯」(Great Stagnation)結束了!
有大量的數據需要處理,於是我製作了一個 Shiny 應用程式來幫助自己更好地理解這裡發生的事情。如果你想嘗試,我已經將應用程式部署在這裡 。你可以看到不同頻率下的各種頻譜峰值,以及作者對每個點擊聲和每個尾聲所偏好的元音識別。
元音
當我開始閱讀這篇論文時,我確信作者是在使用比喻。他們肯定不是在暗示這些由快速傅立葉變換(FFT)捕捉到的頻譜差異,實際上構成了類似人類可以有意識發音的類元音聲響,對吧?
但他們確實是這麼想的!他們指出:
我們引入「尾聲元音」(coda vowel)和「尾聲雙元音」(coda diphthong)這兩個標籤,在源濾波模型(source-filter framework)架構下描述新觀察到的抹香鯨尾聲模式。「元音」和「雙元音」部分表示與人類元音聲學相似的部分,而修飾詞「尾聲」則標示了人類元音、抹香鯨尾聲元音與其他動物發聲之間的差異。我們認為,存在具有離散分佈且受控類型的共振峰模式,且這些模式與持續時間和基頻(F0)等聲源特徵相互作用,是將發聲稱為類元音的充分條件。
一個關鍵的區別仍然存在:人類的元音是具有辨義功能的音位(phonemic),這意味著它們能區分意義。目前尚未建立抹香鯨尾聲的指稱意義關係。雖然尾聲有可能甚至很可能確實區分或承載指稱意義,但這尚未被觀察到。
他們更進一步,將具有 1 個獨特頻譜峰值的點擊聲命名為「a」,將具有 2 個或更多頻譜峰值的點擊聲命名為「i」。
圖 1. 鯨魚 Atwood 在上方發出「a」元音點擊聲,在下方發出「i」元音點擊聲。
我帶著極度懷疑的眼光閱讀這部分,但這些模式在不同的尾聲類型和不同的鯨魚之間都成立。
圖 2. 取自 Begus 等人的論文,10 頭鯨魚的元音頻率分佈。
我注意到在點擊聲層級偵測到的頻譜峰值依賴於幾個重要的超參數,例如候選峰值的最小高度以及峰值之間的接近程度。為了證明這項分析不可能對這些超參數的變化具有魯棒性,我針對不同數值進行了廣泛的網格搜索,結果令我驚恐地發現,在這些方法論變更下,結果竟然驚人地一致。
圖 3. 在不同超參數選擇(所有其他欄位)下,確定的峰值數量發散程度有限(最右側欄位)。
在超過一半的超參數選擇中,90% 或更多的峰值計數與作者的結果相同。當我手動滾動查看所有頻譜數據時,確實看起來存在兩種情況,「a」和「i」,一般人可能會將其標記為不同類型。
這到底是怎麼回事?抹香鯨真的能像作者所說的那樣,控制由其「聲唇」(phonic lips)產生的聲音嗎?
發音控制
這篇論文之所以不正確,歸結於生物學上的合理性、對數據的仔細觀察,以及一點數學。我相當確定所描述的尾聲元音模式實際上是物理產物(artifacts),而非鯨魚有意識的發聲。
在討論章節中,Begus 等人指出:
我們的提議暗示抹香鯨的頻譜模式(元音和雙元音)需要發音控制。雖然抹香鯨發音的許多方面尚未完全被理解,但最近的研究表明,抹香鯨和其他齒鯨對發音器官的控制程度比以前認為的更高(Madsen et al., 2023)。Weir 等人(2007)認為抹香鯨發出的音調式、爆發脈衝式的「尖叫」聲(與尾聲發聲不同)可能受到鯨魚的控制,導致尖叫聲的頻譜調製。抹香鯨也被證明會產生其他類型的發聲,例如「喇叭聲」(Pace et al., 2021),這進一步指向了至少某種程度的主動發音控制。
「發音控制」(Articulatory control)是語言學中的一個專門術語,描述特定的運動控制如何導致有意識的聲音產生。聲源產生原始聲能,這些能量通過濾波器進行適當的修改。顯然,許多動物都有這種能力。我從小就是個觀鳥迷,如果你相信的話,我還是個數學迷,大學時讀過 Mindlin 和 Laje 精彩的專著《鳥鳴物理學》(The Physics of Birdsong )的大部分內容。我重新查閱了它,看看抹香鯨發音控制的提議究竟有多大的合理性。
在這些鯨魚中,鯨魚尾聲的聲學脈衝源被稱為「聲唇」,位於噴氣孔附近。鼻腔空氣被用來快速拍動聲唇的開合,從而形成聲學脈衝。這個單一脈衝在穿過鯨魚頭部後方、從遠端氣囊反射時被過濾和塑造,你聽到的聲音在鯨魚前方的水中形成了波前。氣囊、鯨腦油(spermaceti)和鯨魚頭部的其餘部分構成了濾波器。
圖 4. 抹香鯨尾聲產生方式的示意圖,取自這裡 。
鳥類也有這樣的源濾波系統,人類也是。人類的系統令人驚嘆,我們顯然擁有所有動物中最複雜的發音控制,但鳴禽的發音控制在某種意義上更令人印象深刻。Mindlin 和 Laje 引用了 Elemans 等人 2004 年題為《鳥鳴:超快肌肉控制鴿子的顫音》(Bird song: Superfast muscles control dove's trill )的研究,其中指出:
鴿子的顫音無法使用典型的脊椎動物肌肉來實現,因為它們的開關速度不夠快,無法控制顫音短暫的聲音元素(>9 毫秒)。鳴管肌肉還必須進行有氧收縮,以支撐可持續數分鐘的鳴叫。這些極端要求只能由有氧超快肌肉來滿足。
這種肌肉類型是脊椎動物中已知最快的:其抽搐半時間小於 10 毫秒,比典型的運動肌肉快一到兩個數量級。
這裡的問題在於,顯示多個頻譜峰值的點擊聲層級抹香鯨尾聲數據,每個點擊聲最多僅持續 5 毫秒。下面是一個典型的「i」型元音 3 + 1 + 1 尾聲,由 5 個點擊聲組成。
圖 5. 這 5 個點擊聲中的每一個都小於 5 毫秒!
無論鯨魚如何過濾來自聲唇的脈衝,它都需要在比脊椎動物中已知最快的聲學控制系統還要細微得多的時間粒度上進行運動。這在生物學上是不合理的,即使所討論的發音控制是在尾聲層級而非點擊聲層級,可能也是如此。鯨魚並沒有像作者假設的那樣控制這些點擊聲。
實際上發生了什麼?
多峰模式是真實存在的,但上述論點表明這顯然不受鯨魚的有意識控制。在研究中 22% 的尾聲中出現了一些相當不錯的線索:當組成尾聲的點擊聲具有不同的頻譜特徵時。看看這一個。
圖 6. 一個頻譜「混合」的尾聲
作者將其標記為「i」尾聲,但你可以看到次要峰值在各個點擊聲中與主要峰值有多接近。這些中間狀態的尾聲表明,實際上只有一個固定頻率的單峰,而次要峰值是「指向性偽影」(beaming artifact)。
看看上面圖 4 的示意圖。當聲能從氣囊反彈並流過鯨魚頭部時,你看到的「i」型元音僅僅是一種干擾模式。源自聲唇的寬頻脈衝沿著直接路徑以及經由遠端氣囊反射的延遲路徑離開頭部。有一個相當詳細的維基百科頁面 記錄了這種現象(梳狀濾波器)。
上面圖 2 中還有另一個數據驅動的證據證實了這一解釋。注意「i」元音的頂部峰值和「a」元音的峰值如何都聚集在 6 kHz 附近。除非第二個較低頻率的「i」峰值是源自構成所有「a」峰值的高頻峰值的反射偽影,否則不一定有理由預期會出現這種情況。
為什麼會發生這種情況?作者做了一些論證,說明為什麼鯨魚的音高、水聽器放置位置和深度不太可能產生像這樣的偽影,但我發現這並不具備說服力。
結論
CETI 的人們:我是站在你們這一邊的!能與鯨魚交談將是件了不起的事。我希望我們必須在法庭上,面對抹香鯨檢察官,回答有關捕鯨業罪行的問題。這個項目需要更多的數據和非常嚴謹的方法,我希望他們有勇氣去承擔。然而,我擔心他們陷入了一種經典的失敗模式:賦予動物人類的能力。