我針對 230 種字體渲染了 1,418 組混淆字元：結果發現大多數在視覺上並不具備誤導性

Hacker News

3 天前

AI 生成摘要

我開發了一款名為 confusable-vision 的工具，透過 SSIM 演算法實測數百種字體中 Unicode 混淆字元的視覺相似度，發現官方清單中 96.5% 的字元其實風險不高，但仍有 82 組字元在像素級別上完全一致。

paultendo.github.io

confusable vision visual similarity

背景

這篇研究探討了 Unicode 混淆字元（Confusables）在實際渲染下的視覺威脅。作者開發了名為 confusable-vision 的工具，透過渲染 230 種字體並利用 SSIM 演算法比較像素結構，發現雖然 Unicode 官方列出了上千對混淆字元，但實際上高達 96.5% 的組合在視覺上並不具備高度誤導性。然而，研究也指出西里爾字母（Cyrillic）與拉丁字母在多數標準字體中是完全像素一致的，這為網路釣魚攻擊留下了明確的技術漏洞。

社群觀點

Hacker News 的討論呈現出技術實務與使用者心理學之間的拉鋸。許多留言者認為，單純追求「像素級一致」可能低估了現實中的安全風險。有觀點指出，攻擊者並不需要完美的像素對齊就能達成目的，因為在忙碌的日常情境中，使用者對於網址列的視覺確認往往非常草率。即便像拉丁字母中的大寫 I 與小寫 l，或是數字 0 與大寫 O，在許多現代無襯線字體中就已經難以分辨，這種字體設計上的缺陷本身就是一種安全隱患。

針對西里爾字母的威脅，社群展開了深入討論。有使用者分享了俄語使用者長期利用這種視覺一致性來規避關鍵字審查的經驗，例如在社群平台上替換相似字元以躲避自動化過濾。雖然有意見認為瀏覽器已經具備啟發式保護機制（如將可疑網址轉為 Punycode 顯示），但也有人反駁，若整個網域都使用西里爾字母拼寫出看似拉丁單字的名稱，瀏覽器未必能完全攔截。部分討論者主張，最終的解決方案應是普及密碼管理器，讓機器代勞身分驗證，而非依賴人類肉眼去識別細微的字元差異。

此外，這篇文章的寫作風格引發了一場關於人工智慧生成內容（AI-generated content）的爭論。有讀者質疑文章的語氣與結構帶有明顯的 LLM 痕跡，認為這類「AI 味」過重的內容正在稀釋技術討論的品質。然而，這種觀點遭到了其他用戶的強烈反擊，認為過度糾結於寫作風格是否由 AI 產生，反而會忽略研究本身的價值與作者投入的實驗數據。支持者強調，無論工具為何，這項研究提供了具備確定性與可重複性的數據，這對於制定安全政策而言比單純的直覺更有意義。

最後，討論也延伸到了字體設計的歷史與防禦性設計。有留言者提到了德國的 FE-Schrift 字體，這種字體專門為了防止車牌號碼被輕易塗改而設計，例如讓 3 與 8 的形狀特徵截然不同。這種從源頭解決混淆問題的思路，被認為是字體設計界應對數位安全威脅時值得借鏡的方向。

延伸閱讀

在討論中，參與者提到了幾項與此議題相關的技術資源。針對瀏覽器如何防禦同形異義字攻擊（IDN Homograph Attack），讀者可以參考 Chromium 專案的官方文件，了解其內部採取的字元限制與顯示邏輯。此外，關於字體設計如何提升辨識度，FE-Schrift（防偽造字體）與 OCR-A 字體的歷史背景也提供了關於視覺安全性的不同視角。對於想要自行實作類似像素比對工具的開發者，留言中也推薦了 ImageMagick 的比較功能作為 SSIM 演算法之外的另一種實踐方案。

I rendered 1,418 confusables over 230 fonts. Most aren't confusable to the eye

背景

社群觀點

延伸閱讀