第十章 高度驚異 (High surprisal)
阿基米德想確認王冠是否以純金打造,得想出比對王冠的質和量的辦法。阿基米德的難題是,他既不能融化王冠,又得精確算出它的體積。直到他踏進公共浴池時,注意到水位升高的現象,才靈光一閃:要測量不規則的物體時,觀察他排出多少水就好。據說阿基米德極其興奮,連衣服都沒有穿,就急著跑回家,並一邊歡呼:「Eureka !」這希臘文的意思是「我知道了」,後來變成科學新發現的同義詞。
在資訊理論中,熵是指接收的每條消息中包含的資訊的平均量,不確定性越高,information entropy 越大,此現象被稱為資訊熵 (information entropy)。在某種狀況下,各種結果機會相等時 (normal distribution, 常態分配),entropy 會達到高峰;到結果固定 (0 or 1) 或確定性降至最低時,entropy 會降到最低。
當硬幣越偏差 (biased coin, 例如正面出現機率高達 80%),就能用越簡單的語言描述結果;公正硬幣 (fair coin, 正反面出現機率各 50%) 則難以簡單描述結果。換句話說,7 : 3 的 biased coin 得到的資訊比 fair coin 來得少,這是最基本的 information entropy 概念:東西的資料量是能測量的。
entropy 越高,資訊越多。能用它測量的東西多得驚人,從拋硬幣到電話號碼,從遺言到圖靈測驗,都在它的測量範圍。
21 世紀的我們,會比前幾代的人更能體會到 information entropy,因為過去的問題是資訊匱乏、難找,現代的我們面臨的資訊超載與如何過濾到想要的資訊。例如,🔎 我們在 google 搜尋時,本能般會避開常見或通用的 keyword,達到縮小搜尋結果的效果,以降低 information entropy。📚 又如我們在準備考試、閱讀教科書時,卡住最久的地方,正是 information entropy 較高的地方。
壓縮分成無損 (lossless) 與有損 (lossy) 兩種
無損壓縮的怪異現象是,有些東西的 information entropy 會高的匪夷所思。雜訊就是如此,因為其隨機性、無固定模式或規則可循,壓縮器毫無用武之處,此類資訊的 information entropy 極高、stakes (資訊含金量) 極低;換成有損壓縮,只要壓縮品質在眼睛、耳朵的可接受範圍內,盡量壓縮,即可大幅降低 information entropy。
🎬 Frame rate (幀率):30 FPS (Frames Per Second) 代表每秒跑30張畫面。由於人類眼睛的特殊生理結構,如果所看畫面之幀率高於16的時候,就會認為是連貫的,此現象稱之為視覺暫留。這也就是為什麼電影膠片是一格一格拍攝出來,然後快速播放的。現代電影的幀率為24,對一般人而言已足夠流暢,但對高動態的電子遊戲,尤其是第一人稱射擊遊戲來說,幀率少於每秒30幀的話,遊戲就會顯得不連貫,這是因為兩者顯像原理不同所致。電影的一格幀中其實隱含了1/24秒內的所有訊息,但電子遊戲的一格幀就只有該時間點上的畫面,故電子遊戲需要更高的幀率來達到順暢的視覺效果,此缺失可用一些電腦圖形學的技術來彌補。(https://reurl.cc/MA5VE4)
synecdoche (借代、比喻) 是以部分指涉整體的語言手法,借代讓我們能變換詞句,保留某個經驗最主要的部份。以這種方式傳遞訊息時,作者信任讀者有能力填補空白。(https://reurl.cc/zenRje)
🌳 深諳借代之道的作者就像熟悉標本的植物學家,雖然採集的標本只是樹木的一小部分,但已足以讓他們一窺樹木的原貌。
📚 文學評論是有損壓縮,有毀損作品本身之虞。關於藝術品的任何評論,都是在跟藝術品本身較勁。大家經常批評一般人貪圖方便,只閱讀書摘、書評,不好好讀書。但若《Anna Karenina》的 information entropy 超低,只用整本書篇幅的 1/100 講完 60% 的內容,那肯定是托爾斯泰的問題。讀者一生只有 28,000 天,如果他們只想看有損書評過日子,誰又能怪他們呢?
🎬 若你晚上閒閒沒事,可以去看電影預告,看預告片的熵值 (entropy value) 最高,每段都能帶你通往新世界。
📱 手機越好用,你就越難展現自己。我們要努力對抗頑強的拼字校正、抵制文字預測、堅拒自動完成,力求寫出獨具風格、成為難以預料、桀敖不馴、有高熵值文句的人,別讓手機讓我們變得平庸。
資料壓縮能夠實現是因為多數現實世界的資料都有統計冗餘。例如,字母「e」在英語中比字母「z」更加常用,字母「q」後面是「z」的可能性非常小。非破壞性資料壓縮通常利用了統計冗餘,這樣就能更加簡練地、但仍然是完整地表示傳送方的資料。非破壞性資料壓縮的壓縮率不足以處理龐大體積的音影片數據,但如果允許一定程度的保真度損失,那麼還可以實現進一步的壓縮。例如,人們看圖畫或者電視畫面的時候可能並不會注意到一些細節並不完善。同樣,兩個音訊錄音採樣序列可能聽起來一樣,但實際上並不完全一樣。破壞性資料壓縮在可以接受或無法察覺的情況下使用較少的位數表示圖像、影片或者音訊。(https://reurl.cc/6azy6M)
要評判壓縮後的 mp3 音檔是否夠好,一部分要看它保留多少未經壓縮的原始資料,另一部分得看 mp3 player (通常也是解壓縮程式) 猜的多準,是否能為沒有保留住的部分增添價值。要討論某個檔案的品質,就一定得把它和撥放器的關係列入考量。
「小說」的資訊量遠大於「電影」,因為小說留給讀者更大的想像空間。這也是為什麼,忙了一整天後,你可能會累到無法讀書,卻不太可能累到無法看電視、聽音樂。