特德姜講了一個堪比他寫的科幻小說般的故事。
“這個事情我是從一個電腦科學家朋友大衛·克里賽爾那裡聽到的,他接到鎝國一家建築公司的求助,說他們公司的施樂影印機出現了一些奇怪的問題。當他們在影印一個房子的平面圖時,副本和原件之間總是會存在微小但無法忽視的差異。原件中,每棟房子的三個房間都有個矩形來說明它們的面積,房間分別是14.13平方米、21.11平方米和17.42平方米。然而在影印件中,所有三個房間都被標記成14.13平方米。”
劉玉琨聽過這個故事,露出神秘的微笑。
李睿和妲露拉卻覺得不可思議,影印機不就是應該把原件原原本本的影印下來嗎,為什麼影印件會和原件之間出現如此奇怪的差異呢?
如果不是內部程式出了問題,就只能是影印機成精了?
特德姜繼續道:“那家公司對影印機進行了全方位的檢查,沒有發現任何問題,最後只能求助於大衛。大衛去看了一下,發現這是一臺採用了數字掃描文件然後列印生成影象檔案的現代影印機,而在掃描和列印的過程之間,影印機內部程式會把每個數字影象檔案進行壓縮,問題就出現在壓縮環節中。”
“我們都知道,壓縮分為兩種,一種是無失真壓縮,另外一種是有失真壓縮。無失真壓縮恢復的檔案和原始檔案相同,而有失真壓縮恢復的檔案只是原始檔案的近似值。這臺施樂影印機使用了一種被稱為jbig2的有失真壓縮格式,是一種專為黑白影象而設計的,非常節省空間的技術格式,影印機會識別影象中看起來相似的區域,並將所有這類區域儲存成一份副本。當檔案被解壓時,影印機會重複使用該副本來重建映像。結果就是,影印機判斷出指定房間面積的標籤非常相似,所以它只需要儲存其中那個14.13平方米的房間,並且在列印時,對所有三個房間都重複使用這一個標籤。”
“原來如此。”李睿和妲露拉明白了。
看來不是影印機成精了,還是內部程式的設計有問題。
看上去,一臺影印機疑似成精的故事和人工智慧之間沒什麼直接聯絡,影印機內部採用的壓縮技術,才是這個故事的關鍵。
特德姜繼續道:“大衛把這個問題指出來,並且聯絡了施樂的工程師,想必他們很快就會透過補丁來解決這個bUG,而我則從這個故事中,發散想到了其他的問題。我們一直認為影印機只是完整的複製原件,但在數字時代,它卻採用了一種微妙而模糊的方式來解決複製問題,它製造的副本看起來準確,實際上並不準確。我們正在研究的人工智慧,是不是也可以採用類似的方式來發展呢?”
“發展不準確的複製?”妲露拉驚訝的問道。
特德姜笑了:“當然不是。”
他頓了頓解釋道:“據我所知,微軟谷歌還有其他一些公司正在研究語言模型,希望人類和機器能夠透過某種方式進行溝通和對話,這就需要為機器準備極為龐大的資料庫,最好是能夠把整個全球資訊網儲存下來供機器呼叫。”
“那是不可能的。”妲露拉搖頭道。
特德姜道:“確實不可能,但如果是採用壓縮技術,尤其是有失真壓縮的技術,還是有可能的。這需要編寫一個有損演算法來識別所有資料中的統計規律,就可以把所有資料資訊儲存下來,供機器學習和使用。唯一的問題是,由於資料被高度壓縮,機器無法透過搜尋準確的引用來查詢資訊,就無法得到一個精確的匹配,只能透過一些要點來進行響應。”
“chAtGpt……不,應該是問心義言……”李睿小聲咕噥著。
“你說什麼?”特德姜問。
李睿搖頭道:“沒什麼。”心中卻翻滾著巨浪,原來這麼早就有人提出了類