馬庫斯聽到林楓提到“改進網路結構”時,愣了一下。
這話聽起來似乎有些輕描淡寫,在2014年,深度學習的結構問題是個熱門話題,而大家都還在圍繞如何改進已有的架構,比如cNN(卷積神經網路)和RNN(迴圈神經網路)展開討論。
大家都在想著要改進網路結構。
可要說“改進網路結構”,得具體到什麼程度才能真正解決梯度消失問題呢?
他遲疑了一會兒,問道:“改進網路結構?你是說嘗試新的層設計,還是在啟用函式上進一步最佳化?”
林楓微微一笑,顯得胸有成竹。
畢竟林楓關於人工智慧的知識量截止到2024,而現在才剛剛2014。
在2024年,解決梯度消失的核心技術已經有了突破性的進展,比如“殘差網路”(ResNet)的提出,在當時被認為是改寫深度學習領域的一項技術。
但在2014年,這個概念還遠未被提出。
林楓意識到自己可能正站在改變這一切的關鍵時刻。
“啟用函式的最佳化確實重要,”林楓淡淡說道,“但我說的改進,更多是指在網路層次的設計上。你有沒有想過,深層網路的問題不只是梯度傳遞不下去,而是資訊本身也無法有效傳播?訊號在一層層中傳遞時,逐漸丟失了原本的重要資訊,等到最後幾層時,網路幾乎是在‘盲目學習’。”
“這個道理我懂,”馬庫斯點了點頭,“但我們已經嘗試了很多調整,比如增加跳層連線、在特定層使用更強的正則化,甚至嘗試了不同的初始化方法,效果依舊有限。”
林楓暗自一笑,跳層連線?
看樣子馬庫斯已經有了些殘差網路的雛形思想,但還沒觸及真正的核心。
“你們是朝著正確的方向走的,”林楓說道,眼神中透著些許不易察覺的自信,“但或許你們忽略了一個更關鍵的概念。網路越深,資訊傳遞的阻礙就越大,而如果我們在每幾層之間構建直接的‘捷徑’,讓資訊不必層層傳遞,而是能夠跨越幾層直接回到前面的層,這樣就能有效解決梯度消失的問題。”
“直接跨層?這……”馬庫斯有些困惑,“你的意思是跳過中間的層,讓前面的輸出直接輸入到後面的層?這樣網路的非線性特徵不就被打破了嗎?”
“No,no,no”林楓輕輕搖頭,“這種跨層連線並不是要完全替代中間層,而是讓資訊能夠‘繞過’那些不必要的損失點,從而減少梯度消失的機會。中間的層依然存在,依然發揮作用,但跳過的這些連線能夠保證資訊傳遞的穩定性。你可以把它想象成是給網路‘加了一層保險’,避免重要資訊在傳遞中被淹沒。”
馬庫斯聽得眼前一亮,這個思路與他們之前討論的跳層連線確實有些相似,但林楓描述的更為徹底。“跨層連線”和“跳層連線”不再只是簡單的嘗試,而是建立起一種全新的資訊傳遞方式。
這種方式聽起來既能保留深度網路的複雜性,又能有效應對梯度消失的問題。
“你說的這些……感覺像是網路中有個反饋機制,確保梯度和資訊都能回流,維持學習的穩定性。”馬庫斯眼中閃過一絲興奮,他直覺林楓正在講述的東西,可能會是未來突破深層神經網路訓練的關鍵。
林楓笑了笑,點了點頭。
正是“反饋機制”的概念讓殘差網路得以解決深度神經網路中的許多瓶頸。
林楓繼續說道:“這套結構讓訊號能夠透過短路或捷徑返回到較淺的層,減少資訊丟失,同時保持梯度的大小,確保網路不會在深度增加時失去學習能力。其實你們可以試著在更復雜的網路中引入這種結構,我相信會看到意想不到的效果。”
馬庫斯默默