殘差神經網絡

殘差神經網絡（Residual Neural Network，簡稱ResNet）^[1]屬於深度學習模型的一種，其核心在於讓網絡的每一層不直接學習預期輸出，而是學習與輸入之間的殘差關係。這種網絡通過添加「跳躍連接」，即跳過某些網絡層的連接來實現身份對映，再與網絡層的輸出相加合併。其運作機制與高速神經網絡（英語：Highway network）類似，通過極大的正偏置權重來打開「門控」。^[2] 這一設計使得擁有幾十上百層的深度學習模型可以更易於訓練，增加模型深度時還能保持甚至提高準確度。所謂的「殘差連接」即「直連跳過」，這一概念也被應用於1997年的長短期記憶模型LSTM、^[3] Transformer模型（比如BERT和GPT系列，ChatGPT等）、AlphaGo Zero、AlphaStar（英語：AlphaStar (software)）以及AlphaFold等。

殘差神經網絡由何愷明、張祥雨、任少卿和孫劍開發，這一成果在2015年的ImageNet大規模視覺辨識挑戰賽中奪冠。^[4]^[5]

基本原理

背景介紹

2012年，針對ImageNet競賽開發的AlexNet模型是一個包含8層的卷積神經網絡。到了2014年，牛津大學的視覺幾何組（VGG）通過疊加3x3卷積層將網絡深度增加到了19層。^[6] 但是，層級的增加卻導致訓練精度的迅速下降，^[7] 這種現象被稱為「效能退化」問題。^[1]

理論上，如果一個更深的網絡僅僅是通過在一個較淺網絡的基礎上增加額外層來構建的，那麼這個更深的網絡不應該比其較淺的網絡有更高的訓練損失。^[1] 如果這些額外層具有身份對映的能力，那麼更深的網絡應該能夠實現與其較淺網絡相同的功能。但這裏存在一個假設，即最佳化器不能有效地將這些參數化的網絡層調整為身份對映。

殘差學習

在多層神經網絡模型里，設想一個包含若干層的子網絡絡。這個子網絡絡的函數用 ${\textstyle H(x)}$ 來表示，其中 ${\textstyle x}$ 是子網絡絡的輸入。殘差學習是通過重新設定這個子網絡絡的參數，讓參數層表達一個殘差函數 ${\textstyle F(x):=H(x)-x}$ 。因此，這個子網絡絡的輸出 ${\textstyle y}$ 可以表示為：

{\begin{aligned}y&=F(x)+x\end{aligned}}

這一原理同樣適用於1997年提出的長短期記憶LSTM單元，^[3] 在隨時間反向傳播（英語：Backpropagation through time）里計算 ${\textstyle y_{t+1}=F(x_{t})+x_{t}}$ ，簡化為 ${\textstyle y=F(x)+x}$ 。

函數 ${\textstyle F(x)}$ 常通過矩陣乘法實現，並結合激勵函數以及規範化操作（如批次規範化（英語：Batch normalization）或層規範化）。

這類子網絡絡被稱作「殘差塊」。^[1] 通過疊加這樣的殘差塊，形成深度殘差網絡。

在" ${\textstyle y=F(x)+x}$ "公式中的" ${\textstyle +\ x}$ "操作是通過一個相當於恆等對映的跳躍連接來完成，它將殘差塊的輸入直接與輸出連接。在隨後的研究中，這種連接常被稱作「殘差連接」。^[8]

訊號傳遞

身份對映的引入有利於訊號在前向傳播路徑和反向傳播路徑中的傳遞。^[9]

向前傳播

如果第 ${\textstyle \ell }$ 個殘差塊的輸出是第 ${\textstyle (\ell +1)}$ 個殘差塊的輸入（這裏假設塊與塊之間沒有激勵函數），可以得到：^[9]

{\begin{aligned}x_{\ell +1}&=F(x_{\ell })+x_{\ell }\end{aligned}}

若遞歸應用此公式，例如， ${\begin{aligned}x_{\ell +2}=F(x_{\ell +1})+x_{\ell +1}=F(x_{\ell +1})+F(x_{\ell })+x_{\ell }\end{aligned}}$ ，可以推導出：

{\begin{aligned}x_{L}&=x_{\ell }+\sum _{i=l}^{L-1}F(x_{i})\\\end{aligned}}

這裏 ${\textstyle L}$ 表示任意後續殘差塊的索引（比如處於最末尾的塊）， ${\textstyle \ell }$ 代表任意靠前的塊對應的索引。該公式說明了總有一個訊號能夠直接從淺層塊 ${\textstyle \ell }$ 傳遞到深層塊 ${\textstyle L}$ 。

反向傳播

殘差學習的公式還在一定程度上緩解了梯度消失問題。然而，梯度消失並不是導致效能退化問題的根源，因為通過引入規範化層（如批次規範化）可在一定程度上解決此問題。根據上面的前向傳播過程，對 ${\textstyle x_{\ell }}$ 進行求導，可以得到：^[9]

{\begin{aligned}{\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial x_{L}}{\partial x_{\ell }}}\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}\left(1+{\frac {\partial }{\partial x_{\ell }}}\sum _{i=l}^{L-1}F(x_{i})\right)\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}+{\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial }{\partial x_{\ell }}}\sum _{i=l}^{L-1}F(x_{i})\\\end{aligned}}

這裏 ${\textstyle {\mathcal {E}}}$ 是最小化損失函數。以上表明，淺層的梯度計算 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ 總會直接加上一個項 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$ 。因此，由於額外項 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$ 的存在，即使 ${\textstyle F(x_{i})}$ 的梯度很小，總梯度 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ 也不會消失。

殘差塊

兩種類型的卷積殘差塊。左側是基本塊，它由兩個3x3卷積層組成。右側是瓶頸塊，該塊先通過一個1x1卷積層進行降維，接着是一個3x3卷積層，最後再通過一個1x1卷積層恢復原來的維度。

基本殘差塊

基本殘差塊是原始ResNet研究中最簡單的部分。^[1] 它包括兩個串行的3x3卷積層以及一個殘差連接。這兩層的輸入輸出尺寸保持一致。

瓶頸殘差塊

瓶頸殘差塊包含三個串聯的卷積層和一個殘差連接。^[1] 該塊的第一層是1x1卷積，用於降維，比如降至輸入維度的1/4；第二層是3x3卷積；最後一層是另一個1x1卷積，用於恢復維度。ResNet-50、ResNet-101和ResNet-152模型都基於瓶頸塊構建。^[1]

預啟用殘差塊

預啟用殘差塊^[9]在應用殘差函數 ${\textstyle F}$ 之前，先使用激勵函數，如非線性和規範化的處理。預啟用殘差塊的計算可以表述為：

{\begin{aligned}x_{\ell +1}&=F(\phi (x_{\ell }))+x_{\ell }\end{aligned}}

這裏的 ${\textstyle \phi }$ 可以是如線性整流函數等任意非線性啟用或歸一化操作。這種設計減少了殘差塊間非恆等對映的數量，被用於訓練200層到1000多層的模型。^[9]

從GPT-2開始，Transformer塊常被用於預啟用塊，這在Transformer模型的相關文獻中被稱為「預規範化」。^[10]

Transformer塊

原始GPT模型採用的Transformer架構是由兩種類型的殘差塊構成：一個是多頭注意力塊，另一個是前饋的多層感知器（MLP）塊。這種設計通過結合兩個功能強大的殘差塊，使得Transformer能夠高效地處理數據並學習複雜的特徵，其中每個殘差塊都利用殘差連接來促使訊號在網絡深層之間的流動以及更有效的進行梯度回傳，克服了深度模型訓練過程中遇到的梯度消失等問題。

Transformer塊是由兩個殘差塊組成，每個殘差塊都設有一個殘差連接。

第一個殘差塊為多頭注意力塊，使用了自注意力運算，隨後連接一個線性對映層。第二個殘差塊是一個前饋式的多層感知器（MLP）塊，這個塊在某種程度上像是一個「反向」的瓶頸塊，它通過一個線性對映層（在卷積神經網絡中相當於1x1的卷積）來擴大維度，然後通過另一個線性對映層來減少維度。

一個Transformer塊包含了四層線性對映。GPT-3模型擁有96個這樣的Transformer塊（在Transformer領域的文獻中，通常將一個Transformer塊稱作一個「Transformer層」）。因此，該模型包含了大約400層的對映層，包括Transformer塊內的96x4層，以及一些額外的層用於輸入嵌入和輸出預測。

若沒有殘差連接，訓練網絡深度極高的Transformer模型將無法取得成功。^[11]

與生物學的聯絡

雖然最初的殘差網絡研究並未受生物學啟發，但後來的研究卻發現殘差網絡與生物學有關。^[21]^[22]

2023年《科學》雜誌上發表的一項研究展示了果蠅幼蟲大腦的完整神經連接組。^[23] 這項研究發現了類似於類神經網絡中如ResNet一樣的跳躍連接。

參考文獻

^ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Deep Residual Learning for Image Recognition. 10 Dec 2015. arXiv:1512.03385  .
^ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen. Highway Networks. 3 May 2015. arXiv:1505.00387  [cs.LG].
^ ^3.0 ^3.1 ^3.2 Sepp Hochreiter; Jürgen Schmidhuber. Long short-term memory. Neural Computation. 1997, 9 (8): 1735–1780 [2024-01-27]. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735. （原始內容存檔於2021-01-22）.
^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li. ImageNet: A large-scale hierarchical image database. CVPR. 2009 [2024-01-27]. （原始內容存檔於2019-09-29）.
^ ILSVRC2015 Results. image-net.org. [2024-01-27]. （原始內容存檔於2023-09-29）.
^ Simonyan, Karen; Zisserman, Andrew. Very Deep Convolutional Networks for Large-Scale Image Recognition. 2014. arXiv:1409.1556  [cs.CV].
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. 2016. arXiv:1502.01852  [cs.CV].
^ Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alex. Inception-v4, Inception-ResNet and the impact of residual connections on learning. 2016. arXiv:1602.07261  [cs.CV].
^ ^9.0 ^9.1 ^9.2 ^9.3 ^9.4 ^9.5 ^9.6 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Identity Mappings in Deep Residual Networks. 2015. arXiv:1603.05027  [cs.CV].
^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya. Language models are unsupervised multitask learners (PDF). 14 February 2019 [19 December 2020]. （原始內容存檔 (PDF)於6 February 2021）.
^ Dong, Yihe; Cordonnier, Jean-Baptiste; Loukas, Andreas. Attention is not all you need: pure attention loses rank doubly exponentially with depth. 2021. arXiv:2103.03404  [cs.LG].
^ ^12.0 ^12.1 Rosenblatt, Frank. Principles of neurodynamics. perceptrons and the theory of brain mechanisms (PDF). 1961 [2024-01-27]. （原始內容存檔 (PDF)於2023-05-04）.
^ ^13.0 ^13.1 ^13.2 Venables, W. N.; Ripley, Brain D. Modern Applied Statistics with S-Plus. Springer. 1994 [2024-01-27]. ISBN 9783540943501. （原始內容存檔於2023-08-22）.
^ ^14.0 ^14.1 Ripley, B. D. Pattern Recognition and Neural Networks. Cambridge University Press. 1996 [2024-01-27]. （原始內容存檔於2023-12-02）.
^ Hochreiter, Sepp. Untersuchungen zu dynamischen neuronalen Netzen (PDF) (diploma論文). Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber. 1991 [2024-01-27]. （原始內容存檔 (PDF)於2023-03-20）.
^ ^16.0 ^16.1 ^16.2 Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. Learning to Forget: Continual Prediction with LSTM. Neural Computation. 2000, 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709  . PMID 11032042. S2CID 11598600. doi:10.1162/089976600300015015.
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen. Training Very Deep Networks. 22 July 2015. arXiv:1507.06228  [cs.LG].
^ Schmidhuber, Jürgen. Microsoft Wins ImageNet 2015 through Highway Net (or Feedforward LSTM) without Gates. 2015 [2024-01-27]. （原始內容存檔於2023-11-27）.
^ Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Weinberger, Kilian. Densely Connected Convolutional Networks. 2016. arXiv:1608.06993  .
^ Huang, Gao; Sun, Yu; Liu, Zhuang; Weinberger, Kilian. Deep Networks with Stochastic Depth. 2016. arXiv:1603.09382  .
^ Liao, Qianli; Poggio, Tomaso. Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex. 2016. arXiv:1604.03640  .
^ Xiao, Will; Chen, Honglin; Liao, Qianli; Poggio, Tomaso. Biologically-Plausible Learning Algorithms Can Scale to Large Datasets. 2018. arXiv:1811.03567  .
^ Winding, Michael; Pedigo, Benjamin; Barnes, Christopher; Patsolic, Heather; Park, Youngser; Kazimiers, Tom; Fushiki, Akira; Andrade, Ingrid; Khandelwal, Avinash; Valdes-Aleman, Javier; Li, Feng; Randel, Nadine; Barsotti, Elizabeth; Correia, Ana; Fetter, Fetter; Hartenstein, Volker; Priebe, Carey; Vogelstein, Joshua; Cardona, Albert; Zlatic, Marta. The connectome of an insect brain. Science. 10 Mar 2023, 379 (6636): eadd9330. PMC 7614541  . PMID 36893230. S2CID 254070919. bioRxiv 10.1101/2022.11.28.516756v1  . doi:10.1126/science.add9330.

[resnet-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Deep Residual Learning for Image Recognition. 10 Dec 2015. arXiv:1512.03385  .

[highway2015may-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen. Highway Networks. 3 May 2015. arXiv:1505.00387  [cs.LG].

[lstm1997-3] 3.0 ^3.1 ^3.2 Sepp Hochreiter; Jürgen Schmidhuber. Long short-term memory. Neural Computation. 1997, 9 (8): 1735–1780 [2024-01-27]. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735. （原始內容存檔於2021-01-22）.

[imagenet-4] Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li. ImageNet: A large-scale hierarchical image database. CVPR. 2009 [2024-01-27]. （原始內容存檔於2019-09-29）.

[ilsvrc2015-5] ILSVRC2015 Results. image-net.org. [2024-01-27]. （原始內容存檔於2023-09-29）.

[vggnet-6] Simonyan, Karen; Zisserman, Andrew. Very Deep Convolutional Networks for Large-Scale Image Recognition. 2014. arXiv:1409.1556  [cs.CV].

[prelu-7] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. 2016. arXiv:1502.01852  [cs.CV].

[inceptionv4-8] Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alex. Inception-v4, Inception-ResNet and the impact of residual connections on learning. 2016. arXiv:1602.07261  [cs.CV].

[resnetv2-9] 9.0 ^9.1 ^9.2 ^9.3 ^9.4 ^9.5 ^9.6 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Identity Mappings in Deep Residual Networks. 2015. arXiv:1603.05027  [cs.CV].

[gpt2paper-10] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya. Language models are unsupervised multitask learners (PDF). 14 February 2019 [19 December 2020]. （原始內容存檔 (PDF)於6 February 2021）.

[lose_rank-11] Dong, Yihe; Cordonnier, Jean-Baptiste; Loukas, Andreas. Attention is not all you need: pure attention loses rank doubly exponentially with depth. 2021. arXiv:2103.03404  [cs.LG].

[mlpbook-12] 12.0 ^12.1 Rosenblatt, Frank. Principles of neurodynamics. perceptrons and the theory of brain mechanisms (PDF). 1961 [2024-01-27]. （原始內容存檔 (PDF)於2023-05-04）.

[massbook-13] 13.0 ^13.1 ^13.2 Venables, W. N.; Ripley, Brain D. Modern Applied Statistics with S-Plus. Springer. 1994 [2024-01-27]. ISBN 9783540943501. （原始內容存檔於2023-08-22）.

[prnnbook-14] 14.0 ^14.1 Ripley, B. D. Pattern Recognition and Neural Networks. Cambridge University Press. 1996 [2024-01-27]. （原始內容存檔於2023-12-02）.

[hochreiter1991-15] Hochreiter, Sepp. Untersuchungen zu dynamischen neuronalen Netzen (PDF) (diploma論文). Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber. 1991 [2024-01-27]. （原始內容存檔 (PDF)於2023-03-20）.

[lstm2000-16] 16.0 ^16.1 ^16.2 Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. Learning to Forget: Continual Prediction with LSTM. Neural Computation. 2000, 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709  . PMID 11032042. S2CID 11598600. doi:10.1162/089976600300015015.

[highway2015july-17] Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen. Training Very Deep Networks. 22 July 2015. arXiv:1507.06228  [cs.LG].

[highwayblog-18] Schmidhuber, Jürgen. Microsoft Wins ImageNet 2015 through Highway Net (or Feedforward LSTM) without Gates. 2015 [2024-01-27]. （原始內容存檔於2023-11-27）.

[19] Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Weinberger, Kilian. Densely Connected Convolutional Networks. 2016. arXiv:1608.06993  .

[20] Huang, Gao; Sun, Yu; Liu, Zhuang; Weinberger, Kilian. Deep Networks with Stochastic Depth. 2016. arXiv:1603.09382  .

[liao2016-21] Liao, Qianli; Poggio, Tomaso. Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex. 2016. arXiv:1604.03640  .

[xiao2018-22] Xiao, Will; Chen, Honglin; Liao, Qianli; Poggio, Tomaso. Biologically-Plausible Learning Algorithms Can Scale to Large Datasets. 2018. arXiv:1811.03567  .

[Winding2023-23] Winding, Michael; Pedigo, Benjamin; Barnes, Christopher; Patsolic, Heather; Park, Youngser; Kazimiers, Tom; Fushiki, Akira; Andrade, Ingrid; Khandelwal, Avinash; Valdes-Aleman, Javier; Li, Feng; Randel, Nadine; Barsotti, Elizabeth; Correia, Ana; Fetter, Fetter; Hartenstein, Volker; Priebe, Carey; Vogelstein, Joshua; Cardona, Albert; Zlatic, Marta. The connectome of an insect brain. Science. 10 Mar 2023, 379 (6636): eadd9330. PMC 7614541  . PMID 36893230. S2CID 254070919. bioRxiv 10.1101/2022.11.28.516756v1  . doi:10.1126/science.add9330.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]