跳至內容

神經網絡高斯過程

維基百科,自由的百科全書

神經網絡高斯過程(英語:neural network Gaussian process,簡稱NNGP) 是一種特殊的高斯過程,可以看作一類特定人工神經網絡序列的極限。具體而言,當多種神經網絡架構的寬度趨於無窮時,其函數分布會收斂到一個高斯過程。[1][2][3][4][5][6][7][8]

背景

[編輯]

貝葉斯網絡是一種建模工具,它通過為事件分配概,來量化模型預測中的不確定性。深度學習人工神經網絡則是機器學習中的主流方法,用於構建能從訓練樣本中學習的計算模型。貝葉斯神經網絡則將二者相融合,是一種參數與預測都具有概率性的神經網絡。[9][10]標準的神經網絡常會對錯誤的預測賦予較高的置信度[11],而貝葉斯神經網絡能夠更準確地評估自身預測正確的可能性。

左圖:包含兩個隱藏層的貝葉斯神經網絡,該網絡將三維輸入(下)轉換為二維輸出(上)。右圖:網絡輸出的概率密度函數,由網絡的隨機權重所決定。視頻:隨著網絡寬度的增加,輸出分布變得簡單,最終在無限寬度極限下收斂到多元常態分布

人工神經網絡的計算可以表示成人工神經元構成的層序列,其中每一層的神經元數量稱為層的寬度。當我們考察一個貝葉斯神經網絡序列(見圖),其所有層的寬度不斷增加時,這個序列在函數分布上最終會收斂到一個神經網絡高斯過程。這種無限寬度下的極限具有現實意義,因為在實踐中更寬的網絡通常會有更好的性能。[12][4][13]同時,這一極限也為我們提供了一種評估網絡性能的閉式方法。

除了作為貝葉斯神經網絡的極限,神經網絡高斯過程還出現在其他幾種場景下:它描述了一個非貝葉斯寬人工神經網絡在參數隨機初始化之後、訓練之前的輸出函數分布;它可以作為神經正切核預測方程中的關鍵組成部分;它在深度信息傳播中用以表徵超參數和架構是否可以訓練。[14]它還與神經網絡的其他大寬度極限有關。

適用範圍

[編輯]

關於神經網絡與高斯過程的第一個對應關係,最早可以追溯到Radford M. Neal在其1995年博士論文中的結果[15],當時他的導師是多倫多大學教授傑弗里·辛頓。Neal表示他的研究靈感來源於從事貝葉斯學習研究的戴維·J·C·麥凱

如今,這一對應關係已被證明適用於多種架構,如單隱藏層貝葉斯神經網絡[15]、層寬趨於無窮時的深度全連接網絡[2][3]、通道數趨於無窮時的卷積神經網絡[4][5][6]、注意頭數量趨於無窮時的Transformer網絡[16]、單元數趨於無窮時的循環網絡[8]等。事實上,這種對應關係對幾乎所有神經網絡架構都成立。只要一個架構可以完全由矩陣乘法和逐坐標的非線性運算來表達,那麼它就存在一個無限寬度下的高斯過程極限。[8]這一定義涵蓋了由多層感知器、循環神經網絡(如LSTM和GRU)、(任意維度或圖上的)卷積、池化、跳躍連接、注意力、批量歸一化及層歸一化組成的所有前饋或循環神經網絡。

圖解說明

[編輯]
當無限寬度網絡的參數從其先驗分布中採樣時,網絡輸出的最終分布可以由高斯過程描述。

神經網絡參數的每一組參數對應於由該網絡所計算的特定函數。當我們指定網絡參數的先驗分布時,也就等同於在網絡可能實現的所有函數上確定了一個先驗分布。對於許多網絡架構而言,當其寬度趨於無窮時,這個函數空間上的分布會收斂到一個高斯過程。

圖中直觀地展示了這一概念。對於一維輸出的神經網絡,該圖的坐標軸表示網絡對兩個不同輸入的對應輸出值。圖中的每一個黑點都代表了一次隨機採樣:先從中隨機抽取一組參數,然後再計算兩個輸入值對應的輸出對。而圖中的紅線則描繪了由得到的輸出對的聯合概率分布。這是參數空間中對應於函數空間中的分布。在無限寬的神經網絡中,由於其函數分布是一個高斯過程,因此對任意有限的一組輸入,其輸出的聯合分布必定是一個多元高斯分布。

討論

[編輯]

無限寬全連接網絡

[編輯]

本節針對全連接網絡這一具體架構,討論無限寬神經網絡與高斯過程之間的對應關係。我們將提供了一個證明概要,旨在闡述這一對應關係成立的原因,並給出這一架構下神經網絡高斯過程的具體函數形式。此處的證明概要主要遵循了Novak等人提出的方法。[4]

網絡架構

[編輯]
全連接貝葉斯神經網絡

考慮一個全連接人工神經網絡,其中為輸入,參數由每一層的權重和偏置組成,則分別表示每一層的預激活值(非線性運算之前)和激活值(非線性運算之後),為逐點作用的非線性函數,為層寬。為簡單起見,輸出向量的寬度取為 1。假設網絡的參數具有先驗分布,其中每一個權重和偏置都獨立地服從一個各向同性的高斯分布,而權重的方差與層寬成反比。該網絡的結構如右圖所示,並由以下方程組描述:

高斯過程

[編輯]

首先,我們注意到預激活值可以被描述為一個以激活值為條件的高斯過程。這一結論即便在有限寬度的網絡中也成立。每個預激活值是一系列高斯隨機變量(權重和偏置)的加權和,而這一求和中每個高斯變量的係數都是之前的激活值。因為是零均值高斯隨機變量的加權和,所以其本身也是零均值高斯隨機變量。對於任意服從聯合高斯分布,因此其可以被定義為以為條件的高斯過程。該高斯過程的協方差(即核函數)取決於權重方差、偏置方差以及激活值的二階矩矩陣

其中權重方差的作用是縮放來自的貢獻,而偏置由於是對所有輸入共享的,因此使得更接近常數矩陣,即讓不同輸入數據點所對應的更相似。

高斯過程

[編輯]

預激活值的依賴僅取決於其二階矩矩陣。正因如此,我們可以說是一個以為條件的高斯過程,而無需取決於整個激活向量

層寬趨於無窮時的確定性

[編輯]

如前所述,是激活值的二階矩矩陣。由於是對預激活值應用非線性函數的結果,可以將其替換為,從而將)的定義改寫為

前文已證明是一個高斯過程。這意味著,上述定義中的求和項,實現上是個樣本的平均,這些樣本都是從基於為的高斯過程中採樣得到的,即

隨著層寬趨於無窮大,這個高斯過程樣本的均值會收斂到一個高斯過程上的積分:

因此,在無限寬度極限下,輸入對的二階矩矩陣可以通過一個關於二維高斯分布的積分來計算。對許多常見的激活函數,例如ReLU[17]、ELU、GELU[18]誤差函數[1]等,這一積分都存在解析解。即使在沒有解析解的情況下,由於它只是一個二維積分,通常也可以通過數值方法高效地計算。[2]由於該積分是確定性的,也是確定性的。

為了方便表示,我們定義一個泛函,它代表了上述積分的計算過程,並將前一層的映射到當前層的

神經網絡高斯過程

[編輯]

上節我們得到,是確定性的。遞歸地應用這一結論,最後一層的可以寫成輸入層的確定性函數:

其中,表示將連續應用次。同時,輸入層的二階矩矩陣也是輸入的確定性函數,加之我們已證明是一個高斯過程,最終我們可以將神經網絡的輸出表示為輸入的高斯過程:

軟體庫

[編輯]

Neural Tangents是一個由Google開發的免費開源Python庫,可以用於計算和推斷與各常見神經網絡架構相對應的神經網絡高斯過程和神經正切核[19]

參考文獻

[編輯]
  1. ^ 1.0 1.1 Williams, Christopher K. I. Computing with infinite networks. Neural Information Processing Systems. 1997. 
  2. ^ 2.0 2.1 2.2 Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha. Deep Neural Networks as Gaussian Processes. International Conference on Learning Representations. 2017. Bibcode:2017arXiv171100165L. arXiv:1711.00165可免費查閱. 
  3. ^ 3.0 3.1 G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin. Gaussian Process Behaviour in Wide Deep Neural Networks. International Conference on Learning Representations. 2017. Bibcode:2018arXiv180411271M. arXiv:1804.11271可免費查閱. 
  4. ^ 4.0 4.1 4.2 4.3 Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha. Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes. International Conference on Learning Representations. 2018. Bibcode:2018arXiv181005148N. arXiv:1810.05148可免費查閱. Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
  5. ^ 5.0 5.1 Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward. Deep Convolutional Networks as shallow Gaussian Processes. International Conference on Learning Representations. 2018. Bibcode:2018arXiv180805587G. arXiv:1808.05587可免費查閱. 
  6. ^ 6.0 6.1 Borovykh, Anastasia. A Gaussian Process perspective on Convolutional Neural Networks. 2018. arXiv:1810.10798可免費查閱 [stat.ML]. 
  7. ^ Tsuchida, Russell; Pearce, Tim. Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks. 2020. arXiv:2002.08517可免費查閱 [cs.LG]. 
  8. ^ 8.0 8.1 8.2 Yang, Greg. Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes (PDF). Advances in Neural Information Processing Systems. 2019. Bibcode:2019arXiv191012478Y. arXiv:1910.12478可免費查閱. 
  9. ^ MacKay, David J. C. A Practical Bayesian Framework for Backpropagation Networks. Neural Computation. 1992, 4 (3): 448–472. ISSN 0899-7667. S2CID 16543854. doi:10.1162/neco.1992.4.3.448. 
  10. ^ Neal, Radford M. Bayesian Learning for Neural Networks. Springer Science and Business Media. 2012. 
  11. ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. On calibration of modern neural networks. Proceedings of the 34th International Conference on Machine Learning-Volume 70. 2017. arXiv:1706.04599可免費查閱. 
  12. ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha. Sensitivity and Generalization in Neural Networks: an Empirical Study. International Conference on Learning Representations. 2018-02-15. Bibcode:2018arXiv180208760N. arXiv:1802.08760可免費查閱. 
  13. ^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan. Towards understanding the role of over-parametrization in generalization of neural networks. International Conference on Learning Representations. 2019. Bibcode:2018arXiv180512076N. arXiv:1805.12076可免費查閱. 
  14. ^ Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha. Deep information propagation. International Conference on Learning Representations. 2016. arXiv:1611.01232可免費查閱. 
  15. ^ 15.0 15.1 Neal, Radford M., Priors for Infinite Networks, Bayesian Learning for Neural Networks, Lecture Notes in Statistics 118, Springer New York: 29–53, 1996, ISBN 978-0-387-94724-2, doi:10.1007/978-1-4612-0745-0_2 
  16. ^ Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman. Infinite attention: NNGP and NTK for deep attention networks. International Conference on Machine Learning. 2020-06-18, 2020. Bibcode:2020arXiv200610540H. arXiv:2006.10540可免費查閱. 
  17. ^ Cho, Youngmin; Saul, Lawrence K. Kernel Methods for Deep Learning. Neural Information Processing Systems. 2009, 22: 342–350. 
  18. ^ Tsuchida, Russell; Pearce, Tim. Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks. 2020. arXiv:2002.08517可免費查閱 [cs.LG]. 
  19. ^ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S., Neural Tangents: Fast and Easy Infinite Neural Networks in Python, International Conference on Learning Representations (ICLR), 2019-12-05, 2020, Bibcode:2019arXiv191202803N, arXiv:1912.02803可免費查閱