激活函数

计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的电脑晶片电路可以看作是根据输入得到(1)或(0)输出的数字电路激活函数。这与神经网络中的线性感知机的行为类似。然而,只有非线性激活函数才允许这种网络仅使用少量节点来计算非平凡问题。 在人工神经网络中,这个功能也被称为传递函数

单变量输入激活函数

名称 函数图形 方程式 导数 区间 连续性[1] 单调 一阶导数单调 原点近似恒等
恒等函数          
单位阶跃函数          
逻辑函数 (S函数的一种)    [2]      
双曲正切函数          
反正切函数          
Softsign 函数[1][2]          
反平方根函数 (ISRU)[3]          
线性整流函数 (ReLU)          
带泄露线性整流函数 (Leaky ReLU)          
参数化线性整流函数 (PReLU)[4]           Yes iff   Yes iff  
带泄露随机线性整流函数 (RReLU)[5]    [3]      
指数线性函数 (ELU)[6]           Yes iff   Yes iff   Yes iff  
扩展指数线性函数 (SELU)[7]  

with   and  

     
S 型线性整流激活函数 (SReLU)[8]  
  are parameters.
     
反平方根线性函数 (ISRLU)[3]          
自适应分段线性函数 (APL)[9]    [4]    
SoftPlus 函数[10]          
弯曲恒等函数          
S 型线性加权函数 (SiLU)[11] (也被称为Swish[12])  [5]  [6]    
软指数函数[13]           Yes iff  
正弦函数          
Sinc 函数          
高斯函数          

说明

^ 若一函数是连续的,则称其为 函数;若一函数 阶可导,并且其 阶导函数连续,则为 函数( );若一函数对于所有 都属于 函数,则称其为 函数,也称光滑函数
^ 此处H单位阶跃函数
^ α是在训练时间从均匀分布中抽取的随机变量,并且在测试时间固定为分布的期望值
^ ^ ^ 此处 逻辑函数

多变量输入激活函数

名称 方程式 导数 区间 光滑性
Softmax函数      for i = 1, …, J  [7]    
Maxout函数[14]        

说明

^ 此处δ克罗内克δ函数

参见

参考资料

  1. ^ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua. Quadratic polynomials learn better image features". Technical Report 1337. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. 2009. (原始内容存档于2018-09-25). 
  2. ^ Glorot, Xavier; Bengio, Yoshua, Understanding the difficulty of training deep feedforward neural networks (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS’10), Society for Artificial Intelligence and Statistics, 2010, (原始内容存档 (PDF)于2017-04-01) 
  3. ^ 3.0 3.1 Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian. Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs). 2017-11-09. arXiv:1710.09967  [cs.LG]. 
  4. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. 2015-02-06. arXiv:1502.01852  [cs.CV]. 
  5. ^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu. Empirical Evaluation of Rectified Activations in Convolutional Network. 2015-05-04. arXiv:1505.00853  [cs.LG]. 
  6. ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). 2015-11-23. arXiv:1511.07289  [cs.LG]. 
  7. ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp. Self-Normalizing Neural Networks. 2017-06-08. arXiv:1706.02515  [cs.LG]. 
  8. ^ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng. Deep Learning with S-shaped Rectified Linear Activation Units. 2015-12-22. arXiv:1512.07030  [cs.CV]. 
  9. ^ Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi. Learning Activation Functions to Improve Deep Neural Networks. 21 Dec 2014. arXiv:1412.6830  [cs.NE]. 
  10. ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua. Deep sparse rectifier neural networks (PDF). International Conference on Artificial Intelligence and Statistics. 2011. (原始内容存档 (PDF)于2018-06-19). 
  11. ^ Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning. [2018-06-13]. (原始内容存档于2018-06-13). 
  12. ^ Searching for Activation Functions. [2018-06-13]. (原始内容存档于2018-06-13). 
  13. ^ Godfrey, Luke B.; Gashler, Michael S. A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 2016-02-03, 1602: 481–486. Bibcode:2016arXiv160201321G. arXiv:1602.01321 . 
  14. ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua. Maxout Networks. JMLR WCP. 2013-02-18, 28 (3): 1319–1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389 .