神经网络

字数统计: 1.1k | 阅读时长≈ 3 分钟

Logistic函数把实数域的值挤压到0-1之间，并且连续可导
Tanh函数是放大版的Logistic函数，值域是-1到1
但是均计算开销较大，可以用一阶泰勒展开来近似

修正线性单元，深度神经网络中经常使用的激活函数，是一个斜坡函数，定义为max(0,x)
计算更高效且有生物合理性
有死亡 ReLU 问题问题，实际应用中使用一些变种来解决
带泄露的ReLU：在x<0时维持一个很小的梯度，避免永远无法激活
带参数的ReLU
ELU函数、Softplus函数

swish(𝑥) = 𝑥𝜎(𝛽𝑥)

GELU(𝑥) = 𝑥𝑃(𝑋 ≤ 𝑥)

前馈网络可以看作一个函数，通过简单非线性函数的多次复合，实现输入空间到输出空间的复杂映射。前馈神经网络包括全连接前馈网络和卷积神经网络。信息单向传递

也叫反馈网络，有记忆能力，能够查看自己的历史信息，包括循环神经网络、Hopfield 网络、玻尔兹曼机、受限玻尔兹曼机等

在神经网络的训练中经常使用反向传播算法来高效地计算梯度．

1）非凸优化问题和2）梯度消失问题．

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有局部连接、权重共享等特性的深层前馈神经网络．

局部连接、权重共享以及汇聚

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器．

汇聚层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，从而减少参数数量．

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成

参数为卷积核中权重以及偏置

只需要计算卷积层中参数的梯度

循环神经网络是一类具有短期记忆能力的神经网络．在循环神经网络中，神经元不但可以接受其他神经元的信息，也
可以接受自身的信息，形成具有环路的网络结构

随时间反向传播算法

梯度爆炸和消失问题

递归神经网络和图网络

延时神经网络是在前馈网络中的非输出层都添加一个延时器，记录神经元的最近几次活性值．在第 t 个时刻，第 𝑙 层神经元的活性值依赖于第 𝑙 − 1 层神经元的最近𝐾 个时刻的活性值

循环神经网络（Recurrent Neural Network，RNN）通过使用带自反馈的神
经元，能够处理任意长度的时序数据．

随时间反向传播（BPTT）算法和实时循环学习（RTRL）算法．

循环网络的梯度爆炸问题比较容易解决，一般通过权重衰
减或梯度截断来避免．

引入门控机制来控制信息的累积速度，包括有选择地加入新
的信息，并有选择地遗忘之前累积的信息

长短
期记忆网络和门控循环单元网络

一种常见的增加循环神经网络深度的做法是将多个循环网络堆叠起来，称
为堆叠循环神经网络

优化问题泛化问题
从网络优化和网络正则化方面解决

在高维空间中，非凸优化的难点并不在于如何逃离局部最优点，而是如何
逃离鞍点
鞍点的梯度是0，但是在一些维
度上是最高点，在另一些维度上是最低点

随机梯度下降对于高维空间中的非凸优化问题十分重要，通过在梯度
方向上引入随机性，可以有效地逃离鞍点．

批量梯度下降、随机
梯度下降以及小批量梯度下降

无模型方法又可以分为价值学习和策略学习。

公式中的期望消除了 t 时刻之后的所有状态 St+1, ··· , Sn 与所有动作 At+1, ··· , An。最
优动作价值函数用最大化消除策略 π：

时间差分 (TD) 算法