3.15 数值稳定性和模型初始化

发布于 2025-02-14

衰减和爆炸当神经网络的层数较多时，模型的数值稳定性容易变差。不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity …

3.14 正向传播、反向传播和计算图

发布于 2025-02-11

正向传播正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。为简单起见，假设输入是一个特 …

发布于 2025-02-10

方法除了权重衰减以外，深度学习模型常常使用丢弃法（dropout）来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特 …

发布于 2025-02-06

范数 L1范数 L1范数是向量中所有元素绝对值的和。对于一个向量 $ w = [w_1, w_2, …, w_n] $，其L1范数 …

发布于 2025-02-04

训练误差和泛化误差训练误差（training error）指模型在训练数据集上表现出的误差，泛化误差（generalizatio …

发布于 2025-02-04

导入需要的库 3.10.1 定义模型和softmax回归唯一的不同在于，多加了一个全连接层作为隐藏层。它的隐藏单元个数为256， …

发布于 2025-02-04

导入需要的库获取和读取数据定义模型参数输入个数为784，输出个数为10。实验中，设超参数隐藏单元个数为256。定义激活函数 …

发布于 2025-02-03

隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏层（hidden layer）。隐藏层位于输入层和输出层之间。具体来说 …

发布于 2025-02-03

导入需要的库获取和读取数据定义和初始化模型 softmax回归的输出层是一个全连接层，所以用一个线性模块就可以了。初始化模型 …

发布于 2025-02-02

导入本节实现所需的包或模块获取和读取数据先获取Fashion-MNIST数据集，并设置批量大小为256。使用向量表示每个样本 …