发布于 2025-02-14 3.15 数值稳定性和模型初始化 233 热度 NOTHING 深度学习 衰减和爆炸 当神经网络的层数较多时,模型的数值稳定性容易变差。不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity …
发布于 2025-02-11 3.14 正向传播、反向传播和计算图 232 热度 NOTHING 深度学习 正向传播 正向传播是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。为简单起见,假设输入是一个特 …
发布于 2025-02-10 3.13 丢弃法 350 热度 NOTHING 深度学习 方法 除了权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特 …
发布于 2025-02-06 3.12 权重衰减 342 热度 NOTHING 深度学习 范数 L1范数 L1范数是向量中所有元素绝对值的和。对于一个向量 $ w = [w_1, w_2, …, w_n] $,其L1范数 …
发布于 2025-02-04 3.11 模型选择、欠拟合和过拟合 251 热度 NOTHING 深度学习 训练误差和泛化误差 训练误差(training error)指模型在训练数据集上表现出的误差,泛化误差(generalizatio …
发布于 2025-02-04 3.10 多层感知机的简洁实现 211 热度 NOTHING 深度学习 导入需要的库 3.10.1 定义模型 和softmax回归唯一的不同在于,多加了一个全连接层作为隐藏层。它的隐藏单元个数为256, …
发布于 2025-02-04 3.9 多层感知机的从零开始实现 204 热度 NOTHING 深度学习 导入需要的库 获取和读取数据 定义模型参数 输入个数为784,输出个数为10。实验中,设超参数隐藏单元个数为256。 定义激活函数 …
发布于 2025-02-03 3.8 多层感知机 213 热度 NOTHING 深度学习 隐藏层 多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。 具体来说 …
发布于 2025-02-03 3.7 softmax回归的简洁实现 245 热度 NOTHING 深度学习 导入需要的库 获取和读取数据 定义和初始化模型 softmax回归的输出层是一个全连接层,所以用一个线性模块就可以了。 初始化模型 …
发布于 2025-02-02 3.6 softmax回归的从零开始实现 198 热度 NOTHING 深度学习 导入本节实现所需的包或模块 获取和读取数据 先获取Fashion-MNIST数据集,并设置批量大小为256。 使用向量表示每个样本 …