深度学习的数学-涌井良幸 涌井贞美
- 书名: 深度学习的数学
- 作者: 涌井良幸 涌井贞美
- 简介: 《深度学习的数学》基于丰富的图示和具体示例,通俗易懂地介绍了深度学习相关的数学知识。第1章介绍神经网络的概况;第2章介绍理解神经网络所需的数学基础知识;第3章介绍神经网络的最优化;第4章介绍神经网络和误差反向传播法;第5章介绍深度学习和卷积神经网络。书中使用Excel进行理论验证,帮助读者直观地体验深度学习的原理。
- 出版时间 2019-04-26 00:00:00
- ISBN: 9787115509345
- 分类: 科学技术-自然科学
- 出版社: 人民邮电出版社
高亮划线
1-4 什么是神经网络
-
📌 深度学习,顾名思义,是叠加了很多层的神经网络。叠加层有各种各样的方法,其中著名的是卷积神经网络 ^11-3758-3813
- ⏱ 2023-06-14 19:28:52
-
📌 前一层的神经单元与下一层的所有神经单元都有箭头连接,这样的层构造称为全连接层(fully connected layer) ^11-4619-4697
- ⏱ 2023-06-14 19:30:41
1-5 用恶魔来讲解神经网络的结构
- 📌 。这是因为隐藏层肩负着特征提取(feature extraction)的重要职责, ^12-425-483
- ⏱ 2023-06-14 19:33:12
1-7 网络自学习的神经网络
- 📌 这个误差的总和称为代价函数 ^14-1299-1320
- ⏱ 2023-06-14 19:41:00
2-1 神经网络所需的函数
-
📌 如果把作为参数的权重 [插图]、[插图]、[插图] 与偏置 [插图] 看作常数,那么加权输入 [插图] 和 [插图]、[插图]、[插图] 是一次函数关系。另外,在神经单元的输入 [插图]、[插图]、[插图] 作为数据值确定了的情况下,加权输入 [插图] 和权重 [插图]、[插图]、[插图] 以及偏置 [插图] 是一次函数关系。用误差反向传播法推导计算式时,这些一次函数关系使得计算可以简单地进行。 ^16-4884-7190
- ⏱ 2023-06-14 19:45:06
-
📌 ,[插图] 为正数时图像向下凸,从而存在最小值。这个性质是后面讲到的最小二乘法的基础。 ^16-10081-10270
- ⏱ 2023-06-14 19:51:58
-
📌 这个式子我们可以知道,单位阶跃函数在原点处不连续,也就是在原点不可导。由于这个不可导的性质,单位阶跃函数不能成为主要的激活函数。 ^16-14492-14556
- ⏱ 2023-06-14 19:52:49
-
📌 这个函数的图像如右图所示。可以看出,这个函数是光滑的,也就是处处可导。函数的取值在 0 和 1 之间,因此函数值可以用概率来解释。 ^16-16901-16966
- ⏱ 2023-06-14 19:55:13
2-4 有助于理解神经网络的向量基础
-
📌 ① 当两个向量方向相反时,内积取得最小值。② 当两个向量不平行时,内积取平行时的中间值。③ 当两个向量方向相同时,内积取得最大值。性质①就是后述的梯度下降法(2 - 10 节以及第 4 章、第 5 章)的基本原理。 ^19-16411-16622
- ⏱ 2023-06-14 20:21:19
-
📌 可以认为内积表示两个向量在多大程度上指向相同方向。如果将方向相似判定为“相似”,则两个向量相似时内积变大。后面我们考察卷积神经网络时,这个观点就变得十分重要 ^19-16654-16749
- ⏱ 2023-06-14 20:21:43
2-6 神经网络的导数基础
-
📌 导函数的含义如下图所示。作出函数 [插图] 的图像,[插图] 表示图像切线的斜率。因此,具有光滑图像的函数是可导的。 ^21-3507-3829
- ⏱ 2023-06-15 19:50:13
-
📌 和的导数为导数的和,常数倍的导数为导数的常数倍。 ^21-6944-6968
- ⏱ 2023-06-15 19:53:11
-
📌 导数的线性性是后述的误差反向传播法背后的主角。 ^21-7006-7029
- ⏱ 2023-06-15 19:53:17
2-7 神经网络的偏导数基础
-
📌 有两个以上的自变量的函数称为多变量函数。 ^22-1132-1169
- ⏱ 2023-06-15 20:07:45
-
📌 求导的方法也同样适用于多变量函数的情况。但是,由于有多个变量,所以必须指明对哪一个变量进行求导。在这个意义上,关于某个特定变量的导数就称为偏导数(partial derivative)。 ^22-2963-3073
- ⏱ 2023-06-15 20:08:31
-
📌 拉格朗日乘数法 ^22-10839-10846
- ⏱ 2023-06-15 20:20:41
2-8 误差反向传播法必需的链式法则
-
📌 这个公式称为单变量函数的复合函数求导公式,也称为链式法则。本书使用“链式法则”这个名称。 ^23-5636-5714
- ⏱ 2023-06-15 20:35:43
-
📌 我们可以这样记忆链式法则:“复合函数的导数可以像分数一样使用约分。” ^23-6695-6729
- ⏱ 2023-06-15 20:37:54
2-9 梯度下降法的基础:多变量函数的近似公式
- 📌 将近似公式的一般化公式称为泰勒展开式。 ^24-10940-10976
- ⏱ 2023-06-16 20:05:01
2-10 梯度下降法的含义与公式
-
📌 在数值分析领域,梯度下降法也称为最速下降法。这个名称表示沿着图像上的最短路径下降。 ^25-3028-3086
- ⏱ 2023-06-16 20:07:08
-
📌 式 (5) 右边的向量 [插图] 称为函数 [插图] 在点 [插图] 处的梯度(gradient)。这个名称来自于它给出了最陡的坡度方向。 ^25-10576-11061
- ⏱ 2023-06-16 20:25:34
-
📌 在神经网络的世界中,[插图] 称为学习率。遗憾的是,它的确定方法没有明确的标准,只能通过反复试验来寻找恰当的值。 ^25-22092-22296
- ⏱ 2023-06-16 21:00:29
2-12 最优化问题和回归分析
-
📌 由多个变量组成的数据中,着眼于其中一个特定的变量,用其余的变量来解释这个特定的变量,这样的方法称为回归分析 ^27-740-801
- ⏱ 2023-06-17 18:12:37
-
📌 利用平方误差的总和 [插图] 进行最优化的方法称为最小二乘法 ^27-12431-12602
- ⏱ 2023-06-17 18:33:53
-
📌 。因此,要确定模型,就必须准备好规模大于参数个数的数据。 ^27-14207-14235
- ⏱ 2023-06-17 18:37:46
3-3 学习数据和正解
- 📌 交叉熵将上述误差函数 (2) 替换为下式。 ^31-8144-8165
- ⏱ 2023-06-19 20:02:08
3-4 神经网络的代价函数
- 📌 向神经网络提供学习数据,并确定符合学习数据的权重和偏置,这个过程称为学习。这在数学上一般称为最优化,最优化的目标函数是代价函数 ^32-392-455
- ⏱ 2023-06-19 20:03:44
4-1 梯度下降法的回顾
-
📌 也就是说,代价函数 [插图] 的偏导数是从各个学习实例得到的偏导数的和 ^35-10424-10592
- ⏱ 2023-06-20 20:08:37
-
📌 可以首先求式 (3) 的平方误差 [插图] 的偏导数,然后代入图像实例,最后对全体学习数据求和即可。逻辑上需要 64 次偏导数计算,这里仅用 1 次偏导数计算就完成了。 ^35-10624-10841
- ⏱ 2023-06-20 20:14:18
4-2 神经单元误差
-
📌 误差反向传播法的特点是将繁杂的导数计算替换为数列的递推关系式,而提供这些递推关系式的就是名为神经单元误差(error)的变量 [插图]。 ^36-856-1076
- ⏱ 2023-06-20 20:17:41
-
📌 从这个定义 [插图] 表示神经单元的加权输入 [插图] 给平方误差带成的变化率。如果神经网络符合数据,根据最小值条件,变化率应该为 0。换言之,如果神经网络符合数据,神经单元误差 [插图] 也为 0。那就是说,可以认为 [插图] 表示与符合数据的理想状态的偏差。这个偏差表示为“误差”。 ^36-12600-13275
- ⏱ 2023-06-21 16:11:43
4-3 神经网络和误差反向传播法
- 📌 误差反向传播法的特点是将繁杂的导数计算替换为数列的递推关系式。 ^37-1024-1055
- ⏱ 2023-06-26 18:43:30