Overview
-
gradient(梯度)¶
多个变量的函数 ( f(x_1, x_2, \dots, x_n) ):
梯度是由该函数对每个变量的偏导数组成的向量: $$ \nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right) $$
• 梯度的方向:梯度指向函数增长最快的方向。
• 梯度的大小:梯度的大小(向量的模)表示函数在该点沿着梯度方向变化得有多快。
矩阵梯度()
范数¶
L1 范数 (曼哈顿距离)¶
向量各分量的绝对值之和。 $$ |x|_1=\sum i=1^n\left|x_i\right| $$
L2 范数 (欧几里得范数)¶
向量各分量平方和的平方根。它是最常用的范数之一。 $$ |x|_2=\sqrt{\sum i=1^n x_i^2} $$
L \infty 范数¶
向量各分量的绝对值中的最大值。 $$ |x|_{\infty}=\max _i\left|x_i\right| $$
对于m \times n 的矩阵
L_\infty 范数在向量的情形下是向量各分量绝对值的最大值,对于矩阵也可以推广。对于一个 m \times n 的矩阵 A,我们可以有多种方式来定义它的 L_\infty 范数。
矩阵 L_\infty 范数通常被定义为矩阵的行和范数,也就是说:
$$
|A|\infty = \max{1 \leq i \leq m} \sum_{j=1}^{n} |a_{ij}|
$$
这是每一行元素绝对值之和的最大值。具体来说,你可以按照以下步骤理解:
1. 对于矩阵 A 的每一行,计算该行的所有元素的绝对值之和。
2. 找出这些行和中的最大值,这个最大值就是矩阵 A 的 L_\infty 范数。
举例说明:
假设有一个 3 \times 3 的矩阵 A:
$$ A = \begin{pmatrix}
1 & -2 & 3 \
-4 & 5 & -6 \
7 & -8 & 9
\end{pmatrix} $$
我们可以计算每一行元素的绝对值之和:
• 第一行的绝对值和:|1| + |-2| + |3| = 1 + 2 + 3 = 6
• 第二行的绝对值和:|-4| + |5| + |-6| = 4 + 5 + 6 = 15
• 第三行的绝对值和:|7| + |-8| + |9| = 7 + 8 + 9 = 24
因此,矩阵 A 的 L_\infty 范数为这三行和中的最大值:
这就是矩阵 L_\infty 范数的定义和计算方式。
Frobenius 范数 (Frobenius Norm)¶
Frobenius 范数是矩阵元素的平方和的平方根, 类似于向量的 L2 范数。它可以用于衡量矩阵整体的大小。
其中 a_{i j} 是矩阵 A 中第 i 行第 j 列的元素。
谱范数 (Spectral Norm, L2 范数)¶
谱范数是矩阵的最大奇异值, 它反映了矩阵作为线性变换时, 对向量施加的最大拉伸效果。对于一个矩阵 A, 它的谱范数定义为:
其中 \sigma_{\max } 是矩阵的最大奇异值, 奇异值是通过奇异值分解 (SVD) 得到的。
算子范数 (Operator Norm)¶
算子范数也称为 "诱导范数" (induced norm), 它衡量的是矩阵作为线性变换作用于向量时对向量的缩放程度。对于矩阵 A 及其作用在任意非零向量 x 上:
半正定(semi-posititive definite)¶
正定(posititive definite)¶
可能有用的结论¶
gradient:
hessian:
Only when A is full rank proof: \forall x.
which means it is semi-definite but, def of positive definite requires \|A x\|^2 \neq 0, A need to be full-rank
收敛¶
序列收敛¶
序列{x_k}收敛到x^{*}:\lim _{k \rightarrow \infty}\left\|x_k-x^*\right\|_2=0