奇异值分解（SVD）原理

一、特征值和特征向量

设 $A$ 是 $n$ 阶方阵，如果存在常数及非零 $n$ 向量 $x$ ，使得 $Ax=\lambda x$ ，则 $\lambda$ 称是矩阵 $A$ 的特征值， $x$ 是 $A$ 属于特征值 $\lambda$ 的特征向量。给定 $n$ 阶矩阵 $A$ ，行列式
在这里插入图片描述
的结果是关于 $\lambda$ 的一个多项式，成为矩阵 $A$ 的特征多项式，该特征多项式构成的方程 $|\lambda E-A|=0$ 称为矩阵 $A$ 的特征方程。

定理： $n$ 阶矩阵 $A$ 的 $n$ 个特征值就是其特征方程 $|\lambda E-A|=0$ 的 $n$ 个跟 $\lambda_1,\lambda_2,\lambda_3,...,\lambda_n$ ；而 $A$ 的属于特征值 $\lambda_i$ 的特征向量就是其次线性方程 $(\lambda_i E-A)x=0$ 的非零解。

例：求 $A=\begin{vmatrix} 1&-2 \\ 1&4 \end{vmatrix}$ 的特征根和特征向量。

解： $|\lambda E-A|=\begin{vmatrix} \lambda-1&-2 \\ 1&\lambda-4 \end{vmatrix}=(\lambda-1)(\lambda-4)+2=0$ ，解一元二次方程可得 $\lambda_i=2,\lambda_2=3$ ；

$\lambda_1$ 对应的特征向量为 $x$ 满足 $(\lambda_i E-A)x=0$ ，求得 $x=k_1(2,-1)^T,k_1\neq0$
$\lambda_2$ 对应的特征向量为 $x$ 满足 $(\lambda_i E-A)x=0$ ，求得 $x=k_2(1,-1)^T,k_2\neq0$

二、特征分解

特征值分解是将一个矩阵分解成下面的形式：
$A=QΣ Q^{-1}$
其中 $Q$ 是这个矩阵 $A$ 的特征向量组成的矩阵，正交矩阵是可逆的。 $Σ = diag(λ_1, λ_2, ..., λ_n)$ 是一个对角阵，每一个对角线上的元素就是一个特征值。
将 $Q$ 的这 $n$ 个特征向量标准化，即满足 $qi||_2=1$ , 或者说 $q^T_iw_i=1$ ，此时 $Q$ 的 $n$ 个特征向量为标准正交基，满足 $Q^TQ=I$ ，即 $Q^T=Q−1$ , 也就是说 $Q$ 为酉矩阵。

这样我们的特征分解表达式可以写成
$A=QΣ Q^{T}$

三、奇异值分解

SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵 $A$ 是一个 $m \times n$ 的矩阵，那么我们定义矩阵 $A$ 的SVD为：
$A=UΣV^T$
其中 $U$ 是一个 $m \times m$ 的矩阵， $Σ$ 是一个 $m \times n$ 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值， $V$ 是一个 $n \times n$ 的矩阵。 $U$ 和 $V$ 都是酉矩阵，即满足 $U T U = I, V T V = I$ 。

如何求 $U, Σ, V$

将 $A$ 的转置和 $A$ 做矩阵乘法，那么会得到 $n \times n$ 的一个方阵 $A^TA$ 。既然 $A^TA$ 是方阵，那么就可以进行特征分解，得到的特征值和特征向量满足下式：
$A^TA)v_i=λ_iv_i$
这样就得到矩阵 $A^TA$ 的 $n$ 个特征值和对应的 $n$ 个特征向量 $v$ 了。将 $A^TA$ 的所有特征向量组成一个 $n \times n$ 的矩阵 $V$ ，就是我们 $S V D$ 公式里面的 $V$ 矩阵了。

将A和A的转置做矩阵乘法，那么会得到 $m \times m$ 的一个方阵 $AA^T$ 。既然 $AA^T$ 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下式：
$AA^T)u_i=λ_iu_i$
这样就可以得到矩阵 $AA^T$ 的 $m$ 个特征值和对应的 $m$ 个特征向量 $u$ 了。将 $AA^T$ 的所有特征向量张成一个 $m \times m$ 的矩阵 $U$ ，就是我们 $S V D$ 公式里面的 $U$ 矩阵了。
$U$ 和 $V$ 都求出来了，现在就剩下奇异值矩阵 $Σ$ 。由于 $Σ$ 除了对角线上是奇异值其他位置都是0，那我们只需要求出每个奇异值 $σ$ 就可以了。
$A=UΣV^T⇒AV=UΣV^TV⇒AV=UΣ⇒Av_i=σ_iu_i⇒σ_i=Av_i/u_i$
这样可以求出我们的每个奇异值，进而求出奇异值矩阵 $Σ$ 。