向量范数与矩阵范数

Breeze Shane大约 10 分钟AritficialIntelligenceMathematicsAritficial IntelligenceMathematics

向量范数

向量范数具有“长度”概念,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。

假设V是域F上的向量空间;V的半范数是一个函数p:VR;xp(x)p:V\to \mathbb {R} ;x\mapsto p(x),满足:

aF,u,vV\forall a\in F,\forall u,v\in V

  1. p(v)0p(v)\geq 0(具有半正定性)

  2. p(av)=ap(v)p(av)=|a|p(v)(具有绝对一次齐次性)

  3. p(u+v)p(u)+p(v)p(u+v)\leq p(u)+p(v)(满足三角不等式,或称次可加性)

范数是一个半范数加上额外性质:

  1. p(v)=0p(v)=0,当且仅当vv是零向量(正定性)

提示

如果拓扑向量空间的拓扑可以被范数导出,这个拓扑向量空间被称为赋范向量空间。

机器学习领域中LpL_p范数非常常见,它也同样满足以上的性质,是向量空间中的一组范数。LpL_{p}范数与幂平均有一定的联系。为了对抗过拟合、提高模型的泛化能力,可以通过向目标函数当中引入参数向量的LpL_{p}范数来进行正则化。其中最常用的是引入L1L_{1}范数的L1L_{1}正则项和引入L2L_{2}范数的L2L_{2}正则项;前者有利于得到稀疏解,后者有利于得到平滑解。

它的定义如下:

Lp(x)=xp=(i=1nxip)1/p,其中x={x1,x2,,xn},p1. L_{p}({\vec {x}})=\lVert\vec{x}\rVert_{p}={\Bigl (}\sum _{i=1}^{n}|x_{i}|^{p}{\Bigr )}^{1/p},\\ \text{其中}\quad\vec {x}=\{x_{1},x_{2},\ldots ,x_{n}\},\,p\geqslant 1.

关于p值的讨论

当p=0时

x0=i=1n[xi0] \lVert\vec{x}\rVert_{0}=\sum^{n}_{i=1}[x_i \neq 0]

「注意」:这里的 L0L_0 范数并非通常意义上的范数(因为不满足三角不等式或次可加性)。
当p=1时

x1=i=1nxi \lVert\vec{x}\rVert_{1}=\sum^{n}_{i=1}|x_i|

该距离又称曼哈顿距离。

当p=2时

x2=i=1nxi2 \lVert\vec{x}\rVert_{2}=\sqrt{\sum^{n}_{i=1}|x_i|^2}

该距离又以欧氏距离而知名。

当p→∞时

p+p\rightarrow+\infty时,

xp=limp+(i=1nxip)1/p=maxixi ||\vec{x}||_{p}=\lim_{p\rightarrow+\infty}(\sum^{n}_{i=1}|x_i|^p)^{1/p} =\max_{i}|x_i|

pp\rightarrow-\infty时,

xp=limp(i=1nxip)1/p=minixi ||\vec{x}||_{p}=\lim_{p\rightarrow -\infty}(\sum^{n}_{i=1}|x_i|^p)^{1/p} =\min_{i}|x_i|

该距离被称作无穷范数或最大范数。而且该距离也有另外一个名称:切比雪夫距离。

因为切比雪夫距离定义为:

若有两个向量或两个点p和q,其坐标分别为pip_{i}qiq_i,则有

DChebyshev(p,q):=maxi(piqi)=limk(i=1npiqik)1/k \begin{aligned} D_{\rm{Chebyshev}}(p,q)&:=\max_{i}(|p_{i}-q_{i}|) \\ &= \lim_{k\to\infty}\bigg(\sum_{i=1}^{n}\left|p_{i}-q_{i}\right|^{k}\bigg)^{1/k} \end{aligned}

以上的LpL_p范数系都是在衡量向量的大小,如果想衡量矩阵的大小,则需要使用矩阵范数。

矩阵范数

矩阵范数,又称矩阵模,是将一定的矩阵空间建立为赋范向量空间时为矩阵装备的范数。

赋范向量空间是拓扑向量空间中的基本种类。通过赋予向量空间(线性空间)以范数,建立拓扑结构。考虑系数域K\mathbb{K}K\mathbb{K}可以是实数域R\mathbb{R}或复数域C\mathbb{C}等)上的所有m×nm \times n矩阵所构成的向量空间Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})。这是一个有mnm n维的K\mathbb {K}-向量空间。可以如同对其他的有限维K\mathbb {K}-向量空间一样,为矩阵空间Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})装备范数。这样的范数称为Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})上的一个矩阵范数。

依照范数的定义,一个从Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})映射到非负实数的函数| \cdot |满足以下的条件:

严格正定性:对任意矩阵AMm,n(K)A \in \mathcal{M}_{m, n}(\mathbb{K}),都有A0|A|\ge 0,且等号成立当且仅当A=0A=0

线性性:对任意系数αK\alpha \in \mathbb{K}、任意矩阵AMm,n(K)A \in \mathcal{M}_{m, n}(\mathbb{K}),都有αA=αA|\alpha A|=|\alpha||A|

三角不等式:任意矩阵A,BMm,n(K)A, B \in \mathcal{M}_{m, n}(\mathbb{K}),都有A+BA+B|A+B|\leq |A|+|B|

则称之为Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})上的一个矩阵范数。

此外,某些定义在方块矩阵组成空间Mn(K)\mathcal{M}_{n}(\mathbb{K})上的矩阵范数满足一个或多个以下与的条件:

相容性ABAB|AB| \le |A||B|

共轭转置相等条件A=A|A|=|A^*|。其中AA^*表示矩阵AA的共轭转置(在实矩阵中就是普通转置)。

一致性特性(consistency property)也称为次可乘性(sub-multiplicative property)。某些书籍中,矩阵范数特指满足一致性条件的范数。

满足以上设定的矩阵范数可以有多种。由于它们都是定义在Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})这个有限维向量空间上的范数,所以实质上是等价的。常见的矩阵范数通常是在矩阵的应用中自然定义或诱导的范数。

常见的矩阵范数有

向量范数诱导的矩阵范数

考虑从向量空间V=KmV = \mathbb{K}^m映射到W=KnW = \mathbb{K}^n的所有线性映射的构成的空间:Lm,n(K)\mathcal{L}_{m, n}(\mathbb{K})。设VVWW中分别装备了两个向量范数V| \cdot |_VW| \cdot |_W,则可以定义Lm,n(K)\mathcal{L}_{m, n}(\mathbb{K})上的算子范数L| \cdot |_\mathcal{L}

ALm,n(K)AL=max{A(x)W  ;    xV,    xV1} \forall A\in \mathcal{L}_{m,n}(\mathbb{K})|A|_{\mathcal{L}}=\max\{|A(x)|_{W}\;;\;\;x\in V,\;\;|x|_{V}\leqslant 1\}

而给定了基底后,每个从VV映射到WW的线性映射都可以用一个m×nm\times n的矩阵来表示,所以同样地可以定义Mm,n(K)\mathcal{M}_{m, n}(\mathbb{K})上的非负映射M| \cdot |_\mathcal{M}

AMm,n(K)AM=max{AxW  ;    xV,    xV1} \forall A\in {\mathcal{M}}_{m,n}(\mathbb{K})|A|_{\mathcal{M}}=\max\{|Ax|_{W}\;;\;\;x\in V,\;\;|x|_{V}\leqslant 1\}

可以验证,M| \cdot |_\mathcal{M}满足矩阵范数的定义,因此是一个矩阵范数。这个矩阵范数被称为是由向量空间范数诱导的矩阵范数,可以看作是算子范数在由有限维向量空间之间线性映射组成的空间上的特例。如果m=nm = n,所对应的矩阵空间就是nn阶方块矩阵空间Mn(K)\mathcal{M}_{n}(\mathbb{K})。这时可以验证,诱导范数M| \cdot |_\mathcal{M}满足一致性条件。

p-范数诱导的矩阵范数

VVWW中装备的向量范数都是pp-范数的时候,诱导的矩阵范数也称为矩阵的诱导pp-范数。具体来说就是:

Ap=maxx0Axpxp=maxx0(i=1mj=1naijxjp)1/p(j=1nxjp)1/p \left|A\right|_{p}=\max \limits _{x\neq 0}{\frac {\left|Ax\right|_{p}}{\left|x\right|_{p}}}=\max \limits _{x\neq 0}{\frac {\left(\sum _{i=1}^{m}|\sum _{j=1}^{n}a_{ij}x_{j}|^{p}\right)^{1/p}}{\left(\sum _{j=1}^{n}|x_{j}|^{p}\right)^{1/p}}}

p=1p=1pp\rightarrow\infty的情况下,其范数可以以下方式计算:

A1=max1jni=1maijA=max1imj=1naij \begin{aligned} &\left|A\right|_{1}=\max \limits _{1\leq j\leq n}\sum _{i=1}^{m}|a_{ij}| \\ &\left|A\right|_{\infty }=\max \limits _{1\leq i\leq m}\sum _{j=1}^{n}|a_{ij}| \end{aligned}

这些与矩阵的Schatten p-范数不同,也可以用Ap\left|A\right|_{p}来表示。

p=2p = 2(欧几里德范数)时,诱导的矩阵范数就是谱范数。矩阵A的谱范数是A最大的奇异值或半正定矩阵A*A的最大特征值的平方根:

A2=λmax(AA)其中A*代表A的共轭转置。 \left | A \right | _2=\sqrt{\lambda_{\text{max}}(A^* A)} \qquad\text{其中A*代表A的共轭转置。}

任何诱导的矩阵范数都满足此不等式

Aρ(A)其中ρ(A)A的谱半径。 \left | A \right | \ge \rho(A) \quad\text{其中} \rho(A)\text{是}A\text{的谱半径。}

事实上,可以证明ρ(A)\rho(A)是A的所有诱导范数的下界。

此外,我们有

limrAr1/r=ρ(A) \lim_{r\rightarrow\infty}|A^r|^{1/r}=\rho(A)

矩阵元范数

这些向量范数将矩阵视为m×nm\times n向量,并使用类似的向量范数。

举例说明,使用向量的p-范数,我们得到:

Ap=(i=1mj=1naijp)1/p \Vert A\Vert _{p}={\Big (}\sum _{i=1}^{m}\sum _{j=1}^{n}|a_{ij}|^{p}{\Big)}^{1/p}

:不要把矩阵元p-范数与诱导p-范数混淆。
Frobenuis范数

p=2p = 2,这称为弗罗贝尼乌斯范数(Frobenius norm)或希尔伯特-施密特范数(Hilbert–Schmidt norm),不过后面这个术语通常只用于希尔伯特空间。这个范数可用不同的方式定义:

AF=i=1mj=1naij2=trace(AA)=i=1min{m,n}σi2 |A|_F=\sqrt{\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2}=\sqrt{\operatorname{trace}(A^*A)}=\sqrt{\sum_{i=1}^{\min\{m,\,n\}} \sigma_{i}^2}

这里AA^*表示A的共轭转置,σiσ_i是A的奇异值,并使用了迹函数。弗罗贝尼乌斯范数与KnK_n上欧几里得范数非常类似,来自所有矩阵的空间上一个内积。

弗罗贝尼乌斯范数是服从乘法的且在数值线性代数中非常有用。这个范数通常比诱导范数容易计算。

极大值范数

极大值范数是pp\rightarrow\infty的元素范数,

Amax=max{aij} |A|_=\max\{|a_|\}

注意:这个范数不服从次可乘性(Sub-Multiplicative Property)。
Schatten范数

Schatten范数出现于当p-范数应用于一个矩阵的奇异值向量时。如果奇异值记做σiσ_i,则Schatten p-范数定义为

Ap=(i=1min{m,n}σip)1/p  |A|_{p}={\Big(}\sum _{i=1}^{\min\{m,\,n\}}\sigma_{i}^{p}{\Big )}^{1/p}\

这个范数与诱导、元素p-范数使用了同样的记号,但它们是不同的。

所有Schatten范数服从乘法。它们也都是酉不变的,这就是说对所有矩阵AA与所有酉矩阵UUVV,都有A=UAV||A|| = ||UAV||

最常见的情形是p=1,2,p = 1, 2, \inftyp=2p = 2得出弗罗贝尼乌斯范数,前面已经介绍过了。pp \rightarrow \infty得出谱范数,这是由向量2-范数诱导的矩阵范数(见下)。最后,p = 1得出迹范数(核范数),定义为

Atr=trace(AA)=i=1min{m,n}σi |A|_{\text{tr}}=\operatorname{trace}(\sqrt{A^*A})=\sum_{i=1}^{\min\{m,\,n\}}\sigma _{i}

知识补充

在线性代数中,酉矩阵(又译作幺正矩阵,英语:Unitary Matrix)是一个n×nn×n复数方块矩阵UU,其满足以下性质:

UU=UU=In { U^{*}U=UU^{*}=I_{n}}

其中UU^*UU的共轭转置,InI_nn×nn×n的单位矩阵。

换句话说,酉矩阵的逆矩阵,就是其共轭转置:

U1=U U^{-1}=U^{*}

酉矩阵是实数上的正交矩阵,在复数的推广。

提示

Frobenuis范数是机器学习领域中常用的矩阵范数。

一致范数

一个Km×nK^{m \times n}上矩阵范数ab| \cdot |_{ab}称为与KnK^n上向量范数a| \cdot |_{a}以及KmK^m上向量范数b| \cdot |_{b}一致,如果

AxbAabxaAKm×n,xKn |Ax|_b \leq |A|_{ab} |x|_a \quad \forall A \in K^{m \times n}, x \in K^n

根据定义,所有诱导范数是一致范数。

范数的等价

对任何两个向量范数α||·||_\alphaβ||·||_\beta,我们有

rAαAβsAαr,sR+,AKm×n r\left|A\right|_\alpha\leq\left|A\right|_\beta\leq s\left|A\right|_\alpha \quad \exists\,r,s \in R_+,\,\forall A \in K^{m \times n}

换句话说,它们是等价的范数;它们在Km×nK^{m \times n}上诱导了相同的拓扑。

此外,当ARn×nA\in \mathbb{R}^{n\times n},则对任何向量范数||·||,存在惟一一个正数k使得kAk||A||是一个(服从乘法)矩阵范数。

如果不存在其它矩阵范数β||·||_\beta满足βα||·||_\beta≤||·||_\alpha,则称该矩阵范数α||·||_\alpha为“极小的”,。

范数等价的例子

对矩阵ARm×nA\in\mathbb{R}^{m\times n}如下不等式成立:

A2AFnA2AmaxA2mnAmax1nAA2mA1mA1A2nA1 \begin{aligned} &|A|_2\le|A|_F\le\sqrt{n}|A|_2 \\ &|A|_{\text{max}} \le |A|_2 \le \sqrt{mn}|A|_{\text{max}} \\ &\frac{1}{\sqrt{n}}|A|_\infty\le|A|_2\le\sqrt{m}|A|_\infty \\ &\frac{1}{\sqrt{m}}|A|_1\le|A|_2\le\sqrt{n}|A|_1 \\ \end{aligned}

这里的p||·||_p表示由向量p-范数诱导的矩阵范数。

向量范数之间另一个有用的不等式

A2A1A |A|_{2}\leq {\sqrt {|A|_{1}|A|_{\infty }}}