参考 基础知识 梯度(Gradient) 定义
给定函数f : R n → R f : \mathbb{R}^n \to \mathbb{R} f : R n → R ,且f f f 在点x x x 的一个邻域内有意义,若存在向量g ∈ R n g \in \mathbb{R}^n g ∈ R n 满足:
lim p → 0 f ( x + p ) − f ( x ) − g ⊤ p ∣ ∣ p ∣ ∣ = 0 , \lim_{p\to 0}\frac{f(x+p) - f(x) - g^\top p}{||p||} = 0, p → 0 lim ∣∣ p ∣∣ f ( x + p ) − f ( x ) − g ⊤ p = 0 ,
其中∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣ ⋅ ∣∣ 是任意的向量范数,就称f f f 在点x x x 处可微(或Fréchet可微).此时g g g 称为f f f 在点x x x 处的梯度,记作∇ f ( x ) \nabla f(x) ∇ f ( x ) .如果对区域D D D 上的每一个点x x x 都有∇ f ( x ) \nabla f(x) ∇ f ( x ) 存在,则称f f f 在D D D 上可微.
若f f f 在点x x x 处的梯度存在,在定义式中令p = ϵ e i p=\epsilon e_i p = ϵ e i ,e i e_i e i 是第i i i 个分量为1的单位向量,可知∇ f ( x ) \nabla f(x) ∇ f ( x ) 的第i i i 个分量为∂ f ( x ) ∂ x i \frac{\partial f(x)}{\partial x_i} ∂ x i ∂ f ( x ) .因此,
∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , ⋯ , ∂ f ( x ) ∂ x n ] ⊤ \nabla f(x) = \Big[ \frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \cdots, \frac{\partial f(x)}{\partial x_n} \Big]^\top ∇ f ( x ) = [ ∂ x 1 ∂ f ( x ) , ∂ x 2 ∂ f ( x ) , ⋯ , ∂ x n ∂ f ( x ) ] ⊤
海瑟矩阵(Hessian Matrix) 定义
如果函数f ( x ) : R n → R f(x):\mathbb{R}^n \to \mathbb{R} f ( x ) : R n → R 在点x x x 处的二阶偏导数∂ 2 f ( x ) ∂ x i ∂ x j i , j = 1 , 2 , ⋯ , n \frac{\partial^2f(x)}{\partial x_i \partial x_j} \; i, j = 1, 2, \cdots , n ∂ x i ∂ x j ∂ 2 f ( x ) i , j = 1 , 2 , ⋯ , n 都存在,则
∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 2 ⋯ ∂ 2 f ( x ) ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x n 2 ] \nabla^2f(x) = \begin{bmatrix} \frac{\partial^2f(x)}{\partial x_1^2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2f(x)}{\partial x_1 \partial x_n} \\ \frac{\partial^2f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2f(x)}{\partial x_2^2} & \cdots & \frac{\partial^2f(x)}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f(x)}{\partial x_n \partial x_1} & \frac{\partial^2f(x)}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2f(x)}{\partial x_n^2} \end{bmatrix} ∇ 2 f ( x ) = ∂ x 1 2 ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ⋮ ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ∂ 2 f ( x ) ∂ x 2 2 ∂ 2 f ( x ) ⋮ ∂ x n ∂ x 2 ∂ 2 f ( x ) ⋯ ⋯ ⋱ ⋯ ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x n ∂ 2 f ( x ) ⋮ ∂ x n 2 ∂ 2 f ( x )
称为f f f 在点x x x 处的海瑟矩阵.
当∇ 2 f ( x ) \nabla^2f(x) ∇ 2 f ( x ) 在区域D D D 上的每个点x x x 处都存在时,称f f f 在D D D 上二阶可微.若∇ 2 f ( x ) \nabla^2f(x) ∇ 2 f ( x ) 在D D D 上还连续,则称f f f 在D D D 上二阶连续可微,可以证明此时海瑟矩阵是一个对称矩阵.
矩阵变量函数的导数 多元函数梯度的定义可以推广到变量是矩阵的情形.对于以m × n m\times n m × n 矩阵X X X 为自变量的函数f ( X ) f(X) f ( X ) ,若存在矩阵G ∈ R m × n G \in \mathbb{R}^{m\times n} G ∈ R m × n 满足
lim V → 0 f ( X + V ) − f ( X ) − ⟨ G , V ⟩ ∣ ∣ V ∣ ∣ = 0 , \lim_{V\to 0}\frac{f(X+V)-f(X)-\langle G, V\rangle}{||V||} = 0, V → 0 lim ∣∣ V ∣∣ f ( X + V ) − f ( X ) − ⟨ G , V ⟩ = 0 ,
其中∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣ ⋅ ∣∣ 是任意矩阵范数,就称矩阵变量函数f f f 在X X X 处Fréchet可微, 称G G G 为f f f 在Fréchet可微意义下的梯度.类似于向量情形,矩阵变量函数f ( X ) f(X) f ( X ) 的梯度可以用其偏导数表示为
∇ f ( x ) = [ ∂ f ( x ) ∂ x 11 ∂ f ( x ) ∂ x 12 ⋯ ∂ f ( x ) ∂ x 1 n ∂ f ( x ) ∂ x 21 ∂ f ( x ) ∂ x 22 ⋯ ∂ f ( x ) ∂ x 2 n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x m 1 ∂ f ( x ) ∂ x m 2 ⋯ ∂ f ( x ) ∂ x m n ] \nabla f(x) = \begin{bmatrix} \frac{\partial f(x)}{\partial x_{11}} & \frac{\partial f(x)}{\partial x_{12}} & \cdots & \frac{\partial f(x)}{\partial x_{1n}} \\ \frac{\partial f(x)}{\partial x_{21}} & \frac{\partial f(x)}{\partial x_{22} } & \cdots & \frac{\partial f(x)}{\partial x_{2n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f(x)}{\partial x_{m1}} & \frac{\partial f(x)}{\partial x_{m2}} & \cdots & \frac{\partial f(x)}{\partial x_{mn}} \end{bmatrix} ∇ f ( x ) = ∂ x 11 ∂ f ( x ) ∂ x 21 ∂ f ( x ) ⋮ ∂ x m 1 ∂ 2 f ( x ) ∂ x 12 ∂ f ( x ) ∂ x 22 ∂ f ( x ) ⋮ ∂ x m 2 ∂ f ( x ) ⋯ ⋯ ⋱ ⋯ ∂ x 1 n ∂ f ( x ) ∂ x 2 n ∂ f ( x ) ⋮ ∂ x mn ∂ f ( x )
其中∂ f ( x ) ∂ x i j \frac{\partial f(x)}{\partial x_{ij}} ∂ x ij ∂ f ( x ) 表示f f f 关于x i j x_{ij} x ij 的偏导数.
在实际应用中,矩阵Fréchet可微的定义和使用往往比较繁琐,为此我们需要介绍另一种定义——Gâteaux可微.
Gâteaux可微定义
设f ( X ) f (X) f ( X ) 为矩阵变量函数,如果对任意方向V ∈ R m × n V \in \mathbb{R}^{m\times n} V ∈ R m × n ,存在矩阵G ∈ R m × n G \in \mathbb{R}^{m\times n} G ∈ R m × n 满足
lim t → 0 f ( X + t V ) − f ( X ) − t ⟨ G , V ⟩ t = 0 , \lim_{t \to 0} \frac {f(X+tV) - f(X) - t \langle G, V \rangle}{t} = 0, t → 0 lim t f ( X + t V ) − f ( X ) − t ⟨ G , V ⟩ = 0 ,
则称f f f 关于X X X 是Gâteaux可微的.满足上式的G G G 称为f f f 在X X X 处在Gâteaux 可微意义下的梯度.
可以证明,当f f f 是Fréchet可微函数时,f f f 也是Gâteaux可微的,且这两种意义下的梯度相等.
下面是三种经典的例子
线性函数 f ( X ) = t r ( A X ⊤ B ) f(X) = tr(AX^\top B) f ( X ) = t r ( A X ⊤ B ) ,其中A ∈ R p × n , B ∈ R m × p , X ∈ R m × n A \in \mathbb{R}^{p\times n}, B \in \mathbb{R}^{m\times p},X \in \mathbb{R}^{m\times n} A ∈ R p × n , B ∈ R m × p , X ∈ R m × n 对任意方向V ∈ R m × n V \in \mathbb{R}^{m\times n} V ∈ R m × n 以及t ∈ R t\in \mathbb{R} t ∈ R ,有
lim t → 0 f ( X + t V ) − f ( X ) t = lim t → 0 t r ( A ( X + t V ) ⊤ B ) − t r ( A X ⊤ B ) t = t r ( A V ⊤ B ) = t r ( V ⊤ B A ) = ⟨ B A , V ⟩ . \lim_{t\to 0}\frac{f(X+tV)-f(X)}{t} = \lim_{t\to 0} \frac{tr(A(X+tV)^\top B) - tr(AX^\top B)}{t} = tr(AV^\top B) = tr(V^\top BA) = \langle BA, V\rangle. t → 0 lim t f ( X + t V ) − f ( X ) = t → 0 lim t t r ( A ( X + t V ) ⊤ B ) − t r ( A X ⊤ B ) = t r ( A V ⊤ B ) = t r ( V ⊤ B A ) = ⟨ B A , V ⟩ .
因此,∇ f ( x ) = B A \nabla f(x) = BA ∇ f ( x ) = B A .
二次函数 f ( X , Y ) = 1 2 ∣ ∣ X Y − A ∣ ∣ F 2 f(X,Y) = \frac{1}{2} || XY - A ||_F^2 f ( X , Y ) = 2 1 ∣∣ X Y − A ∣ ∣ F 2 ,其中( X , Y ) ∈ R m × p × R p × n (X,Y)\in \mathbb{R}^{m\times p}\times \mathbb{R}^{p\times n} ( X , Y ) ∈ R m × p × R p × n 对变量Y Y Y ,取任意方向V V V 以及充分小的t ∈ R t\in \mathbb{R} t ∈ R ,有
f ( X , Y + t V ) − f ( X , Y ) = 1 2 ∣ ∣ X ( Y + t V ) − A ∣ ∣ F 2 − 1 2 ∣ ∣ X Y − A ∣ ∣ F 2 = 1 2 t r { [ X ( Y + t V ) − A ] ⊤ [ X ( Y + t V ) − A ] } − 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 1 2 t r [ ( X Y + t X V − A ) ⊤ ( X Y + t X V − A ) ] − 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 1 2 t r [ ( X Y + t X V − A ) ⊤ ( X Y − A ) ] + 1 2 t r [ ( X Y + t X V − A ) ⊤ ( t X V ) ] − 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 1 2 t r [ ( X Y − A ) ⊤ ( X Y + t X V − A ) ] + 1 2 t r [ ( t X V ) ⊤ ( X Y + t X V − A ) ] − 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] + 1 2 t r [ ( X Y − A ) ⊤ ( t X V ) ] + 1 2 t r [ ( t X V ) ⊤ ( X Y + t X V − A ) ] − 1 2 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 1 2 t r [ ( X Y − A ) ⊤ ( t X V ) ] + 1 2 t r [ ( t X V ) ⊤ ( X Y − A ) ] + 1 2 t r [ ( t X V ) ⊤ ( t X V ) ] = t ⋅ t r [ ( X V ) ⊤ ( X Y − A ) ] + t 2 2 t r [ ( X V ) ⊤ ( X V ) ] = t ⋅ t r [ V ⊤ ⋅ X ⊤ ( X Y − A ) ] + t 2 2 ∣ ∣ X V ∣ ∣ F 2 = t ⟨ V , X ⊤ ( X Y − A ) ⟩ + O ( t 2 ) \begin{aligned} f(X,Y+tV) - f(X,Y) &= \frac{1}{2}||X(Y+tV)-A||_F^2-\frac{1}{2}||XY-A||_F^2 \\ &= \frac{1}{2}tr\Big\{ [X(Y+tV)-A]^\top [X(Y+tV)-A] \Big\} - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY+tXV-A)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY+tXV-A)^\top (XY-A) \Big] + \frac{1}{2}tr\Big[(XY+tXV-A)^\top (tXV) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(XY+tXV-A) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(XY-A) \Big] + \frac{1}{2}tr\Big[(XY-A)^\top(tXV) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(tXV) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY-A) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (tXV) \Big] \\ &= t\cdot tr\Big[(XV)^\top(XY-A) \Big] + \frac{t^2}{2}tr\Big[(XV)^\top (XV) \Big] \\ &= t\cdot tr\Big[V^\top \cdot X^\top(XY-A) \Big] + \frac{t^2}{2}||XV||_F^2 \\ &=t\langle V,X^\top(XY-A) \rangle + \mathcal{O}(t^2) \end{aligned} f ( X , Y + t V ) − f ( X , Y ) = 2 1 ∣∣ X ( Y + t V ) − A ∣ ∣ F 2 − 2 1 ∣∣ X Y − A ∣ ∣ F 2 = 2 1 t r { [ X ( Y + t V ) − A ] ⊤ [ X ( Y + t V ) − A ] } − 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 2 1 t r [ ( X Y + tX V − A ) ⊤ ( X Y + tX V − A ) ] − 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 2 1 t r [ ( X Y + tX V − A ) ⊤ ( X Y − A ) ] + 2 1 t r [ ( X Y + tX V − A ) ⊤ ( tX V ) ] − 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 2 1 t r [ ( X Y − A ) ⊤ ( X Y + tX V − A ) ] + 2 1 t r [ ( tX V ) ⊤ ( X Y + tX V − A ) ] − 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] + 2 1 t r [ ( X Y − A ) ⊤ ( tX V ) ] + 2 1 t r [ ( tX V ) ⊤ ( X Y + tX V − A ) ] − 2 1 t r [ ( X Y − A ) ⊤ ( X Y − A ) ] = 2 1 t r [ ( X Y − A ) ⊤ ( tX V ) ] + 2 1 t r [ ( tX V ) ⊤ ( X Y − A ) ] + 2 1 t r [ ( tX V ) ⊤ ( tX V ) ] = t ⋅ t r [ ( X V ) ⊤ ( X Y − A ) ] + 2 t 2 t r [ ( X V ) ⊤ ( X V ) ] = t ⋅ t r [ V ⊤ ⋅ X ⊤ ( X Y − A ) ] + 2 t 2 ∣∣ X V ∣ ∣ F 2 = t ⟨ V , X ⊤ ( X Y − A )⟩ + O ( t 2 )
由定义知∂ f ∂ Y = X ⊤ ( X Y − A ) \frac{\partial f}{\partial Y} = X^\top(XY-A) ∂ Y ∂ f = X ⊤ ( X Y − A ) .
对变量X X X ,同理可得∂ f ∂ X = ( X Y − A ) Y ⊤ \frac{\partial f}{\partial X} = (XY-A)Y^\top ∂ X ∂ f = ( X Y − A ) Y ⊤ .
ln-det函数 f ( X ) = ln ( det ( X ) ) , X ∈ S + + n f(X) = \ln(\det(X)), \; X\in \mathcal{S}_{++}^n f ( X ) = ln ( det ( X )) , X ∈ S ++ n ,给定义X ≻ 0 X \succ 0 X ≻ 0 ,对任意方向V ∈ S n V \in \mathcal{S}^n V ∈ S n 以及t ∈ R t\in \mathbb{R} t ∈ R ,我们有
f ( X + t V ) − f ( X ) = ln ( det ( X + t V ) ) − ln ( det ( X ) ) = ln ( det ( X 1 2 ( I + t X − 1 2 V X − 1 2 ) X 1 2 ) ) − ln ( det ( X ) ) = ln ( det [ X 1 2 ( I + t X − 1 2 V X − 1 2 ) X 1 2 ] det ( X ) ) = ln ( det ( X 1 2 ) det ( I + t X − 1 2 V X − 1 2 ) det ( X 1 2 ) det ( X ) ) = ln ( det ( X ) det ( I + t X − 1 2 V X − 1 2 ) det ( X ) ) = ln ( det ( I + t X − 1 2 V X − 1 2 ) ) \begin{aligned} f(X+tV) - f(X) &= \ln(\det(X+tV)) - \ln(\det(X)) \\ &= \ln(\det(X^{\frac{1}{2}}(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) X^{\frac{1}{2}} )) - \ln(\det(X)) \\ &= \ln\Big( \frac{\det[ X^{\frac{1}{2}}(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) X^{\frac{1}{2}} ]}{\det(X)} \Big) \\ &= \ln\Big( \frac{\det (X^{\frac{1}{2}})\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) \det(X^{\frac{1}{2}}) }{\det(X)} \Big) \\ &= \ln\Big( \frac{\det (X)\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) }{\det(X)} \Big) \\ &= \ln(\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}})) \\ \end{aligned} f ( X + t V ) − f ( X ) = ln ( det ( X + t V )) − ln ( det ( X )) = ln ( det ( X 2 1 ( I + t X − 2 1 V X − 2 1 ) X 2 1 )) − ln ( det ( X )) = ln ( det ( X ) det [ X 2 1 ( I + t X − 2 1 V X − 2 1 ) X 2 1 ] ) = ln ( det ( X ) det ( X 2 1 ) det ( I + t X − 2 1 V X − 2 1 ) det ( X 2 1 ) ) = ln ( det ( X ) det ( X ) det ( I + t X − 2 1 V X − 2 1 ) ) = ln ( det ( I + t X − 2 1 V X − 2 1 ))
由于X − 1 2 V X − 1 2 X^{-\frac{1}{2}}VX^{-\frac{1}{2}} X − 2 1 V X − 2 1 是对称矩阵,所以他可以正交对角化,不妨设其特征值为λ 1 , λ 2 , … , λ n \lambda_1,\lambda_2,\dots,\lambda_n λ 1 , λ 2 , … , λ n ,则
ln ( det ( I + t X − 1 2 V X − 1 2 ) ) = ln ∏ i = 1 n ( 1 + t λ i ) = ∑ i = 1 n ln ( 1 + t λ i ) = ∑ i = 1 n t λ i + O ( t 2 ) = t ⟨ ( X − 1 ) ⊤ , V ⟩ + O \begin{aligned} \ln(\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}})) &= \ln\prod_{i=1}^{n}(1+t\lambda_i) \\ &= \sum_{i=1}^{n}\ln(1+t\lambda_i) \\ &= \sum_{i=1}^{n}t\lambda_i + \mathcal{O}(t^2) \\ &= t \Big\langle (X^{-1})^\top, V \Big\rangle + \mathcal{O} \end{aligned} ln ( det ( I + t X − 2 1 V X − 2 1 )) = ln i = 1 ∏ n ( 1 + t λ i ) = i = 1 ∑ n ln ( 1 + t λ i ) = i = 1 ∑ n t λ i + O ( t 2 ) = t ⟨ ( X − 1 ) ⊤ , V ⟩ + O
因此,我们可以根据Gâteaux可微定义得到结论∇ f ( X ) = ( X − 1 ) ⊤ \nabla f(X)=(X^{-1})^\top ∇ f ( X ) = ( X − 1 ) ⊤ .
注意,∑ i = 1 n ln ( 1 + t λ i ) = ∑ i = 1 n t λ i + O ( t 2 ) \sum_{i=1}^{n}\ln(1+t\lambda_i) = \sum_{i=1}^{n}t\lambda_i + \mathcal{O}(t^2) ∑ i = 1 n ln ( 1 + t λ i ) = ∑ i = 1 n t λ i + O ( t 2 ) 这里其实是应用了级数来计算的.
∵ ln z = ∑ i = 1 n ( − 1 ) i + 1 ⋅ 1 i ( z − 1 ) i + O ( ( z − 1 ) 2 ) ∴ ln ( 1 + x ) = ∑ i = 1 n ( − 1 ) i + 1 i x i + O ( x 2 ) \because \ln z = \sum_{i=1}^{n}(-1)^{i+1}\cdot\frac{1}{i}(z-1)^i + \mathcal{O}((z-1)^2) \\ \therefore \ln(1+x)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i}x^i + \mathcal{O}(x^2) ∵ ln z = i = 1 ∑ n ( − 1 ) i + 1 ⋅ i 1 ( z − 1 ) i + O (( z − 1 ) 2 ) ∴ ln ( 1 + x ) = i = 1 ∑ n i ( − 1 ) i + 1 x i + O ( x 2 )
而上面那一步是用ln ( 1 + x ) = x + O ( x 2 ) \ln (1+x) = x + \mathcal{O}(x^2) ln ( 1 + x ) = x + O ( x 2 ) 来作和直接代换的.
计算中用到的定理及结论
t r ( A ⊤ B ) = ⟨ A , B ⟩ = ∑ i = 1 n ∑ j = 1 n a i j b i j tr(A^\top B) = \langle A,B \rangle = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}b_{ij} t r ( A ⊤ B ) = ⟨ A , B ⟩ = i = 1 ∑ n j = 1 ∑ n a ij b ij
易知
t r ( A ⊤ A ) = ⟨ A , A ⟩ = ∑ i = 1 n ∑ j = 1 n a i j 2 = ∣ ∣ A ∣ ∣ F 2 tr(A^\top A) = \langle A,A \rangle = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}^2 = ||A||_F^2 t r ( A ⊤ A ) = ⟨ A , A ⟩ = i = 1 ∑ n j = 1 ∑ n a ij 2 = ∣∣ A ∣ ∣ F 2
ln ( 1 + x ) \ln(1+x) ln ( 1 + x ) 的泰勒展开式:
ln ( 1 + x ) = ∑ i = 1 n ( − 1 ) i + 1 i x i + O ( x 2 ) \ln(1+x)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i}x^i + \mathcal{O}(x^2) ln ( 1 + x ) = i = 1 ∑ n i ( − 1 ) i + 1 x i + O ( x 2 )
ln(1+x)级数的证明 已知当∣ x ∣ < 1 |x| < 1 ∣ x ∣ < 1 时,1 1 + x = 1 1 − ( − x ) = ∑ n = 0 ∞ ( − x ) n \frac{1}{1+x} = \frac{1}{1-(-x)}=\sum_{n=0}^{\infty}(-x)^n 1 + x 1 = 1 − ( − x ) 1 = ∑ n = 0 ∞ ( − x ) n
而对于ln ( 1 + x ) \ln(1+x) ln ( 1 + x ) 求导得1 1 + x \frac{1}{1+x} 1 + x 1 ,所以我们有:
ln ( 1 + x ) = ∫ 1 1 + x d x = ∫ 1 1 − ( − x ) d x = ∫ ∑ n = 0 ∞ ( − x ) n d x = ∑ n = 0 ∞ ∫ ( − x ) n d x = ∑ n = 0 ∞ − 1 n + 1 ( − x ) n + 1 = ∑ n = 1 ∞ − 1 n ( − x ) n \begin{aligned} \ln(1+x) &= \int\frac{1}{1+x}dx = \int\frac{1}{1-(-x)}dx \\ &= \int\sum_{n=0}^{\infty}(-x)^ndx = \sum_{n=0}^{\infty}\int(-x)^ndx \\ &= \sum_{n=0}^{\infty}-\frac{1}{n+1}(-x)^{n+1} \\ &= \sum_{n=1}^{\infty}-\frac{1}{n}(-x)^{n} \end{aligned} ln ( 1 + x ) = ∫ 1 + x 1 d x = ∫ 1 − ( − x ) 1 d x = ∫ n = 0 ∑ ∞ ( − x ) n d x = n = 0 ∑ ∞ ∫ ( − x ) n d x = n = 0 ∑ ∞ − n + 1 1 ( − x ) n + 1 = n = 1 ∑ ∞ − n 1 ( − x ) n
我查阅了Wiki的资料,证明的思路不一样,也值得一看,下面贴出Wiki给的证明:
在Wiki上给出了这个级数的名字:墨卡托级数(或称牛顿-墨卡托级数).
我们有等比数列{ ( − t ) n − 1 } \{(-t)^{n-1}\} {( − t ) n − 1 } ,可以得出:
1 − t + t 2 − ⋯ + ( − t ) n − 1 = 1 − ( − t ) n 1 + t ⇔ 1 1 + t = 1 − t + t 2 − ⋯ + ( − t ) n − 1 + ( − t ) n 1 + t ⇔ ∫ 0 x d t 1 + t = ∫ 0 x ( 1 − t + t 2 − ⋯ + ( − t ) n − 1 + ( − t ) n 1 + t ) d t ⇔ ln ( 1 + x ) = x − x 2 2 + x 3 3 − ⋯ + ( − 1 ) n − 1 x n n + ( − 1 ) n ∫ 0 x t n 1 + t d t \begin{aligned} &\qquad 1-t+t^{2}-\cdots +(-t)^{n-1}=\frac{1-(-t)^{n}}{1+t} \\ &\Leftrightarrow \frac {1}{1+t}=1-t+t^{2}-\cdots +(-t)^{n-1}+{\frac {(-t)^{n}}{1+t}} \\ &\Leftrightarrow \int _{0}^{x}{\frac {dt}{1+t}}=\int _{0}^{x}\left(1-t+t^{2}-\cdots +(-t)^{n-1}+{\frac {(-t)^{n}}{1+t}}\right)\,dt \\ &\Leftrightarrow \displaystyle \ln(1+x)=x-{\frac {x^{2}}{2}}+{\frac {x^{3}}{3}}-\cdots +(-1)^{n-1}{\frac {x^{n}}{n}}+(-1)^{n}\int _{0}^{x}{\frac {t^{n}}{1+t}}\,dt \end{aligned} 1 − t + t 2 − ⋯ + ( − t ) n − 1 = 1 + t 1 − ( − t ) n ⇔ 1 + t 1 = 1 − t + t 2 − ⋯ + ( − t ) n − 1 + 1 + t ( − t ) n ⇔ ∫ 0 x 1 + t d t = ∫ 0 x ( 1 − t + t 2 − ⋯ + ( − t ) n − 1 + 1 + t ( − t ) n ) d t ⇔ ln ( 1 + x ) = x − 2 x 2 + 3 x 3 − ⋯ + ( − 1 ) n − 1 n x n + ( − 1 ) n ∫ 0 x 1 + t t n d t
当− 1 < x ≤ 1 -1 < x \leq 1 − 1 < x ≤ 1 时余项( − 1 ) n ∫ 0 x t n 1 + t d t (-1)^{n}\int _{0}^{x}{\frac {t^{n}}{1+t}}\,dt ( − 1 ) n ∫ 0 x 1 + t t n d t 会在n → ∞ n \to \infty n → ∞ 时趋近于0 0 0 .
广义实值函数 定义
令R ‾ : = R ∪ { ± ∞ } \overline{\mathbb{R}} := \mathbb{R} \cup \{\pm\infty\} R := R ∪ { ± ∞ } 为广义实数空间,则映射f : R n → R ‾ f:\mathbb{R}^n\to \overline{\mathbb{R}} f : R n → R 称为广义实值函数.
和数学分析一样,我们规定
− ∞ < a < + ∞ , ∀ a ∈ R , ( + ∞ ) + ( + ∞ ) = + ∞ , ( + ∞ ) + a = + ∞ , ∀ a ∈ R -\infty < a < +\infty, \; \forall a \in \mathbb{R}, \\ (+\infty) + (+\infty) = +\infty, \\ (+\infty) + a = +\infty, \; \forall a \in \mathbb{R} − ∞ < a < + ∞ , ∀ a ∈ R , ( + ∞ ) + ( + ∞ ) = + ∞ , ( + ∞ ) + a = + ∞ , ∀ a ∈ R
适当函数 定义
给定广义实值函数f f f 和非空集合X \mathcal{X} X .如果存在x ∈ X x \in \mathcal{X} x ∈ X 使得f ( x ) < + ∞ f(x) < +\infty f ( x ) < + ∞ ,并且对任意的x ∈ X x \in \mathcal{X} x ∈ X ,都有f ( x ) > − ∞ f(x)>−\infty f ( x ) > − ∞ ,那么称函数f f f 关于集合X \mathcal{X} X 是适当的.
概括来说,适当函数f f f 的特点是“至少有一处取值不为正无穷”,以及“处处取值不为负无穷”.
下水平集 定义
对于广义实值函数f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R ,
C α = { x ∣ f ( x ) ≤ α } C_\alpha = \{x | f (x) \leq α \} C α = { x ∣ f ( x ) ≤ α }
称为f f f 的α \alpha α -下水平集.
上方图 定义
对于广义实值函数f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R ,
e p i f = { ( x , t ) ∈ R n + 1 ∣ f ( x ) ≤ t } epi\; f= \{ (x, t) ∈ \mathbb{R}^{n+1} |f (x) \leq t\} e p i f = {( x , t ) ∈ R n + 1 ∣ f ( x ) ≤ t }
称为f f f 的上方图.
闭函数 定义
设f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R 为广义实值函数,若e p i f epi \;f e p i f 为闭集,则称f f f 为闭函数.
开集,闭集的概念 Wiki中文给出的定义看得有点迷,咱们还是看看英文的定义吧.
Open set : A subset U U U of the Euclidean n-space R n R^n R n is open if, for every point x x x in U U U , there exists a positive real number ε \varepsilon ε (depending on x x x ) such that a point in R n R^n R n belongs to U U U as soon as its Euclidean distance from x x x is smaller than ε \varepsilon ε . Equivalently, a subset U U U of R n R^n R n is open if every point in U U U is the center of an open ball contained in U U U .
Closed set : By definition, a subset A A A of a topological space ( X , τ ) (X, \tau) ( X , τ ) is called closed if its complement X ∖ A X\setminus A X ∖ A is an open subset of ( X , τ ) (X, \tau) ( X , τ ) ; that is, if X ∖ A ∈ τ X\setminus A\in \tau X ∖ A ∈ τ . X ∖ A ∈ τ X\setminus A\in \tau X ∖ A ∈ τ . A set is closed in X X X if and only if it is equal to its closure in X X X . Equivalently, a set is closed if and only if it contains all of its limit points. Yet another equivalent definition is that a set is closed if and only if it contains all of its boundary points. Every subset A ⊆ X A\subseteq X A ⊆ X is always contained in its (topological) closure in X X X , which is denoted by cl X A \operatorname{cl}_{X}A cl X A ; that is, if A ⊆ X A\subseteq X A ⊆ X then A ⊆ cl X A A\subseteq \operatorname {cl} _{X}A A ⊆ cl X A . Moreover, A A A is a closed subset of X X X if and only if A = cl X A A=\operatorname {cl} _{X}A A = cl X A .
下半连续函数 定义
设广义实值函数f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R ,若对∀ x ∈ R n \forall x\in \mathbb{R}^n ∀ x ∈ R n ,有
lim y → x inf f ( y ) ≥ f ( x ) , \lim_{y\to x}\inf{f(y)} \geq f(x), y → x lim inf f ( y ) ≥ f ( x ) ,
则称f ( x ) f(x) f ( x ) 为下半连续函数.
上半连续函数
类似地,我们可以这样定义上半连续函数:
设广义实值函数f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R ,若对∀ x ∈ R n \forall x\in \mathbb{R}^n ∀ x ∈ R n ,有
lim y → x sup f ( y ) ≤ f ( x ) , \lim_{y\to x}\sup{f(y)} \leq f(x), y → x lim sup f ( y ) ≤ f ( x ) ,
则称f ( x ) f(x) f ( x ) 为上半连续函数.
闭函数和下半连续函数的关系 虽然表面上看这两种函数的定义方式截然不同,但闭函数和下半连续函数是等价的.
定理
设广义实值函数f : R n → R ‾ f : \mathbb{R}^n → \overline{\mathbb{R}} f : R n → R ,则以下命题等价:
f ( x ) f(x) f ( x ) 的任意α \alpha α -下水平集都是闭集;f ( x ) f(x) f ( x ) 是下半连续的;f ( x ) f(x) f ( x ) 是闭函数.闭(下半连续)函数间的简单运算会保持原有性质:
加法 : 若f f f 与g g g 均为适当的闭(下半连续)函数,并且d o m f ∩ d o m g ≠ ∅ \mathrm{dom}\,f \cap \mathrm{dom}\,g \neq \varnothing dom f ∩ dom g = ∅ ,则f + g f + g f + g 也是闭(下半连续)函数.其中适当函数的条件是为了避免出现未定式( − ∞ ) + ( + ∞ ) (−\infty)+(+\infty) ( − ∞ ) + ( + ∞ ) 的情况;仿射映射的复合 : 若f f f 为闭(下半连续)函数, 则f ( A x + b ) f(Ax + b) f ( A x + b ) 也为闭(下半连续)函数;取上确界 : 若每一个函数f α f_α f α 均为闭(下半连续)函数,则sup α f α ( x ) \sup_\alpha f_\alpha(x) sup α f α ( x ) 也为闭(下半连续)函数. 凸函数 定义
f : R n → R f:\mathbb{R}^n \to \mathbb{R} f : R n → R 为适当函数,如果d o m f \mathrm{dom}\,f dom f 是凸集,且
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y) f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y )
对所有x , y ∈ d o m f , 0 ≤ θ ≤ 1 x,y \in \mathrm{dom}\,f,\;0 \leq \theta \leq 1 x , y ∈ dom f , 0 ≤ θ ≤ 1 都成立,则称f f f 是凸函数.
若f f f 是凸函数,则− f -f − f 是凹函数.
若对所有x , y ∈ d o m f , x ≠ y , 0 < θ < 1 x,y \in \mathrm{dom}\,f,\,x\neq y,\;0 < \theta < 1 x , y ∈ dom f , x = y , 0 < θ < 1 ,有
f ( θ x + ( 1 − θ ) y ) < θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x + (1-\theta)y) < \theta f(x) + (1-\theta)f(y) f ( θ x + ( 1 − θ ) y ) < θ f ( x ) + ( 1 − θ ) f ( y )
则称f f f 是严格凸函数.
一元凸函数和一元凹函数的例子 凸函数:
仿射函数: ∀ a , b ∈ R \forall a, b \in \mathbb{R} ∀ a , b ∈ R , a x + b ax+b a x + b 是R \mathbb{R} R 上的凸函数. 指数函数: ∀ a ∈ R \forall a \in \mathbb{R} ∀ a ∈ R ,e a x e^{ax} e a x 是R \mathbb{R} R 上的凸函数. 幂函数: ∀ α ∈ ( − ∞ , 0 ] ∪ [ 1 , + ∞ ) \forall \alpha \in (-\infty, 0] \cup [1, +\infty) ∀ α ∈ ( − ∞ , 0 ] ∪ [ 1 , + ∞ ) , x α x^\alpha x α 是R + + \mathbb{R}_{++} R ++ 上的凸函数. 绝对值的幂: ∀ p ≥ 1 \forall p \geq 1 ∀ p ≥ 1 ,∣ x ∣ p |x|^p ∣ x ∣ p 是R \mathbb{R} R 上的凸函数. 负熵: x log x x\log x x log x 是R + + \mathbb{R}_{++} R ++ 上的凸函数. 凹函数:
仿射函数:对任意a , b ∈ R a, b \in \mathbb{R} a , b ∈ R , a x + b ax+b a x + b 是R \mathbb{R} R 上的凹函数. 幂函数:∀ α ∈ [ 0 , 1 ] \forall \alpha \in [0, 1] ∀ α ∈ [ 0 , 1 ] , x α x^\alpha x α 是R + + \mathbb{R}_{++} R ++ 上的凹函数. 对数函数:log x \log x log x 是R + + \mathbb{R}_{++} R ++ 上的凹函数. 可以看出,所有的仿射函数既是凸函数,又是凹函数.所有的范数都是凸函数.这两个结论对多元函数同样成立.
多元凸函数的例子 欧氏空间 R n \mathbb{R}^n R n 中的例子 :
仿射函数: f ( x ) = a ⊤ x + b f(x) = a^\top x + b f ( x ) = a ⊤ x + b
范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ( p ≥ 1 ) ||x||_p = (\sum_{i=1}^{n}|x_i|^p)^{\frac{1}{p}} \; (p \geq 1) ∣∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) p 1 ( p ≥ 1 ) ;特别地, ∣ ∣ x ∣ ∣ ∞ = max k ∣ x k ∣ ||x||_\infty = \max_k |x_k| ∣∣ x ∣ ∣ ∞ = max k ∣ x k ∣
矩阵空间 R m × n \mathbb{R}^{m\times n} R m × n 中的例子 :
仿射函数:
f ( X ) = t r ( A ⊤ X ) + b = ∑ i = 1 m ∑ j = 1 n A i j X i j + b f(X) = tr(A^\top X) + b = \sum_{i=1}^m\sum_{j=1}^nA_{ij}X_{ij} + b f ( X ) = t r ( A ⊤ X ) + b = i = 1 ∑ m j = 1 ∑ n A ij X ij + b
谱范数:
f ( X ) = ∣ ∣ X ∣ ∣ 2 = σ max ( X ) = ( λ max ( X ⊤ X ) ) 1 2 f(X) = ||X||_2 = \sigma_{\max}(X) = (\lambda_{\max}(X^\top X))^{\frac{1}{2}} f ( X ) = ∣∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( X ⊤ X ) ) 2 1
强凸函数 定义1
若存在常数m > 0 m > 0 m > 0 ,使得
g ( x ) = f ( x ) − m 2 ∣ ∣ x ∣ ∣ 2 g(x) = f(x) - \frac{m}{2}||x||^2 g ( x ) = f ( x ) − 2 m ∣∣ x ∣ ∣ 2
为凸函数,则称f ( x ) f(x) f ( x ) 为强凸函数,其中m m m 为强凸参数.为了方便,我们也称f ( x ) f(x) f ( x ) 为m m m -强凸函数.
定义2
若存在常数m > 0 m > 0 m > 0 ,使得 ∀ x , y ∈ d o m f \forall x, y \in \mathrm{dom} \,f ∀ x , y ∈ dom f 以及θ ∈ ( 0 , 1 ) \theta \in (0,1) θ ∈ ( 0 , 1 ) ,有
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) − m 2 θ ( 1 − θ ) ∣ ∣ x − y ∣ ∣ 2 f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y) - \frac{m}{2}\theta(1-\theta)||x - y||^2 f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) − 2 m θ ( 1 − θ ) ∣∣ x − y ∣ ∣ 2
则称f ( x ) f(x) f ( x ) 为强凸函数,其中m m m 为强凸参数.
设f f f 为强凸函数且存在最小值,则f f f 的最小值点唯一.
凸函数的判定定理 凸函数的一个最基本的判定方式是:先将其限制在任意直线上,然后判断对应的一维函数是否是凸的.
定理
f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R 是凸函数,当且仅当对每个x ∈ d o m f , v ∈ R n x \in \mathrm{dom}\,f ,v\in \mathbb{R}^n x ∈ dom f , v ∈ R n , 函数g : R → R g: \mathbb{R} \to \mathbb{R} g : R → R ,
g ( t ) = f ( x + t v ) , d o m g = { t ∣ x + t v ∈ d o m f } g(t) = f(x+tv), \quad \mathrm{dom}\,g = \{ t | x + tv \in \mathrm{dom}\,f \} g ( t ) = f ( x + t v ) , dom g = { t ∣ x + t v ∈ dom f }
是关于t t t 的凸函数.
例 : f ( X ) = − log det X f(X)=-\log \det X f ( X ) = − log det X 是凸函数,其中d o m f = S + + n \mathrm{dom}\,f = \mathbb{S}_{++}^n dom f = S ++ n . 任取X ≻ 0 X \succ 0 X ≻ 0 以及方向V ∈ S n V \in \mathbb{S}^n V ∈ S n ,将f f f 限制在直线X + t V X+tV X + t V (t t t 满足X + t V ≻ 0 X+tV \succ 0 X + t V ≻ 0 )上, 那么
g ( t ) = − log det ( X + t V ) = − log det X − log det ( I + t X − 1 2 V X − 1 2 ) = − log det X − ∑ i = 1 n log ( 1 + t λ i ) \begin{aligned} g(t) = -\log \det (X + tV) &= -\log \det X - \log \det (I + tX^{ -\frac{1}{2} }VX^{ -\frac{1}{2} }) \\ &= -\log \det X - \sum_{i=1}^{n}\log(1 + t\lambda_i) \end{aligned} g ( t ) = − log det ( X + t V ) = − log det X − log det ( I + t X − 2 1 V X − 2 1 ) = − log det X − i = 1 ∑ n log ( 1 + t λ i )
其中λ i \lambda_i λ i 是X − 1 2 V X − 1 2 X^{ -\frac{1}{2} }VX^{ -\frac{1}{2} } X − 2 1 V X − 2 1 的第i i i 个特征值.
对于每个X ≻ 0 X \succ 0 X ≻ 0 以及方向V V V , g g g 关于t t t 是凸的,因此f f f 是凸的.
证明 必要性 :设f ( x ) f(x) f ( x ) 是凸函数,要证g ( t ) = f ( x + t v ) g(t)=f(x+tv) g ( t ) = f ( x + t v ) 是凸函数.先说明d o m g \mathrm{dom}\, g dom g 是凸集.
对∀ t 1 , t 2 ∈ d o m g \forall t_1, t_2 \in \mathrm{dom}\,g ∀ t 1 , t 2 ∈ dom g 以及θ ∈ ( 0 , 1 ) \theta \in (0,1) θ ∈ ( 0 , 1 ) ,
x + t 1 v ∈ d o m f , x + t 2 v ∈ d o m f x + t_1v \in \mathrm{dom}\,f,\,x+t_2v\in\mathrm{dom}\,f x + t 1 v ∈ dom f , x + t 2 v ∈ dom f
∵ d o m f \because \mathrm{dom}\,f ∵ dom f 是凸集,又有
θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) = x + θ t 1 v + ( 1 − θ ) t 2 v = x + [ θ t 1 + ( 1 − θ ) t 2 ] v \begin{aligned} \theta(x + t_1v) + (1-\theta)(x + t_2v) &= x + \theta t_1v + (1-\theta)t_2v \\ &= x + [\theta t_1 + (1-\theta)t_2]v \end{aligned} θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) = x + θ t 1 v + ( 1 − θ ) t 2 v = x + [ θ t 1 + ( 1 − θ ) t 2 ] v
我们有推论:凸集的线性组合仍是凸集.故可知x + ( θ t 1 + ( 1 − θ ) t 2 ) v ∈ d o m f x + (\theta t_1 + (1-\theta)t_2)v \in \mathrm{dom}\,f x + ( θ t 1 + ( 1 − θ ) t 2 ) v ∈ dom f ,
t 1 , t 2 ∈ d o m g g ( t ) = f ( x + t v ) x + ( θ t 1 + ( 1 − θ ) t 2 ) v ∈ d o m f } ⇒ θ t 1 + ( 1 − θ ) t 2 ∈ d o m g ⇒ d o m g 是凸集 . \left. \begin{aligned} t_1,t_2 \in \mathrm{dom}\,g \\ g(t) = f(x+tv)\\ x + (\theta t_1 + (1-\theta)t_2)v \in \mathrm{dom}\,f \end{aligned} \right\} \Rightarrow \theta t_1 + (1-\theta)t_2 \in \mathrm{dom}\,g \Rightarrow \mathrm{dom}\,g\text{是凸集}. t 1 , t 2 ∈ dom g g ( t ) = f ( x + t v ) x + ( θ t 1 + ( 1 − θ ) t 2 ) v ∈ dom f ⎭ ⎬ ⎫ ⇒ θ t 1 + ( 1 − θ ) t 2 ∈ dom g ⇒ dom g 是凸集 .
此外我们有
g ( θ t 1 + ( 1 − θ ) t 2 ) = f ( x + ( θ t 1 + ( 1 − θ ) t 2 ) v ) = f ( θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) ) ≤ θ f ( x + t 1 v ) + ( 1 − θ ) f ( x + t 2 v ) ( 凸函数定义 ) = θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) . \begin{aligned} g(\theta t_1 + (1-\theta)t_2) &= f(x + (\theta t_1 + (1-\theta)t_2)v) \\ &= f(\theta(x + t_1v) + (1-\theta)(x + t_2v)) \\ &\leq \theta f(x + t_1v) + (1-\theta)f(x + t_2v) \;\; (\text{凸函数定义}) \\ &= \theta g(t_1) + (1-\theta) g(t_2). \end{aligned} g ( θ t 1 + ( 1 − θ ) t 2 ) = f ( x + ( θ t 1 + ( 1 − θ ) t 2 ) v ) = f ( θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v )) ≤ θ f ( x + t 1 v ) + ( 1 − θ ) f ( x + t 2 v ) ( 凸函数定义 ) = θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) .
结合以上两点可以得到函数g ( t ) g(t) g ( t ) 是凸函数.
充分性 :先说明d o m f \mathrm{dom}\,f dom f 是凸集.
取∀ θ ∈ [ 0 , 1 ] , v = y − x \forall \theta \in [0, 1],\, v = y - x ∀ θ ∈ [ 0 , 1 ] , v = y − x ,以及t 1 = 0 , t 2 = 1 t_1=0, t_2=1 t 1 = 0 , t 2 = 1 .则由d o m g \mathrm{dom}\,g dom g 是凸集可知θ t 1 + ( 1 − θ ) t 2 = θ ⋅ 0 + ( 1 − θ ) ⋅ 1 ∈ d o m g \theta t_1 + (1-\theta)t_2 = \theta \cdot 0 + (1-\theta) \cdot 1 \in \mathrm{dom}\,g θ t 1 + ( 1 − θ ) t 2 = θ ⋅ 0 + ( 1 − θ ) ⋅ 1 ∈ dom g
∵ x + t 1 v = x + 0 ⋅ ( y − x ) = x ∈ d o m f x + t 2 v = x + 1 ⋅ ( y − x ) = y ∈ d o m f \begin{aligned} \because x+t_1v &= x + 0 \cdot (y-x) = x \in \mathrm{dom}\,f \\ x+t_2v &= x + 1 \cdot (y-x) = y \in \mathrm{dom}\,f \end{aligned} ∵ x + t 1 v x + t 2 v = x + 0 ⋅ ( y − x ) = x ∈ dom f = x + 1 ⋅ ( y − x ) = y ∈ dom f
∴ θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) = θ x + ( 1 − θ ) y ∈ d o m f 即 d o m f 是凸集 . \therefore \theta(x+t_1v) + (1-\theta)(x+t_2v) = \theta x + (1-\theta)y \in \mathrm{dom}\,f\;\text{即}\,\mathrm{dom}\,f\text{是凸集}. ∴ θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) = θ x + ( 1 − θ ) y ∈ dom f 即 dom f 是凸集 .
再根据g ( t ) = f ( x + t v ) g(t)=f(x+tv) g ( t ) = f ( x + t v ) 的凸性,我们有
g ( 1 − θ ) = g ( θ t 1 + ( 1 − θ ) t 2 ) ≤ θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) = θ g ( 0 ) + ( 1 − θ ) g ( 1 ) = θ f ( x ) + ( 1 − θ ) f ( y ) . \begin{aligned} g(1-\theta) &= g(\theta t_1 + (1-\theta)t_2) \\ &\leq \theta g(t_1) + (1-\theta)g(t_2) \\ &= \theta g(0) + (1-\theta)g(1) \\ &= \theta f(x) + (1-\theta)f(y). \end{aligned} g ( 1 − θ ) = g ( θ t 1 + ( 1 − θ ) t 2 ) ≤ θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) = θ g ( 0 ) + ( 1 − θ ) g ( 1 ) = θ f ( x ) + ( 1 − θ ) f ( y ) .
而又有
g ( 1 − θ ) = f ( x + ( 1 − θ ) ( y − x ) ) = f ( θ x + ( 1 − θ ) y ) , ∴ f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) g(1-\theta) = f(x + (1-\theta)(y-x)) = f(\theta x + (1-\theta)y), \\ \therefore f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y) g ( 1 − θ ) = f ( x + ( 1 − θ ) ( y − x )) = f ( θ x + ( 1 − θ ) y ) , ∴ f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y )
这说明f ( x ) f(x) f ( x ) 是凸函数.故原命题得证.
一阶条件 定理
对于定义在凸集上的可微函数f f f , f f f 是凸函数当且仅当
f ( y ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) ∀ x , y ∈ d o m f f(y) \geq f(x) + \nabla f(x)^\top (y-x) \quad \forall x, y \in \mathrm{dom}\,f f ( y ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) ∀ x , y ∈ dom f
证明 必要性 : 设f f f 是凸函数,则对于∀ x , y ∈ d o m f \forall x, y \in \mathrm{dom}\,f ∀ x , y ∈ dom f 以及t ∈ ( 0 , 1 ) t \in (0,1) t ∈ ( 0 , 1 ) ,有
t f ( y ) + ( 1 − t ) f ( x ) ≥ f ( x + t ( y − x ) ) ⇒ t f ( y ) + f ( x ) − t f ( x ) ≥ f ( x + t ( y − x ) ) ⇒ f ( y ) − f ( x ) ≥ f ( x + t ( y − x ) ) − f ( x ) t \begin{aligned} &\qquad tf(y) + (1-t)f(x) \geq f(x+t(y-x)) \\ &\Rightarrow tf(y) + f(x) - tf(x) \geq f(x+t(y-x)) \\ &\Rightarrow f(y) - f(x) \geq \frac{f(x+t(y-x)) - f(x)}{t} \end{aligned} t f ( y ) + ( 1 − t ) f ( x ) ≥ f ( x + t ( y − x )) ⇒ t f ( y ) + f ( x ) − t f ( x ) ≥ f ( x + t ( y − x )) ⇒ f ( y ) − f ( x ) ≥ t f ( x + t ( y − x )) − f ( x )
令t → 0 t \to 0 t → 0 ,由极限保号性可得
f ( y ) − f ( x ) ≥ lim t → 0 f ( x + t ( y − x ) ) − f ( x ) t = ∇ f ( x ) ⊤ ( y − x ) f(y) - f(x) \geq \lim_{t\to 0}\frac{f(x+t(y-x)) - f(x)}{t} = \nabla f(x)^\top (y-x) f ( y ) − f ( x ) ≥ t → 0 lim t f ( x + t ( y − x )) − f ( x ) = ∇ f ( x ) ⊤ ( y − x )
这里最后一个等式成立是由于方向导数的性质:
如果函数f f f 在点x \mathbf {x} x 处可微,则沿着任意非零向量v \mathbf {v} v 的方向导数都存在。则有:
∇ v f ( x ) = D f x ( v ) = v ⋅ ∇ f ( x ) \nabla_{\mathbf{v}}{f}(\mathbf{x})=\mathrm{D} f_{\mathbf {x} }(\mathbf{v})=\mathbf{v}\cdot\nabla f(\mathbf{x}) ∇ v f ( x ) = D f x ( v ) = v ⋅ ∇ f ( x )
其中D f x \mathrm{D}f_{\mathbf{x}} D f x 是函数f f f 在点x \mathbf{x} x 的全微分,为一线性映射;∇ \nabla ∇ 符号表示梯度算子,而“⋅ \cdot ⋅ ”表示R n \mathbb{R}^n R n 中的内积. (注:在这例子里,如果线性映射D f x \mathrm{D}f_{\mathbf{x}} D f x 用矩阵表示且选用自然基底的话,D f x = ∇ f ( x ) \mathrm {D}f_{\mathbf{x}}=\nabla f({\mathbf{x}}) D f x = ∇ f ( x ) 为1 × n 1\times n 1 × n 的矩阵).
充分性 : 对∀ x , y ∈ d o m f \forall x, y \in \mathrm{dom}\,f ∀ x , y ∈ dom f 以及∀ t ∈ ( 0 , 1 ) \forall t \in (0,1) ∀ t ∈ ( 0 , 1 ) , 定义z = t x + ( 1 − t ) y z = tx+(1-t)y z = t x + ( 1 − t ) y , 应用两次一阶条件我们有
f ( x ) ≥ f ( z ) + ∇ f ( z ) ⊤ ( x − z ) (1) f ( y ) ≥ f ( z ) + ∇ f ( z ) ⊤ ( y − z ) (2) \begin{aligned} f(x) \geq f(z) + \nabla f(z)^\top (x-z)\qquad &\text{(1)}\\ f(y) \geq f(z) + \nabla f(z)^\top (y-z)\qquad &\text{(2)} \end{aligned} f ( x ) ≥ f ( z ) + ∇ f ( z ) ⊤ ( x − z ) f ( y ) ≥ f ( z ) + ∇ f ( z ) ⊤ ( y − z ) (1) (2)
令( 1 ) (1) ( 1 ) 乘上t t t ,( 2 ) (2) ( 2 ) 乘上1 − t 1-t 1 − t ,相加得
t f ( x ) + ( 1 − t ) f ( y ) ≥ f ( z ) + t x + ( 1 − t ) y − z = f ( z ) = f ( t x + ( 1 − t ) y ) tf(x) + (1-t)f(y) \geq f(z) + tx + (1-t)y - z = f(z) = f(tx+(1-t)y) t f ( x ) + ( 1 − t ) f ( y ) ≥ f ( z ) + t x + ( 1 − t ) y − z = f ( z ) = f ( t x + ( 1 − t ) y )
满足凸函数的定义,因此充分性成立.
梯度单调性 定义
设f f f 为可微函数,则f f f 为凸函数当且仅当d o m f \mathrm{dom}\,f dom f 为凸集且∇ f \nabla f ∇ f 为单调映射,
( ∇ f ( x ) − ∇ f ( y ) ) ⊤ ( x − y ) ≥ 0 , ∀ x , y ∈ d o m f (\nabla f(x) - \nabla f(y))^\top (x - y) \geq 0, \quad \forall x, y \in \mathrm{dom}\,f ( ∇ f ( x ) − ∇ f ( y ) ) ⊤ ( x − y ) ≥ 0 , ∀ x , y ∈ dom f
证明 必要性 : 若f f f 可微且为凸函数,根据一阶条件,我们有
f ( x ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) (1) f ( y ) ≥ f ( y ) + ∇ f ( y ) ⊤ ( x − y ) (2) \begin{aligned} f(x) \geq f(x) + \nabla f(x)^\top (y-x)\qquad &\text{(1)}\\ f(y) \geq f(y) + \nabla f(y)^\top (x-y)\qquad &\text{(2)} \end{aligned} f ( x ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) f ( y ) ≥ f ( y ) + ∇ f ( y ) ⊤ ( x − y ) (1) (2)
( 1 ) + ( 2 ) (1) + (2) ( 1 ) + ( 2 ) 得
f ( x ) + f ( y ) ≥ f ( x ) + f ( y ) + ∇ f ( x ) ⊤ ( y − x ) + ∇ f ( y ) ⊤ ( x − y ) ⇒ 0 ≥ ∇ f ( x ) ⊤ ( y − x ) − ∇ f ( y ) ⊤ ( y − x ) ⇒ 0 ≥ ( ∇ f ( x ) ⊤ − ∇ f ( y ) ⊤ ) ( y − x ) ⇒ ( ∇ f ( x ) − ∇ f ( y ) ) ⊤ ( x − y ) ≥ 0 \begin{aligned} f(x) + f(y) &\geq f(x) + f(y) + \nabla f(x)^\top (y-x) + \nabla f(y)^\top (x-y) \\ &\Rightarrow 0 \geq \nabla f(x)^\top (y-x) - \nabla f(y)^\top (y-x) \\ &\Rightarrow 0 \geq (\nabla f(x)^\top - \nabla f(y)^\top)(y-x) \\ &\Rightarrow (\nabla f(x) - \nabla f(y))^\top(x-y) \geq 0 \end{aligned} f ( x ) + f ( y ) ≥ f ( x ) + f ( y ) + ∇ f ( x ) ⊤ ( y − x ) + ∇ f ( y ) ⊤ ( x − y ) ⇒ 0 ≥ ∇ f ( x ) ⊤ ( y − x ) − ∇ f ( y ) ⊤ ( y − x ) ⇒ 0 ≥ ( ∇ f ( x ) ⊤ − ∇ f ( y ) ⊤ ) ( y − x ) ⇒ ( ∇ f ( x ) − ∇ f ( y ) ) ⊤ ( x − y ) ≥ 0
充分性 : 若∇ f \nabla f ∇ f 为单调映射,构造一元辅助函数
g ( t ) = f ( x + t ( y − x ) ) , g ′ ( t ) = ∇ f ( x + t ( y − x ) ) ⊤ ( y − x ) g(t) = f(x+t(y-x)), \quad g^\prime(t) = \nabla f(x+t(y-x))^\top(y-x) g ( t ) = f ( x + t ( y − x )) , g ′ ( t ) = ∇ f ( x + t ( y − x ) ) ⊤ ( y − x )
由∇ f \nabla f ∇ f 的单调性可知g ′ ( t ) ≥ g ′ ( 0 ) , ∀ t ≥ 0 g^\prime(t) \geq g^\prime(0), \; \forall t \geq 0 g ′ ( t ) ≥ g ′ ( 0 ) , ∀ t ≥ 0 .因此
f ( y ) = g ( 1 ) = g ( 0 ) + ∫ 0 1 g ′ ( t ) d t ≥ g ( 0 ) + g ′ ( 0 ) = f ( x ) + ∇ f ( x ) ⊤ ( y − x ) . f(y) = g(1) = g(0) + \int_0^1g^\prime(t) dt \geq g(0) + g^\prime(0) = f(x) + \nabla f(x)^\top(y-x). f ( y ) = g ( 1 ) = g ( 0 ) + ∫ 0 1 g ′ ( t ) d t ≥ g ( 0 ) + g ′ ( 0 ) = f ( x ) + ∇ f ( x ) ⊤ ( y − x ) .
上方图 定理
函数f ( x ) f(x) f ( x ) 为凸函数当且仅当其上方图e p i f epi\; f e p i f 是凸集.
证明 必要性 : 若f ( x ) f(x) f ( x ) 为凸函数,则对∀ ( x 1 , y 1 ) , ( x 2 , y 2 ) ∈ e p i f , t ∈ [ 0 , 1 ] \forall (x_1, y_1), (x_2, y_2) \in epi\; f, t \in [0,1] ∀ ( x 1 , y 1 ) , ( x 2 , y 2 ) ∈ e p i f , t ∈ [ 0 , 1 ] ,
t y 1 + ( 1 − t ) y 2 ≥ t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ≥ f ( t x 1 + ( 1 − t ) x 2 ) ∴ ( t x 1 + ( 1 − t ) x 2 , t y 1 + ( 1 − t ) y 2 ) ∈ e p i f ⇒ f ( t x 1 + ( 1 − t ) x 2 ) ≤ t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ty_1 + (1-t)y_2 \geq tf(x_1) + (1-t) f(x_2) \geq f(tx_1 + (1-t)x_2) \\ \therefore (tx_1+(1-t)x_2,ty_1 + (1-t)y_2) \in epi\;f\\ \Rightarrow f(tx_1+(1-t)x_2) \leq tf(x_1) + (1-t)f(x_2) t y 1 + ( 1 − t ) y 2 ≥ t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ≥ f ( t x 1 + ( 1 − t ) x 2 ) ∴ ( t x 1 + ( 1 − t ) x 2 , t y 1 + ( 1 − t ) y 2 ) ∈ e p i f ⇒ f ( t x 1 + ( 1 − t ) x 2 ) ≤ t f ( x 1 ) + ( 1 − t ) f ( x 2 )
充分性 : 若e p i f epi\;f e p i f 是凸集,则对∀ x 1 , x 2 ∈ d o m f , t ∈ [ 0 , 1 ] \forall x_1, x_2 \in \mathrm{dom}\,f , t \in [0,1] ∀ x 1 , x 2 ∈ dom f , t ∈ [ 0 , 1 ] ,
( t x 1 + ( 1 − t ) x 2 , t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ) ∈ e p i f ⇒ f ( t x 1 + ( 1 − t ) x 2 ) ≤ t f ( x 1 ) + ( 1 − t ) f ( x 2 ) \begin{aligned} (tx_1+(1-t)x_2, tf(x_1)+(1-t)f(x_2)) \in epi\;f \\ \Rightarrow f(tx_1+(1-t)x_2) \leq tf(x_1) + (1-t)f(x_2) \end{aligned} ( t x 1 + ( 1 − t ) x 2 , t f ( x 1 ) + ( 1 − t ) f ( x 2 )) ∈ e p i f ⇒ f ( t x 1 + ( 1 − t ) x 2 ) ≤ t f ( x 1 ) + ( 1 − t ) f ( x 2 )
二阶条件 定理
设f f f 为定义在凸集上的二阶连续可微函数
f f f 是凸函数当且仅当
∇ 2 f ( x ) ⪰ 0 , ∀ x ∈ d o m f \nabla^2f(x) \succeq 0, \forall x \in \mathrm{dom}\;f ∇ 2 f ( x ) ⪰ 0 , ∀ x ∈ dom f
如果∇ 2 f ( x ) ≻ 0 , ∀ x ∈ d o m f \nabla^2f(x) \succ 0 , \forall x \in \mathrm{dom}\;f ∇ 2 f ( x ) ≻ 0 , ∀ x ∈ dom f ,则f f f 是严格凸函数.
例 :
二次函数f ( x ) = 1 2 x ⊤ P x + q ⊤ x + r f(x) = \frac{1}{2}x^\top Px + q^\top x + r f ( x ) = 2 1 x ⊤ P x + q ⊤ x + r ,其中( P ∈ S n ) (P \in \mathbb{S}^n) ( P ∈ S n )
∇ f ( x ) = P x + q , ∇ 2 f ( x ) = P \nabla f(x) = Px + q, \qquad \nabla^2f(x) = P ∇ f ( x ) = P x + q , ∇ 2 f ( x ) = P
f f f 是凸函数当且仅当P ⪰ 0 P \succeq 0 P ⪰ 0
证明 必要性 : 反设f ( x ) f(x) f ( x ) 在点x x x 处的海瑟矩阵∇ 2 f ( x ) ⪰̸ 0 \nabla^2f(x)\not \succeq 0 ∇ 2 f ( x ) ⪰ 0 , 即存在非零向量v ∈ R n v \in \mathbb{R}^n v ∈ R n 使得v ⊤ ∇ 2 f ( x ) v < 0 v^\top\nabla^2f(x)v < 0 v ⊤ ∇ 2 f ( x ) v < 0 . 根据佩亚诺(Peano)余项的泰勒展开,
f ( x + t v ) = f ( x ) + t ∇ f ( x ) ⊤ v + t 2 2 v ⊤ ∇ 2 f ( x ) v + o ( t 2 ) f ( x + t v ) − f ( x ) − t ∇ f ( x ) ⊤ v t 2 = 1 2 v ⊤ ∇ 2 f ( x ) v + o ( 1 ) \begin{aligned} f(x + tv) = f(x) + t\nabla f(x)^\top v + \frac{t^2}{2}v^\top\nabla^2f(x)v + o(t^2) \\ \frac{f(x + tv) - f(x) - t\nabla f(x)^\top v}{t^2} = \frac{1}{2}v^\top\nabla^2f(x)v + o(1) \end{aligned} f ( x + t v ) = f ( x ) + t ∇ f ( x ) ⊤ v + 2 t 2 v ⊤ ∇ 2 f ( x ) v + o ( t 2 ) t 2 f ( x + t v ) − f ( x ) − t ∇ f ( x ) ⊤ v = 2 1 v ⊤ ∇ 2 f ( x ) v + o ( 1 )
当t t t 充分小时,
f ( x + t v ) − f ( x ) − t ∇ f ( x ) ⊤ v t 2 < 0 , \frac{f(x + tv) - f(x) - t\nabla f(x)^\top v}{t^2} < 0, t 2 f ( x + t v ) − f ( x ) − t ∇ f ( x ) ⊤ v < 0 ,
这显然和一阶条件矛盾,因此必有∇ 2 f ( x ) ⪰ 0 \nabla^2f(x) \succeq 0 ∇ 2 f ( x ) ⪰ 0 成立.
充分性 : 设f ( x ) f(x) f ( x ) 满足二阶条件∇ 2 f ( x ) ⪰ 0 \nabla^2f(x) \succeq 0 ∇ 2 f ( x ) ⪰ 0 ,对∀ x , y ∈ d o m f \forall x, y \in \mathrm{dom}\;f ∀ x , y ∈ dom f ,根据泰勒展开,
f ( y ) = f ( x ) + ∇ f ( x ) ⊤ ( y − x ) + 1 2 ( y − x ) ⊤ ∇ 2 f ( x + t ( y − x ) ) ( y − x ) , f(y) = f(x) + \nabla f(x)^\top(y-x) + \frac{1}{2}(y-x)^\top \nabla^2f(x+t(y-x))(y-x), f ( y ) = f ( x ) + ∇ f ( x ) ⊤ ( y − x ) + 2 1 ( y − x ) ⊤ ∇ 2 f ( x + t ( y − x )) ( y − x ) ,
其中t ∈ ( 0 , 1 ) t \in (0, 1) t ∈ ( 0 , 1 ) 是和x , y x,y x , y 有关的常数. 由半正定性可知对∀ x , y ∈ d o m f \forall x,y \in \mathrm{dom}\;f ∀ x , y ∈ dom f 有
f ( y ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) . f(y) \geq f(x) + \nabla f(x)^\top(y-x). f ( y ) ≥ f ( x ) + ∇ f ( x ) ⊤ ( y − x ) .
由凸函数判定的一阶条件知f f f 为凸函数. 进一步, 若∇ 2 f ( x ) > 0 \nabla^2f(x) > 0 ∇ 2 f ( x ) > 0 , 上式中不等号严格成立(x ≠ y x \neq y x = y ). 利用一阶条件的充分性的证明过程可得f ( x ) f(x) f ( x ) 为严格凸函数.
对∀ x , y ∈ d o m f , ∀ t ∈ ( 0 , 1 ) \forall x, y \in \mathrm{dom}\;f,\forall t\in(0,1) ∀ x , y ∈ dom f , ∀ t ∈ ( 0 , 1 ) ,设z = t x + ( 1 − t ) y ∈ d o m f z = tx + (1-t)y \in \mathrm{dom}\;f z = t x + ( 1 − t ) y ∈ dom f ,则
f ( x ) = f ( z ) + ∇ f ( z ) ⊤ ( x − z ) + 1 2 ( x − z ) ⊤ ∇ 2 f ( z + t ( x − z ) ) ( x − z ) f ( y ) = f ( z ) + ∇ f ( z ) ⊤ ( y − z ) + 1 2 ( y − z ) ⊤ ∇ 2 f ( z + t ( y − z ) ) ( y − z ) f(x) = f(z) + \nabla f(z)^\top(x-z) + \frac{1}{2}(x-z)^\top \nabla^2f(z+t(x-z))(x-z) \\ f(y) = f(z) + \nabla f(z)^\top(y-z) + \frac{1}{2}(y-z)^\top \nabla^2f(z+t(y-z))(y-z) f ( x ) = f ( z ) + ∇ f ( z ) ⊤ ( x − z ) + 2 1 ( x − z ) ⊤ ∇ 2 f ( z + t ( x − z )) ( x − z ) f ( y ) = f ( z ) + ∇ f ( z ) ⊤ ( y − z ) + 2 1 ( y − z ) ⊤ ∇ 2 f ( z + t ( y − z )) ( y − z )
∵ ∇ 2 f ( x ) > 0 ⇒ { f ( x ) > f ( z ) + ∇ f ( z ) ⊤ ( x − z ) (1) f ( y ) > f ( z ) + ∇ f ( z ) ⊤ ( y − z ) (2) \because \nabla^2f(x) > 0 \\ \Rightarrow \begin{cases} f(x) > f(z) + \nabla f(z)^\top(x-z) & \text{(1)} \\ f(y) > f(z) + \nabla f(z)^\top(y-z) & \text{(2)} \end{cases} ∵ ∇ 2 f ( x ) > 0 ⇒ { f ( x ) > f ( z ) + ∇ f ( z ) ⊤ ( x − z ) f ( y ) > f ( z ) + ∇ f ( z ) ⊤ ( y − z ) (1) (2)
t × ( 1 ) + ( 1 − t ) × ( 2 ) t\times(1) + (1-t)\times(2) t × ( 1 ) + ( 1 − t ) × ( 2 ) 得
t f ( x ) + ( 1 − t ) f ( y ) > f ( z ) + ∇ f ( z ) ⊤ [ t ( x − z ) + ( 1 − t ) ( y − z ) ] = f ( z ) + ∇ f ( z ) ⊤ [ t x + ( 1 − t ) y − z ] = f ( t x + ( 1 − t ) y ) \begin{aligned} tf(x) + (1-t)f(y) &> f(z) + \nabla f(z)^\top [t(x-z) + (1-t)(y-z)] \\ &= f(z) + \nabla f(z)^\top [tx + (1-t)y - z] \\ &= f(tx + (1-t)y) \\ \end{aligned} t f ( x ) + ( 1 − t ) f ( y ) > f ( z ) + ∇ f ( z ) ⊤ [ t ( x − z ) + ( 1 − t ) ( y − z )] = f ( z ) + ∇ f ( z ) ⊤ [ t x + ( 1 − t ) y − z ] = f ( t x + ( 1 − t ) y )
∴ 函数 f 是严格凸函数 . \therefore\text{函数} f \text{是严格凸函数}. ∴ 函数 f 是严格凸函数 .
二阶条件的应用 最小二乘函数 :
f ( x ) = ∣ ∣ A x − b ∣ ∣ 2 2 ∇ f ( x ) = 2 A ⊤ ( A x − b ) ∇ 2 f ( x ) = 2 A ⊤ A \begin{aligned} f(x) &= ||Ax-b||_2^2 \\ \nabla f(x) &= 2A^\top (Ax-b) \\ \nabla^2 f(x) &= 2A^\top A \end{aligned} f ( x ) ∇ f ( x ) ∇ 2 f ( x ) = ∣∣ A x − b ∣ ∣ 2 2 = 2 A ⊤ ( A x − b ) = 2 A ⊤ A
Quadratic-over-linear函数 :
f ( x , y ) = x 2 y ∇ 2 f ( x , y ) = 2 y 3 [ y − x ] [ y − x ] ⊤ ⪰ 0 是区域 { ( x , y ) ∣ y > 0 } 上的凸函数 . \begin{aligned} f(x,y) &= \frac{x^2}{y} \\ \nabla^2 f(x, y) &= \frac{2}{y^3} \begin{bmatrix} y \\ -x \end{bmatrix}\begin{bmatrix} y \\ -x \end{bmatrix}^\top \succeq 0 \\ \text{是区域}\{ &(x,y) | y > 0 \}\text{上的凸函数}. \end{aligned} f ( x , y ) ∇ 2 f ( x , y ) 是区域 { = y x 2 = y 3 2 [ y − x ] [ y − x ] ⊤ ⪰ 0 ( x , y ) ∣ y > 0 } 上的凸函数 .
Log-sum-exp函数 :
f ( x ) = log ∑ k = 1 n exp x k 是凸函数 . ∇ 2 f ( x ) = 1 1 ⊤ z d i a g ( z ) − 1 ( 1 ⊤ z ) 2 z z ⊤ ( z k = exp x k ) \begin{aligned} f(x) &= \log \sum_{k=1}^{n}\exp x_k \; \text{是凸函数}. \nabla^2f(x) &= \frac{1}{\mathbf{1}^\top z}\mathrm{diag}(z) - \frac{1}{(\mathbf{1}^\top z)^2}zz^\top \quad (z_k = \exp x_k) \end{aligned} f ( x ) = log k = 1 ∑ n exp x k 是凸函数 . ∇ 2 f ( x ) = 1 ⊤ z 1 diag ( z ) − ( 1 ⊤ z ) 2 1 z z ⊤ ( z k = exp x k )
要证明∇ 2 f ( x ) ⪰ 0 \nabla^2f(x)\succeq 0 ∇ 2 f ( x ) ⪰ 0 ,我们只需证明对∀ v \forall v ∀ v 使得v ⊤ ∇ 2 f ( x ) v ≥ 0 v^\top\nabla^2f(x)v \geq 0 v ⊤ ∇ 2 f ( x ) v ≥ 0 ,即
v ⊤ ∇ 2 f ( x ) v = ( ∑ k z k v k 2 ) ( ∑ k z k ) − ( ∑ k v k z k ) 2 ( ∑ k z k ) 2 ≥ 0 v^\top\nabla^2f(x)v = \frac{ (\sum_k z_kv_k^2)(\sum_k z_k) - (\sum_k v_kz_k)^2 }{ (\sum_k z_k)^2 } \geq 0 v ⊤ ∇ 2 f ( x ) v = ( ∑ k z k ) 2 ( ∑ k z k v k 2 ) ( ∑ k z k ) − ( ∑ k v k z k ) 2 ≥ 0
由柯西不等式,得
( ∑ k v k z k ) 2 ≤ ( ∑ k z k v k 2 ) ( ∑ k z k ) (\sum_k v_kz_k)^2 \leq (\sum_k z_kv_k^2)(\sum_k z_k) ( k ∑ v k z k ) 2 ≤ ( k ∑ z k v k 2 ) ( k ∑ z k )
因此f f f 是凸函数.
几何平均 :
f ( x ) = ( ∏ k = 1 n x k ) 1 n ( x ∈ R + + n ) 是凹函数 . f(x) = (\prod_{k=1}^{n}x_k)^\frac{1}{n} \quad (x \in \mathbb{R}_{++}^n) \text{是凹函数}. f ( x ) = ( k = 1 ∏ n x k ) n 1 ( x ∈ R ++ n ) 是凹函数 .
Jensen不等式/琴生不等式 基础Jensen不等式 :
设f f f 是凸函数,则对于0 ≤ θ ≤ 1 0 \leq \theta \leq 1 0 ≤ θ ≤ 1 ,有
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y) f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y )
概率Jensen不等式 :
设f f f 是凸函数,则对于任意随机变量z z z ,有
f ( E [ z ] ) ≤ E z [ f ( z ) ] f(\mathbb{E}[z]) \leq \mathbb{E}_z[f(z)] f ( E [ z ]) ≤ E z [ f ( z )]
基础Jensen不等式可以视为概率Jensen不等式在两点分布下的特殊情况
p r o b ( z = x ) = θ , p r o b ( z = y ) = 1 − θ \mathrm{prob} (z=x) = \theta, \quad \mathrm{prob}(z=y) = 1- \theta prob ( z = x ) = θ , prob ( z = y ) = 1 − θ
保凸的运算 验证一个函数是否为凸函数的方法
用定义验证(通常将函数限制在一条直线上) 利用一阶条件和二阶条件 直接研究f f f 的上方图e p i f epi\;f e p i f 说明f f f 可由简单的凸函数通过一些保凸的运算得到 非负加权和 与仿射函数的复合 逐点取最大值 与标量、向量函数的复合 取下确界 透视函数 非负加权和与仿射函数的复合 相关信息
非负数乘 : 若f f f 是凸函数,则α f \alpha f α f 是凸函数,其中α ≥ 0 \alpha\geq0 α ≥ 0 .
求和 : 若f 1 , f 2 f1,f2 f 1 , f 2 是凸函数,则f 1 + f 2 f1 + f2 f 1 + f 2 是凸函数.
与仿射函数的复合 : 若f f f 是凸函数,则f ( A x + b ) f(Ax + b) f ( A x + b ) 是凸函数.
例 :
线性不等式的对数障碍函数:
f ( x ) = − ∑ i = 1 m log ( b i − a i ⊤ x ) , d o m f = { x ∣ a i ⊤ x < b i , i = 1 , … , m } f(x) = -\sum_{i=1}^{m}\log (b_i - a_i^\top x), \mathrm{dom}\;f = \{ x | a_i^\top x < b_i, \, i=1, \dots, m \} f ( x ) = − i = 1 ∑ m log ( b i − a i ⊤ x ) , dom f = { x ∣ a i ⊤ x < b i , i = 1 , … , m }
仿射函数的(任意)范数: f ( x ) = ∣ ∣ A x + b ∣ ∣ f(x)=||Ax+b|| f ( x ) = ∣∣ A x + b ∣∣
逐点取最大值 相关信息
若f 1 , … , f m f_1, \dots , f_m f 1 , … , f m 是凸函数,则f ( x ) = max { f 1 ( x ) , … , f m ( x ) } f(x)=\max\{ f_1(x), \dots, f_m(x) \} f ( x ) = max { f 1 ( x ) , … , f m ( x )} 是凸函数.
例 :
分段线性函数:
f ( x ) = max i = 1 , … , m ( a i ⊤ x + b i ) 是凸函数. f(x)=\max_{i=1,\dots,m}(a_i^\top x + b_i) \; \text{是凸函数.} f ( x ) = i = 1 , … , m max ( a i ⊤ x + b i ) 是凸函数 .
x ∈ R n x \in \mathbb{R}^n x ∈ R n 的前r r r 个最大分量之和:
f ( x ) = x [ 1 ] + x [ 2 ] + ⋯ + x [ r ] 是凸函数. f(x) = x_{[1]} + x_{[2]} + \cdots + x_{[r]} \; \text{是凸函数.} f ( x ) = x [ 1 ] + x [ 2 ] + ⋯ + x [ r ] 是凸函数 .
其中x [ i ] x_{[i]} x [ i ] 为x x x 的从大到小排列的第i i i 个分量,
事实上,f ( x ) f(x) f ( x ) 可以写成如下多个线性函数取最大值的形式:
f ( x ) = max { x i 1 + x i 2 + ⋯ + x i r ∣ 1 ≤ i 1 < i 2 < ⋯ < i r ≤ n } f(x) = \max \{ x_{i_1} + x_{i_2} + \cdots + x_{i_r} | 1 \leq i_1 < i_2 < \cdots < i_r \leq n \} f ( x ) = max { x i 1 + x i 2 + ⋯ + x i r ∣1 ≤ i 1 < i 2 < ⋯ < i r ≤ n }
逐点取上界 相关信息
若对每个y ∈ A y \in \mathcal{A} y ∈ A ,f ( x , y ) f(x,y) f ( x , y ) 是关于x x x 的凸函数,则
g ( x ) = sup y ∈ A f ( x , y ) 是凸函数. g(x) = \sup_{y\in \mathcal{A}}f(x,y) \; \text{是凸函数.} g ( x ) = y ∈ A sup f ( x , y ) 是凸函数 .
例 :
集合C C C 的支撑函数:
S C ( x ) = sup y ∈ C y ⊤ x 是凸函数. S_C(x) = \sup_{y\in C}y^\top x \; \text{是凸函数.} S C ( x ) = y ∈ C sup y ⊤ x 是凸函数 .
集合C C C 点到给定点x x x 的最远距离:
f ( x ) = sup y ∈ C ∣ ∣ x − y ∣ ∣ f(x) = \sup_{y\in C}||x-y|| f ( x ) = y ∈ C sup ∣∣ x − y ∣∣
对称矩阵X ∈ S n X\in \mathbb{S}^n X ∈ S n 的最大特征值:
λ max ( X ) = sup ∣ ∣ y ∣ ∣ 2 = 1 y ⊤ X y \lambda_{\max}(X) = \sup_{||y||_2=1}y^\top Xy λ m a x ( X ) = ∣∣ y ∣ ∣ 2 = 1 sup y ⊤ X y
与标量函数的复合 相关信息
给定函数g : R n → R g: \mathbb{R}^n \to \mathbb{R} g : R n → R 和h : R → R h: \mathbb{R} \to \mathbb{R} h : R → R ,
f ( x ) = h ( g ( x ) ) f(x) = h(g(x)) f ( x ) = h ( g ( x ))
若g g g 是凸函数,h h h 是凸函数,h ^ \hat{h} h ^ 单调不减,那么f f f 是凸函数.
若g g g 是凹函数,h h h 是凸函数,h ^ \hat{h} h ^ 单调不增,那么f f f 是凸函数.
对n = 1 n=1 n = 1 ,g , h g,h g , h 均可微的情形,我们给出简证
f ′ ′ ( x ) = h ′ ′ ( g ( x ) ) g ′ ( x ) 2 + h ′ ( g ( x ) ) g ′ ′ ( x ) f^{\prime\prime}(x) = h^{\prime\prime}(g(x))g^\prime(x)^2 + h^\prime(g(x))g^{\prime\prime}(x) f ′′ ( x ) = h ′′ ( g ( x )) g ′ ( x ) 2 + h ′ ( g ( x )) g ′′ ( x )
注意: 必须是h ^ \hat{h} h ^ 满足单调不减/不增的条件;如果仅是h h h 满足单调不减/不增的条件,存在反例.
推论 :
如果g g g 是凸函数,则exp g ( x ) \exp g(x) exp g ( x ) 是凸函数. 如果g g g 是正值凹函数,则1 g ( x ) \frac{1}{g(x)} g ( x ) 1 是凸函数. 与向量函数的复合 相关信息
给定函数g : R n → R g: \mathbb{R}^n \to \mathbb{R} g : R n → R 和h : R → R h: \mathbb{R} \to \mathbb{R} h : R → R ,
f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , … , g k ( x ) ) f(x) = h(g(x)) = h(g_1(x), g_2(x), \dots, g_k(x)) f ( x ) = h ( g ( x )) = h ( g 1 ( x ) , g 2 ( x ) , … , g k ( x ))
若g g g 是凸函数,h h h 是凸函数,h ^ \hat{h} h ^ 关于每个分量单调不减,那么f f f 是凸函数.
若g g g 是凹函数,h h h 是凸函数,h ^ \hat{h} h ^ 关于每个分量单调不增,那么f f f 是凸函数.
对n = 1 n=1 n = 1 ,g , h g,h g , h 均可微的情形,我们给出简证
f ′ ′ ( x ) = g ′ ( x ) ⊤ ∇ 2 h ( g ( x ) ) g ′ ( x ) + ∇ h ( g ( x ) ) ⊤ g ′ ′ ( x ) f^{\prime\prime}(x) = g^\prime(x)^\top\nabla^2h(g(x))g^\prime(x) + \nabla h(g(x))^\top g^{\prime\prime}(x) f ′′ ( x ) = g ′ ( x ) ⊤ ∇ 2 h ( g ( x )) g ′ ( x ) + ∇ h ( g ( x ) ) ⊤ g ′′ ( x )
推论 :
如果g i g_i g i 是正值凹函数,则∑ i = 1 m log g i ( x ) \sum_{i=1}^{m}\log g_i(x) ∑ i = 1 m log g i ( x ) 是凹函数. 如果g i g_i g i 是凸函数,则log ∑ i = 1 m exp g i ( x ) \log\sum_{i=1}^{m}\exp g_i(x) log ∑ i = 1 m exp g i ( x ) 是凸函数. 取下确界 相关信息
若f ( x , y ) f(x,y) f ( x , y ) 关于( x , y ) (x,y) ( x , y ) 征途是凸函数,C C C 是凸集,则
g ( x ) = inf y ∈ C f ( x , y ) 是凸函数. g(x) = \inf_{y\in C}f(x,y) \; \text{是凸函数.} g ( x ) = y ∈ C inf f ( x , y ) 是凸函数 .
例 :
考虑函数f ( x , y ) = x ⊤ A x + 2 x ⊤ B y + y ⊤ C y f(x,y) = x^\top Ax + 2x^\top By + y^\top Cy f ( x , y ) = x ⊤ A x + 2 x ⊤ B y + y ⊤ C y ,海瑟矩阵满足
[ A B B ⊤ C ] ⪰ 0 , C ≻ 0 , \begin{bmatrix} A & B \\ B^\top & C \end{bmatrix} \succeq 0, \quad C \succ 0, [ A B ⊤ B C ] ⪰ 0 , C ≻ 0 ,
则f ( x , y ) f(x,y) f ( x , y ) 为凸函数.对y y y 求最小值得
g ( x ) = inf y f ( x , y ) = x ⊤ ( A − B C − 1 B ⊤ ) x , g(x) = \inf_y f(x,y) = x^\top(A-BC^{-1}B^\top)x, g ( x ) = y inf f ( x , y ) = x ⊤ ( A − B C − 1 B ⊤ ) x ,
因此g g g 是凸函数.进一步地,A A A 的Schur补A − B C − 1 B ⊤ ⪰ 0 A-BC^{-1}B^\top \succeq 0 A − B C − 1 B ⊤ ⪰ 0
点x x x 到凸集S S S 的距离d i s t ( x , S ) = inf y ∈ S ∣ ∣ x − y ∣ ∣ \mathrm{dist}(x, S) = \inf_{y\in S}||x-y|| dist ( x , S ) = inf y ∈ S ∣∣ x − y ∣∣ 是凸函数.
透视函数 相关信息
定义f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R 的透视函数g : R n × R → R g: \mathbb{R}^n \times \mathbb{R} \to \mathbb{R} g : R n × R → R ,
g ( x , t ) = t f ( x t ) , d o m g = { ( x , t ) ∣ x t ∈ d o m f , t > 0 } g(x,t) = tf(\frac{x}{t}), \quad \mathrm{dom}\;g = \Big\{ (x,t) | \frac{x}{t} \in \mathrm{dom}\;f , t > 0 \Big\} g ( x , t ) = t f ( t x ) , dom g = { ( x , t ) ∣ t x ∈ dom f , t > 0 }
若f f f 是凸函数,则g g g 是凸函数.
例 :
f ( x ) = x ⊤ x f(x) = x^\top x f ( x ) = x ⊤ x 是凸函数,因此g ( x , t ) = x ⊤ x t g(x,t) = \frac{x^\top x}{t} g ( x , t ) = t x ⊤ x 是区域{ ( x , t ) ∣ t > 0 } \{ (x,t) | t > 0 \} {( x , t ) ∣ t > 0 } 上的凸函数.f ( x ) = − log x f(x) = -\log x f ( x ) = − log x 是凸函数,因此相对熵函数g ( x , t ) = t log t − t log x g(x, t) = t\log t - t\log x g ( x , t ) = t log t − t log x 是R + + 2 \mathbb{R}^2_{++} R ++ 2 上的凸函数若f f f 是凸函数,那么g ( x ) = ( c ⊤ x + d ) f ( A x + b c ⊤ x + d ) g(x) = (c^\top x + d)f(\frac{Ax+b}{c^\top x + d}) g ( x ) = ( c ⊤ x + d ) f ( c ⊤ x + d A x + b )
是区域{ x ∣ c ⊤ x + d > 0 , A x + b c ⊤ x + d ∈ d o m f } \{ x | c^\top x + d > 0, \frac{Ax + b}{c^\top x + d} \in \mathrm{dom}\;f \} { x ∣ c ⊤ x + d > 0 , c ⊤ x + d A x + b ∈ dom f } 上的凸函数. 共轭函数 相关信息
适当函数f f f 的共轭函数定义为
f ∗ ( y ) = sup x ∈ d o m f ( y ⊤ x − f ( x ) ) f^*(y) = \sup_{x \in \mathrm{dom}\;f}(y^\top x - f(x)) f ∗ ( y ) = x ∈ dom f sup ( y ⊤ x − f ( x ))
f ∗ f^* f ∗ 恒为凸函数,无论f f f 是否是凸函数.
例 :
负对数f ( x ) = − log x f(x) = -\log x f ( x ) = − log x f ∗ ( y ) = sup x > 0 ( x y + log x ) = { − 1 − log ( − y ) y < 0 ∞ O t h e r w i s e . f^*(y) = \sup_{x > 0}(xy + \log x) = \begin{cases} -1 - \log (-y) & y < 0 \\ \infty & \mathrm{Otherwise}. \end{cases} f ∗ ( y ) = x > 0 sup ( x y + log x ) = { − 1 − log ( − y ) ∞ y < 0 Otherwise .
强凸二次函数f ( x ) = 1 2 x ⊤ Q x , Q ∈ S + + n f(x) = \frac{1}{2}x^\top Qx, \; Q\in\mathbb{S}^n_{++} f ( x ) = 2 1 x ⊤ Q x , Q ∈ S ++ n f ∗ ( y ) = sup x ( y ⊤ x − 1 2 x ⊤ Q x ) = 1 2 y ⊤ Q − 1 y \begin{aligned} f^*(y) &= \sup_x(y^\top x - \frac{1}{2}x^\top Qx) \\ &= \frac{1}{2}y^\top Q^{-1}y \end{aligned} f ∗ ( y ) = x sup ( y ⊤ x − 2 1 x ⊤ Q x ) = 2 1 y ⊤ Q − 1 y
凸函数的推广 拟凸函数 相关信息
设f : R n → R f:\mathbb{R}^n\to \mathbb{R} f : R n → R ,如果d o m f \mathrm{dom}\;f dom f 是凸集,并且下水平集
S α = { x ∈ d o m f ∣ f ( x ) ≤ α } S_\alpha = \{ x \in \mathrm{dom}\;f | f(x) \leq \alpha \} S α = { x ∈ dom f ∣ f ( x ) ≤ α }
对任意α \alpha α 都是凸的
若f f f 是拟凸的,则称− f -f − f 是拟凹的. 若f f f 既是拟凸的,又是拟凹的,则称f f f 是拟线性的. 拟凸、凹函数的例子 相关信息
∣ x ∣ \sqrt{|x|} ∣ x ∣ 是R \mathbb{R} R 上的拟凸函数.c e i l ( x ) = inf { z ∈ Z ∣ z ≥ x } \mathrm{ceil}(x) = \inf \{ z\in \mathbb{Z} | z \geq x \} ceil ( x ) = inf { z ∈ Z ∣ z ≥ x } 是拟线性的.log x \log x log x 是R + + \mathbb{R}_{++} R ++ 上的拟线性函数.f ( x 1 , x 2 ) = x 1 x 2 f(x_1, x_2) = x_1x_2 f ( x 1 , x 2 ) = x 1 x 2 是R + + 2 \mathbb{R}_{++}^2 R ++ 2 上的拟凹函数.分式线性函数f ( x ) = a ⊤ x + b c ⊤ x + d , d o m f = { x ∣ c ⊤ x + d > 0 } 是拟线性的 . f(x)=\frac{a^\top x+b}{c^\top x+d}, \; \mathrm{dom}\;f = \{ x | c^\top x + d > 0 \} \; \text{是拟线性的}. f ( x ) = c ⊤ x + d a ⊤ x + b , dom f = { x ∣ c ⊤ x + d > 0 } 是拟线性的 .
距离比值函数f ( x ) = ∣ ∣ x − a ∣ ∣ 2 ∣ ∣ x − b ∣ ∣ 2 , d o m f = { x ∣ ∣ ∣ x − a ∣ ∣ 2 ≤ ∣ ∣ x − b ∣ ∣ 2 } 是拟凸的 . f(x)=\frac{||x-a||_2}{||x-b||_2}, \; \mathrm{dom}\;f = \{ x | \; ||x-a||_2 \leq ||x-b||_2 \} \; \text{是拟凸的}. f ( x ) = ∣∣ x − b ∣ ∣ 2 ∣∣ x − a ∣ ∣ 2 , dom f = { x ∣ ∣∣ x − a ∣ ∣ 2 ≤ ∣∣ x − b ∣ ∣ 2 } 是拟凸的 .
例 : 内部回报率(IRR)
现金流x = ( x 0 , … , x n ) ; x i x = (x_0,\dots,x_n);\;x_i x = ( x 0 , … , x n ) ; x i 是i i i 时段支付的现金.
假定x 0 < 0 , x 0 + x 1 + ⋯ + x n > 0 x_0 < 0, \, x_0 + x_1 + \cdots + x_n > 0 x 0 < 0 , x 0 + x 1 + ⋯ + x n > 0 .
现值(Present Value)的表达式为
P V ( x , r ) = ∑ i = 0 n ( 1 + r ) − i x i \mathrm{PV}(x,r) = \sum_{i=0}^{n}(1+r)^{-i}x_i PV ( x , r ) = i = 0 ∑ n ( 1 + r ) − i x i
其中r r r 为利率.
内部回报率(IRR)是最小的使得P V ( x , r ) = 0 \mathrm{PV}(x,r) = 0 PV ( x , r ) = 0 的利率r r r
I R R ( x ) = inf { r ≥ 0 ∣ P V ( x , r ) = 0 } \mathrm{IRR}(x) = \inf \{ r \geq 0 | \mathrm{PV}(x,r) = 0 \} IRR ( x ) = inf { r ≥ 0∣ PV ( x , r ) = 0 }
IRR是拟凹的,因为它的上水平集是开半空间的交
I R R ( x ) ≥ R ⇔ ∑ i = 0 n ( 1 + r ) − i x i > 0 f o r 0 ≤ r < R \mathrm{IRR}(x) \geq R \Leftrightarrow \sum_{i=0}^{n}(1+r)^{-i} x_i > 0 \quad \mathrm{for} \;0\leq r < R IRR ( x ) ≥ R ⇔ i = 0 ∑ n ( 1 + r ) − i x i > 0 for 0 ≤ r < R
拟凸函数的性质 类Jensen不等式 :
对拟凸函数f f f ,
0 ≤ θ ≤ 1 ⇒ f ( θ x + ( 1 − θ ) y ) ≤ max { f ( x ) , f ( y ) } 0\leq\theta\leq1 \Rightarrow f(\theta x + (1-\theta)y) \leq \max \{ f(x), f(y) \} 0 ≤ θ ≤ 1 ⇒ f ( θ x + ( 1 − θ ) y ) ≤ max { f ( x ) , f ( y )}
一阶条件 :
定义在凸集上的可微函数f f f 是拟凸的,当且仅当
f ( y ) ≤ f ( x ) ⇒ ∇ f ( x ) ⊤ ( y − x ) ≤ 0 f(y)\leq f(x) \Rightarrow \nabla f(x)^\top(y-x) \leq 0 f ( y ) ≤ f ( x ) ⇒ ∇ f ( x ) ⊤ ( y − x ) ≤ 0
注: 拟凸函数的和不一定是拟凸函数.
对数凸函数 相关信息
如果正值函数f f f 满足log f \log f log f 是凸函数,则f f f 称为对数凸函数,即
f ( θ x + ( 1 − θ ) y ) ≤ f ( x ) θ f ( y ) 1 − θ f o r 0 ≤ θ ≤ 1. f(\theta x + (1-\theta)y) \leq f(x)^\theta f(y)^{1-\theta} \quad \mathrm{for} \; 0\leq\theta\leq1. f ( θ x + ( 1 − θ ) y ) ≤ f ( x ) θ f ( y ) 1 − θ for 0 ≤ θ ≤ 1.
如果log f \log f log f 是凹函数,则f f f 称为对数凹函数.
幂函数: 当a ≤ 0 a\leq 0 a ≤ 0 时,x a x^{a} x a 是R + + \mathbb{R}_{++} R ++ 上的对数凸函数; 当a ≥ 0 a\geq 0 a ≥ 0 ,x a x^a x a 是R + + \mathbb{R}_{++} R ++ 上的对数凹函数.
许多常见的概率密度函数是对数凹函数,例如正态分布
f ( x ) = 1 ( 2 π ) n det ∑ e − 1 2 ( x − x ‾ ) ⊤ ∑ − 1 ( x − x ‾ ) f(x) = \frac{1}{ \sqrt{(2\pi)^n\det\sum} }e^{ -\frac{1}{2}(x-\overline{x})^\top\sum^{-1}(x-\overline{x}) } f ( x ) = ( 2 π ) n det ∑ 1 e − 2 1 ( x − x ) ⊤ ∑ − 1 ( x − x )
高斯分布的累计分布函数Φ \Phi Φ 是对数凹函数.
Φ ( x ) = 1 2 π ∫ − ∞ x e − 1 2 u 2 d u \Phi(x) = \frac{1}{ \sqrt{2\pi} }\int_{-\infty}^{x}e^{-\frac{1}{2}u^2}du Φ ( x ) = 2 π 1 ∫ − ∞ x e − 2 1 u 2 d u
对数凸、凹函数的性质 相关信息
定义在凸集上的二阶可微函数f f f 是对数凹的,当且仅当
f ( x ) ∇ 2 f ( x ) ⪯ ∇ f ( x ) ∇ f ( x ) ⊤ f(x)\nabla^2f(x)\preceq\nabla f(x)\nabla f(x)^\top f ( x ) ∇ 2 f ( x ) ⪯ ∇ f ( x ) ∇ f ( x ) ⊤
对任意x ∈ d o m f x\in\mathrm{dom}\;f x ∈ dom f 成立.
对数凹函数的乘积仍为对数凹函数.
对数凹函数的和不一定为对数凹函数.
若f : R n × R m → R f:\mathbb{R}^n \times \mathbb{R}^m\to \mathbb{R} f : R n × R m → R 是对数凹函数,那么
g ( x ) = ∫ f ( x , y ) d y g(x)=\int f(x,y)dy g ( x ) = ∫ f ( x , y ) d y
是对数凹函数.
对数凹函数的积分 :
对数凹函数f , g f,g f , g 的卷积f ∗ g f*g f ∗ g 是对数凹函数
( f ∗ g ) ( x ) = ∫ f ( x − y ) g ( y ) d y (f*g)(x)=\int f(x-y)g(y)dy ( f ∗ g ) ( x ) = ∫ f ( x − y ) g ( y ) d y
若C ⊆ R n C \subseteq \mathbb{R}^n C ⊆ R n 是凸集,并且随机变量y y y 的概率密度函数是对数凹函数,则
f ( x ) = p r o b ( x + y ∈ C ) 是对数凹函数 . f(x) = \mathrm{prob}(x+y \in C)\;\text{是对数凹函数}. f ( x ) = prob ( x + y ∈ C ) 是对数凹函数 .
证明: f ( x ) f(x) f ( x ) 可表示为两个对数凹函数乘积的积分
f ( x ) = ∫ g ( x + y ) p ( y ) d y , g ( u ) = { 1 u ∈ C 0 u ∉ C f(x) = \int g(x+y)p(y)dy,\quad g(u) = \begin{cases} 1 & u\in C \\ 0 & u\not\in C \end{cases} f ( x ) = ∫ g ( x + y ) p ( y ) d y , g ( u ) = { 1 0 u ∈ C u ∈ C
其中p p p 是y y y 的概率密度函数.
例 : 生成函数
Y ( x ) = p r o b ( x + w ∈ S ) Y(x) = \mathrm{prob}(x+ w\in S) Y ( x ) = prob ( x + w ∈ S )
x ∈ R n x\in\mathbb{R}^n x ∈ R n : 产品的标称参数(Nominal Parameter).w ∈ R n w\in\mathbb{R}^n w ∈ R n : 制成品的参数是随机变量.S S S : 接受集.若S S S 是凸集,并且随机变量w w w 的概率密度函数是对数凹函数,则
Y Y Y 是拟凹函数生成区域{ x ∣ Y ( x ) ≥ α } \{ x | Y(x) \geq \alpha \} { x ∣ Y ( x ) ≥ α } 是凸集. 广义不等式意义下的凸函数 相关信息
f : R n → R m f:\mathbb{R}^n\to \mathbb{R}^m f : R n → R m 称为K K K -凸函数: 如果d o m f \mathrm{dom}\;f dom f 是凸集,并且
f ( θ x + ( 1 − θ ) y ) ⪯ K θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y) \preceq_K \theta f(x)+ (1-\theta)f(y) f ( θ x + ( 1 − θ ) y ) ⪯ K θ f ( x ) + ( 1 − θ ) f ( y )
对∀ x , y ∈ d o m f , 0 ≤ θ ≤ 1 \forall x,y \in \mathrm{dom}\;f,\,0\leq\theta\leq1 ∀ x , y ∈ dom f , 0 ≤ θ ≤ 1 成立
例 :
f : S m → S m , f ( X ) = X 2 f:\mathbb{S}^m\to\mathbb{S}^m, f(X)=X^2 f : S m → S m , f ( X ) = X 2 是S + m \mathbb{S}^m_{+} S + m -凸函数
证明:
对固定的z ∈ R m , z ⊤ X 2 z = ∣ ∣ X z ∣ ∣ 2 2 z\in \mathbb{R}^m,\, z^\top X^2z=||Xz||_2^2 z ∈ R m , z ⊤ X 2 z = ∣∣ X z ∣ ∣ 2 2 关于X X X 是凸函数,即
z ⊤ ( θ X + ( 1 − θ ) Y ) 2 z ≤ θ z ⊤ X 2 z + ( 1 − θ ) z ⊤ Y 2 z z^\top (\theta X + (1-\theta)Y)^2z\leq \theta z^\top X^2z + (1-\theta)z^\top Y^2z z ⊤ ( θX + ( 1 − θ ) Y ) 2 z ≤ θ z ⊤ X 2 z + ( 1 − θ ) z ⊤ Y 2 z
对∀ X , Y ∈ S m , 0 ≤ θ ≤ 1 \forall X,Y \in \mathbb{S}^m,\, 0\leq\theta\leq1 ∀ X , Y ∈ S m , 0 ≤ θ ≤ 1 成立.
∴ ( θ X + ( 1 − θ ) Y ) 2 ⪯ θ X 2 + ( 1 − θ ) Y 2 \therefore (\theta X + (1-\theta)Y)^2 \preceq \theta X^2 + (1-\theta)Y^2 ∴ ( θX + ( 1 − θ ) Y ) 2 ⪯ θ X 2 + ( 1 − θ ) Y 2