凸优化学习

Breeze Shane大约 30 分钟AritficialIntelligenceMathematicsConvexAritficialIntelligenceMathematicsConvex

参考

基础知识

梯度(Gradient)

定义

给定函数f:RnRf : \mathbb{R}^n \to \mathbb{R},且ff在点xx的一个邻域内有意义,若存在向量gRng \in \mathbb{R}^n满足:

limp0f(x+p)f(x)gpp=0, \lim_{p\to 0}\frac{f(x+p) - f(x) - g^\top p}{||p||} = 0,

其中||\cdot||是任意的向量范数,就称ff在点xx处可微(或Fréchet可微).此时gg称为ff在点xx处的梯度,记作f(x)\nabla f(x).如果对区域DD上的每一个点xx都有f(x)\nabla f(x)存在,则称ffDD上可微.

ff在点xx处的梯度存在,在定义式中令p=ϵeip=\epsilon e_i,eie_i是第ii个分量为1的单位向量,可知f(x)\nabla f(x)的第ii个分量为f(x)xi\frac{\partial f(x)}{\partial x_i}.因此,

f(x)=[f(x)x1,f(x)x2,,f(x)xn] \nabla f(x) = \Big[ \frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \cdots, \frac{\partial f(x)}{\partial x_n} \Big]^\top

海瑟矩阵(Hessian Matrix)

定义

如果函数f(x):RnRf(x):\mathbb{R}^n \to \mathbb{R}在点xx处的二阶偏导数2f(x)xixj  i,j=1,2,,n\frac{\partial^2f(x)}{\partial x_i \partial x_j} \; i, j = 1, 2, \cdots , n都存在,则

2f(x)=[2f(x)x122f(x)x1x22f(x)x1xn2f(x)x2x12f(x)x222f(x)x2xn2f(x)xnx12f(x)xnx22f(x)xn2] \nabla^2f(x) = \begin{bmatrix} \frac{\partial^2f(x)}{\partial x_1^2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2f(x)}{\partial x_1 \partial x_n} \\ \frac{\partial^2f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2f(x)}{\partial x_2^2} & \cdots & \frac{\partial^2f(x)}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f(x)}{\partial x_n \partial x_1} & \frac{\partial^2f(x)}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2f(x)}{\partial x_n^2} \end{bmatrix}

称为ff在点xx处的海瑟矩阵.

2f(x)\nabla^2f(x)在区域DD上的每个点xx处都存在时,称ffDD上二阶可微.若2f(x)\nabla^2f(x)DD上还连续,则称ffDD上二阶连续可微,可以证明此时海瑟矩阵是一个对称矩阵.

矩阵变量函数的导数

多元函数梯度的定义可以推广到变量是矩阵的情形.对于以m×nm\times n矩阵XX为自变量的函数f(X)f(X),若存在矩阵GRm×nG \in \mathbb{R}^{m\times n}满足

limV0f(X+V)f(X)G,VV=0, \lim_{V\to 0}\frac{f(X+V)-f(X)-\langle G, V\rangle}{||V||} = 0,

其中||\cdot||是任意矩阵范数,就称矩阵变量函数ffXX处Fréchet可微, 称GGff在Fréchet可微意义下的梯度.类似于向量情形,矩阵变量函数f(X)f(X)的梯度可以用其偏导数表示为

f(x)=[f(x)x11f(x)x12f(x)x1nf(x)x21f(x)x22f(x)x2n2f(x)xm1f(x)xm2f(x)xmn] \nabla f(x) = \begin{bmatrix} \frac{\partial f(x)}{\partial x_{11}} & \frac{\partial f(x)}{\partial x_{12}} & \cdots & \frac{\partial f(x)}{\partial x_{1n}} \\ \frac{\partial f(x)}{\partial x_{21}} & \frac{\partial f(x)}{\partial x_{22} } & \cdots & \frac{\partial f(x)}{\partial x_{2n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f(x)}{\partial x_{m1}} & \frac{\partial f(x)}{\partial x_{m2}} & \cdots & \frac{\partial f(x)}{\partial x_{mn}} \end{bmatrix}

其中f(x)xij\frac{\partial f(x)}{\partial x_{ij}}表示ff关于xijx_{ij}的偏导数.

在实际应用中,矩阵Fréchet可微的定义和使用往往比较繁琐,为此我们需要介绍另一种定义——Gâteaux可微.

Gâteaux可微定义

f(X)f (X)为矩阵变量函数,如果对任意方向VRm×nV \in \mathbb{R}^{m\times n},存在矩阵GRm×nG \in \mathbb{R}^{m\times n}满足

limt0f(X+tV)f(X)tG,Vt=0, \lim_{t \to 0} \frac {f(X+tV) - f(X) - t \langle G, V \rangle}{t} = 0,

则称ff关于XX是Gâteaux可微的.满足上式的GG称为ffXX处在Gâteaux 可微意义下的梯度.

可以证明,当ff是Fréchet可微函数时,ff也是Gâteaux可微的,且这两种意义下的梯度相等.

下面是三种经典的例子

线性函数

f(X)=tr(AXB)f(X) = tr(AX^\top B),其中ARp×n,BRm×p,XRm×nA \in \mathbb{R}^{p\times n}, B \in \mathbb{R}^{m\times p},X \in \mathbb{R}^{m\times n}对任意方向VRm×nV \in \mathbb{R}^{m\times n}以及tRt\in \mathbb{R},有

limt0f(X+tV)f(X)t=limt0tr(A(X+tV)B)tr(AXB)t=tr(AVB)=tr(VBA)=BA,V. \lim_{t\to 0}\frac{f(X+tV)-f(X)}{t} = \lim_{t\to 0} \frac{tr(A(X+tV)^\top B) - tr(AX^\top B)}{t} = tr(AV^\top B) = tr(V^\top BA) = \langle BA, V\rangle.

因此,f(x)=BA\nabla f(x) = BA.

二次函数

f(X,Y)=12XYAF2f(X,Y) = \frac{1}{2} || XY - A ||_F^2,其中(X,Y)Rm×p×Rp×n(X,Y)\in \mathbb{R}^{m\times p}\times \mathbb{R}^{p\times n}对变量YY,取任意方向VV以及充分小的tRt\in \mathbb{R},有

f(X,Y+tV)f(X,Y)=12X(Y+tV)AF212XYAF2=12tr{[X(Y+tV)A][X(Y+tV)A]}12tr[(XYA)(XYA)]=12tr[(XY+tXVA)(XY+tXVA)]12tr[(XYA)(XYA)]=12tr[(XY+tXVA)(XYA)]+12tr[(XY+tXVA)(tXV)]12tr[(XYA)(XYA)]=12tr[(XYA)(XY+tXVA)]+12tr[(tXV)(XY+tXVA)]12tr[(XYA)(XYA)]=12tr[(XYA)(XYA)]+12tr[(XYA)(tXV)]+12tr[(tXV)(XY+tXVA)]12tr[(XYA)(XYA)]=12tr[(XYA)(tXV)]+12tr[(tXV)(XYA)]+12tr[(tXV)(tXV)]=ttr[(XV)(XYA)]+t22tr[(XV)(XV)]=ttr[VX(XYA)]+t22XVF2=tV,X(XYA)+O(t2) \begin{aligned} f(X,Y+tV) - f(X,Y) &= \frac{1}{2}||X(Y+tV)-A||_F^2-\frac{1}{2}||XY-A||_F^2 \\ &= \frac{1}{2}tr\Big\{ [X(Y+tV)-A]^\top [X(Y+tV)-A] \Big\} - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY+tXV-A)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY+tXV-A)^\top (XY-A) \Big] + \frac{1}{2}tr\Big[(XY+tXV-A)^\top (tXV) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(XY+tXV-A) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(XY-A) \Big] + \frac{1}{2}tr\Big[(XY-A)^\top(tXV) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY+tXV-A) \Big] - \frac{1}{2}tr\Big[ (XY-A)^\top(XY-A) \Big] \\ &= \frac{1}{2}tr\Big[(XY-A)^\top(tXV) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (XY-A) \Big] + \frac{1}{2}tr\Big[(tXV)^\top (tXV) \Big] \\ &= t\cdot tr\Big[(XV)^\top(XY-A) \Big] + \frac{t^2}{2}tr\Big[(XV)^\top (XV) \Big] \\ &= t\cdot tr\Big[V^\top \cdot X^\top(XY-A) \Big] + \frac{t^2}{2}||XV||_F^2 \\ &=t\langle V,X^\top(XY-A) \rangle + \mathcal{O}(t^2) \end{aligned}

由定义知fY=X(XYA)\frac{\partial f}{\partial Y} = X^\top(XY-A).

对变量XX,同理可得fX=(XYA)Y\frac{\partial f}{\partial X} = (XY-A)Y^\top.

ln-det函数

f(X)=ln(det(X)),  XS++nf(X) = \ln(\det(X)), \; X\in \mathcal{S}_{++}^n,给定义X0X \succ 0,对任意方向VSnV \in \mathcal{S}^n以及tRt\in \mathbb{R},我们有

f(X+tV)f(X)=ln(det(X+tV))ln(det(X))=ln(det(X12(I+tX12VX12)X12))ln(det(X))=ln(det[X12(I+tX12VX12)X12]det(X))=ln(det(X12)det(I+tX12VX12)det(X12)det(X))=ln(det(X)det(I+tX12VX12)det(X))=ln(det(I+tX12VX12)) \begin{aligned} f(X+tV) - f(X) &= \ln(\det(X+tV)) - \ln(\det(X)) \\ &= \ln(\det(X^{\frac{1}{2}}(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) X^{\frac{1}{2}} )) - \ln(\det(X)) \\ &= \ln\Big( \frac{\det[ X^{\frac{1}{2}}(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) X^{\frac{1}{2}} ]}{\det(X)} \Big) \\ &= \ln\Big( \frac{\det (X^{\frac{1}{2}})\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) \det(X^{\frac{1}{2}}) }{\det(X)} \Big) \\ &= \ln\Big( \frac{\det (X)\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}) }{\det(X)} \Big) \\ &= \ln(\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}})) \\ \end{aligned}

由于X12VX12X^{-\frac{1}{2}}VX^{-\frac{1}{2}}是对称矩阵,所以他可以正交对角化,不妨设其特征值为λ1,λ2,,λn\lambda_1,\lambda_2,\dots,\lambda_n,则

ln(det(I+tX12VX12))=lni=1n(1+tλi)=i=1nln(1+tλi)=i=1ntλi+O(t2)=t(X1),V+O \begin{aligned} \ln(\det(I + tX^{-\frac{1}{2}}VX^{-\frac{1}{2}})) &= \ln\prod_{i=1}^{n}(1+t\lambda_i) \\ &= \sum_{i=1}^{n}\ln(1+t\lambda_i) \\ &= \sum_{i=1}^{n}t\lambda_i + \mathcal{O}(t^2) \\ &= t \Big\langle (X^{-1})^\top, V \Big\rangle + \mathcal{O} \end{aligned}

因此,我们可以根据Gâteaux可微定义得到结论f(X)=(X1)\nabla f(X)=(X^{-1})^\top.

注意,i=1nln(1+tλi)=i=1ntλi+O(t2)\sum_{i=1}^{n}\ln(1+t\lambda_i) = \sum_{i=1}^{n}t\lambda_i + \mathcal{O}(t^2)这里其实是应用了级数来计算的.

lnz=i=1n(1)i+11i(z1)i+O((z1)2)ln(1+x)=i=1n(1)i+1ixi+O(x2) \because \ln z = \sum_{i=1}^{n}(-1)^{i+1}\cdot\frac{1}{i}(z-1)^i + \mathcal{O}((z-1)^2) \\ \therefore \ln(1+x)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i}x^i + \mathcal{O}(x^2)

而上面那一步是用ln(1+x)=x+O(x2)\ln (1+x) = x + \mathcal{O}(x^2)来作和直接代换的.

计算中用到的定理及结论

tr(AB)=A,B=i=1nj=1naijbij tr(A^\top B) = \langle A,B \rangle = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}b_{ij}

易知

tr(AA)=A,A=i=1nj=1naij2=AF2 tr(A^\top A) = \langle A,A \rangle = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}^2 = ||A||_F^2

ln(1+x)\ln(1+x)的泰勒展开式:

ln(1+x)=i=1n(1)i+1ixi+O(x2) \ln(1+x)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i}x^i + \mathcal{O}(x^2)

ln(1+x)级数的证明

已知当x<1|x| < 1时,11+x=11(x)=n=0(x)n\frac{1}{1+x} = \frac{1}{1-(-x)}=\sum_{n=0}^{\infty}(-x)^n

而对于ln(1+x)\ln(1+x)求导得11+x\frac{1}{1+x},所以我们有:

ln(1+x)=11+xdx=11(x)dx=n=0(x)ndx=n=0(x)ndx=n=01n+1(x)n+1=n=11n(x)n \begin{aligned} \ln(1+x) &= \int\frac{1}{1+x}dx = \int\frac{1}{1-(-x)}dx \\ &= \int\sum_{n=0}^{\infty}(-x)^ndx = \sum_{n=0}^{\infty}\int(-x)^ndx \\ &= \sum_{n=0}^{\infty}-\frac{1}{n+1}(-x)^{n+1} \\ &= \sum_{n=1}^{\infty}-\frac{1}{n}(-x)^{n} \end{aligned}

我查阅了Wiki的资料,证明的思路不一样,也值得一看,下面贴出Wiki给的证明:

在Wiki上给出了这个级数的名字:墨卡托级数(或称牛顿-墨卡托级数).

我们有等比数列{(t)n1}\{(-t)^{n-1}\},可以得出:

1t+t2+(t)n1=1(t)n1+t11+t=1t+t2+(t)n1+(t)n1+t0xdt1+t=0x(1t+t2+(t)n1+(t)n1+t)dtln(1+x)=xx22+x33+(1)n1xnn+(1)n0xtn1+tdt \begin{aligned} &\qquad 1-t+t^{2}-\cdots +(-t)^{n-1}=\frac{1-(-t)^{n}}{1+t} \\ &\Leftrightarrow \frac {1}{1+t}=1-t+t^{2}-\cdots +(-t)^{n-1}+{\frac {(-t)^{n}}{1+t}} \\ &\Leftrightarrow \int _{0}^{x}{\frac {dt}{1+t}}=\int _{0}^{x}\left(1-t+t^{2}-\cdots +(-t)^{n-1}+{\frac {(-t)^{n}}{1+t}}\right)\,dt \\ &\Leftrightarrow \displaystyle \ln(1+x)=x-{\frac {x^{2}}{2}}+{\frac {x^{3}}{3}}-\cdots +(-1)^{n-1}{\frac {x^{n}}{n}}+(-1)^{n}\int _{0}^{x}{\frac {t^{n}}{1+t}}\,dt \end{aligned}

1<x1-1 < x \leq 1时余项(1)n0xtn1+tdt(-1)^{n}\int _{0}^{x}{\frac {t^{n}}{1+t}}\,dt会在nn \to \infty时趋近于00.

广义实值函数

定义

R:=R{±}\overline{\mathbb{R}} := \mathbb{R} \cup \{\pm\infty\}为广义实数空间,则映射f:RnRf:\mathbb{R}^n\to \overline{\mathbb{R}}称为广义实值函数.

和数学分析一样,我们规定

<a<+,  aR,(+)+(+)=+,(+)+a=+,  aR -\infty < a < +\infty, \; \forall a \in \mathbb{R}, \\ (+\infty) + (+\infty) = +\infty, \\ (+\infty) + a = +\infty, \; \forall a \in \mathbb{R}

适当函数

定义

给定广义实值函数ff和非空集合X\mathcal{X}.如果存在xXx \in \mathcal{X}使得f(x)<+f(x) < +\infty,并且对任意的xXx \in \mathcal{X},都有f(x)>f(x)>−\infty,那么称函数ff关于集合X\mathcal{X} 是适当的.

概括来说,适当函数ff的特点是“至少有一处取值不为正无穷”,以及“处处取值不为负无穷”.

下水平集

定义

对于广义实值函数f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}},

Cα={xf(x)α} C_\alpha = \{x | f (x) \leq α \}

称为ffα\alpha-下水平集.

上方图

定义

对于广义实值函数f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}},

epi  f={(x,t)Rn+1f(x)t} epi\; f= \{ (x, t) ∈ \mathbb{R}^{n+1} |f (x) \leq t\}

称为ff的上方图.

闭函数

定义

f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}}为广义实值函数,若epi  fepi \;f为闭集,则称ff为闭函数.

开集,闭集的概念

Wiki中文给出的定义看得有点迷,咱们还是看看英文的定义吧.

Open set : A subset UU of the Euclidean n-space RnR^n is open if, for every point xx in UU, there exists a positive real number ε\varepsilon (depending on xx) such that a point in RnR^n belongs to UU as soon as its Euclidean distance from xx is smaller than ε\varepsilon. Equivalently, a subset UU of RnR^n is open if every point in UU is the center of an open ball contained in UU.

Closed set : By definition, a subset AA of a topological space (X,τ)(X, \tau) is called closed if its complement XAX\setminus A is an open subset of (X,τ)(X, \tau); that is, if XAτX\setminus A\in \tau. XAτX\setminus A\in \tau. A set is closed in XX if and only if it is equal to its closure in XX. Equivalently, a set is closed if and only if it contains all of its limit points. Yet another equivalent definition is that a set is closed if and only if it contains all of its boundary points. Every subset AXA\subseteq X is always contained in its (topological) closure in XX, which is denoted by clXA\operatorname{cl}_{X}A; that is, if AXA\subseteq X then AclXAA\subseteq \operatorname {cl} _{X}A. Moreover, AA is a closed subset of XX if and only if A=clXAA=\operatorname {cl} _{X}A.

下半连续函数

定义

设广义实值函数f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}},若对xRn\forall x\in \mathbb{R}^n,有

limyxinff(y)f(x), \lim_{y\to x}\inf{f(y)} \geq f(x),

则称f(x)f(x)为下半连续函数.

上半连续函数

类似地,我们可以这样定义上半连续函数:

设广义实值函数f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}},若对xRn\forall x\in \mathbb{R}^n,有

limyxsupf(y)f(x), \lim_{y\to x}\sup{f(y)} \leq f(x),

则称f(x)f(x)为上半连续函数.

闭函数和下半连续函数的关系

虽然表面上看这两种函数的定义方式截然不同,但闭函数和下半连续函数是等价的.

定理

设广义实值函数f:RnRf : \mathbb{R}^n → \overline{\mathbb{R}},则以下命题等价:

  1. f(x)f(x)的任意α\alpha-下水平集都是闭集;
  2. f(x)f(x)是下半连续的;
  3. f(x)f(x)是闭函数.

闭(下半连续)函数间的简单运算会保持原有性质:

  1. 加法: 若ffgg均为适当的闭(下半连续)函数,并且domfdomg\mathrm{dom}\,f \cap \mathrm{dom}\,g \neq \varnothing,则f+gf + g也是闭(下半连续)函数.其中适当函数的条件是为了避免出现未定式()+(+)(−\infty)+(+\infty)的情况;
  2. 仿射映射的复合: 若ff为闭(下半连续)函数, 则f(Ax+b)f(Ax + b)也为闭(下半连续)函数;
  3. 取上确界: 若每一个函数fαf_α均为闭(下半连续)函数,则supαfα(x)\sup_\alpha f_\alpha(x)也为闭(下半连续)函数.

凸函数

定义

f:RnRf:\mathbb{R}^n \to \mathbb{R}为适当函数,如果domf\mathrm{dom}\,f是凸集,且

f(θx+(1θ)y)θf(x)+(1θ)f(y) f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y)

对所有x,ydomf,  0θ1x,y \in \mathrm{dom}\,f,\;0 \leq \theta \leq 1都成立,则称ff是凸函数.

ff是凸函数,则f-f是凹函数.

若对所有x,ydomf,xy,  0<θ<1x,y \in \mathrm{dom}\,f,\,x\neq y,\;0 < \theta < 1,有

f(θx+(1θ)y)<θf(x)+(1θ)f(y) f(\theta x + (1-\theta)y) < \theta f(x) + (1-\theta)f(y)

则称ff是严格凸函数.

一元凸函数和一元凹函数的例子

凸函数:

  1. 仿射函数: a,bR\forall a, b \in \mathbb{R}, ax+bax+bR\mathbb{R}上的凸函数.
  2. 指数函数: aR\forall a \in \mathbb{R},eaxe^{ax}R\mathbb{R}上的凸函数.
  3. 幂函数: α(,0][1,+)\forall \alpha \in (-\infty, 0] \cup [1, +\infty), xαx^\alphaR++\mathbb{R}_{++}上的凸函数.
  4. 绝对值的幂: p1\forall p \geq 1,xp|x|^pR\mathbb{R}上的凸函数.
  5. 负熵: xlogxx\log xR++\mathbb{R}_{++}上的凸函数.

凹函数:

  1. 仿射函数:对任意a,bRa, b \in \mathbb{R}, ax+bax+bR\mathbb{R}上的凹函数.
  2. 幂函数:α[0,1]\forall \alpha \in [0, 1], xαx^\alphaR++\mathbb{R}_{++}上的凹函数.
  3. 对数函数:logx\log xR++\mathbb{R}_{++}上的凹函数.

可以看出,所有的仿射函数既是凸函数,又是凹函数.所有的范数都是凸函数.这两个结论对多元函数同样成立.

多元凸函数的例子

欧氏空间Rn\mathbb{R}^n中的例子:

仿射函数: f(x)=ax+bf(x) = a^\top x + b

范数: xp=(i=1nxip)1p  (p1)||x||_p = (\sum_{i=1}^{n}|x_i|^p)^{\frac{1}{p}} \; (p \geq 1);特别地, x=maxkxk||x||_\infty = \max_k |x_k|

矩阵空间Rm×n\mathbb{R}^{m\times n}中的例子:

仿射函数:

f(X)=tr(AX)+b=i=1mj=1nAijXij+b f(X) = tr(A^\top X) + b = \sum_{i=1}^m\sum_{j=1}^nA_{ij}X_{ij} + b

谱范数:

f(X)=X2=σmax(X)=(λmax(XX))12 f(X) = ||X||_2 = \sigma_{\max}(X) = (\lambda_{\max}(X^\top X))^{\frac{1}{2}}

强凸函数

定义1

若存在常数m>0m > 0,使得

g(x)=f(x)m2x2 g(x) = f(x) - \frac{m}{2}||x||^2

为凸函数,则称f(x)f(x)为强凸函数,其中mm为强凸参数.为了方便,我们也称f(x)f(x)mm-强凸函数.

定义2

若存在常数m>0m > 0,使得 x,ydomf\forall x, y \in \mathrm{dom} \,f以及θ(0,1)\theta \in (0,1),有

f(θx+(1θ)y)θf(x)+(1θ)f(y)m2θ(1θ)xy2 f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y) - \frac{m}{2}\theta(1-\theta)||x - y||^2

则称f(x)f(x)为强凸函数,其中mm为强凸参数.

ff为强凸函数且存在最小值,则ff的最小值点唯一.

凸函数的判定定理

凸函数的一个最基本的判定方式是:先将其限制在任意直线上,然后判断对应的一维函数是否是凸的.

定理

f:RnRf: \mathbb{R}^n \to \mathbb{R}是凸函数,当且仅当对每个xdomf,vRnx \in \mathrm{dom}\,f ,v\in \mathbb{R}^n, 函数g:RRg: \mathbb{R} \to \mathbb{R},

g(t)=f(x+tv),domg={tx+tvdomf} g(t) = f(x+tv), \quad \mathrm{dom}\,g = \{ t | x + tv \in \mathrm{dom}\,f \}

是关于tt的凸函数.

: f(X)=logdetXf(X)=-\log \det X是凸函数,其中domf=S++n\mathrm{dom}\,f = \mathbb{S}_{++}^n. 任取X0X \succ 0以及方向VSnV \in \mathbb{S}^n,将ff限制在直线X+tVX+tV (tt满足X+tV0X+tV \succ 0)上, 那么

g(t)=logdet(X+tV)=logdetXlogdet(I+tX12VX12)=logdetXi=1nlog(1+tλi) \begin{aligned} g(t) = -\log \det (X + tV) &= -\log \det X - \log \det (I + tX^{ -\frac{1}{2} }VX^{ -\frac{1}{2} }) \\ &= -\log \det X - \sum_{i=1}^{n}\log(1 + t\lambda_i) \end{aligned}

其中λi\lambda_iX12VX12X^{ -\frac{1}{2} }VX^{ -\frac{1}{2} }的第ii个特征值.

对于每个X0X \succ 0以及方向VV, gg关于tt是凸的,因此ff是凸的.

证明

必要性:设f(x)f(x)是凸函数,要证g(t)=f(x+tv)g(t)=f(x+tv)是凸函数.先说明domg\mathrm{dom}\, g是凸集.

t1,t2domg\forall t_1, t_2 \in \mathrm{dom}\,g以及θ(0,1)\theta \in (0,1),

x+t1vdomf,x+t2vdomf x + t_1v \in \mathrm{dom}\,f,\,x+t_2v\in\mathrm{dom}\,f

domf\because \mathrm{dom}\,f是凸集,又有

θ(x+t1v)+(1θ)(x+t2v)=x+θt1v+(1θ)t2v=x+[θt1+(1θ)t2]v \begin{aligned} \theta(x + t_1v) + (1-\theta)(x + t_2v) &= x + \theta t_1v + (1-\theta)t_2v \\ &= x + [\theta t_1 + (1-\theta)t_2]v \end{aligned}

我们有推论:凸集的线性组合仍是凸集.故可知x+(θt1+(1θ)t2)vdomfx + (\theta t_1 + (1-\theta)t_2)v \in \mathrm{dom}\,f,

t1,t2domgg(t)=f(x+tv)x+(θt1+(1θ)t2)vdomf}θt1+(1θ)t2domgdomg是凸集. \left. \begin{aligned} t_1,t_2 \in \mathrm{dom}\,g \\ g(t) = f(x+tv)\\ x + (\theta t_1 + (1-\theta)t_2)v \in \mathrm{dom}\,f \end{aligned} \right\} \Rightarrow \theta t_1 + (1-\theta)t_2 \in \mathrm{dom}\,g \Rightarrow \mathrm{dom}\,g\text{是凸集}.

此外我们有

g(θt1+(1θ)t2)=f(x+(θt1+(1θ)t2)v)=f(θ(x+t1v)+(1θ)(x+t2v))θf(x+t1v)+(1θ)f(x+t2v)    (凸函数定义)=θg(t1)+(1θ)g(t2). \begin{aligned} g(\theta t_1 + (1-\theta)t_2) &= f(x + (\theta t_1 + (1-\theta)t_2)v) \\ &= f(\theta(x + t_1v) + (1-\theta)(x + t_2v)) \\ &\leq \theta f(x + t_1v) + (1-\theta)f(x + t_2v) \;\; (\text{凸函数定义}) \\ &= \theta g(t_1) + (1-\theta) g(t_2). \end{aligned}

结合以上两点可以得到函数g(t)g(t)是凸函数.


充分性:先说明domf\mathrm{dom}\,f是凸集.

θ[0,1],v=yx\forall \theta \in [0, 1],\, v = y - x,以及t1=0,t2=1t_1=0, t_2=1.则由domg\mathrm{dom}\,g是凸集可知θt1+(1θ)t2=θ0+(1θ)1domg\theta t_1 + (1-\theta)t_2 = \theta \cdot 0 + (1-\theta) \cdot 1 \in \mathrm{dom}\,g

x+t1v=x+0(yx)=xdomfx+t2v=x+1(yx)=ydomf \begin{aligned} \because x+t_1v &= x + 0 \cdot (y-x) = x \in \mathrm{dom}\,f \\ x+t_2v &= x + 1 \cdot (y-x) = y \in \mathrm{dom}\,f \end{aligned}

θ(x+t1v)+(1θ)(x+t2v)=θx+(1θ)ydomf  domf是凸集. \therefore \theta(x+t_1v) + (1-\theta)(x+t_2v) = \theta x + (1-\theta)y \in \mathrm{dom}\,f\;\text{即}\,\mathrm{dom}\,f\text{是凸集}.

再根据g(t)=f(x+tv)g(t)=f(x+tv)的凸性,我们有

g(1θ)=g(θt1+(1θ)t2)θg(t1)+(1θ)g(t2)=θg(0)+(1θ)g(1)=θf(x)+(1θ)f(y). \begin{aligned} g(1-\theta) &= g(\theta t_1 + (1-\theta)t_2) \\ &\leq \theta g(t_1) + (1-\theta)g(t_2) \\ &= \theta g(0) + (1-\theta)g(1) \\ &= \theta f(x) + (1-\theta)f(y). \end{aligned}

而又有

g(1θ)=f(x+(1θ)(yx))=f(θx+(1θ)y),f(θx+(1θ)y)θf(x)+(1θ)f(y) g(1-\theta) = f(x + (1-\theta)(y-x)) = f(\theta x + (1-\theta)y), \\ \therefore f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y)

这说明f(x)f(x)是凸函数.故原命题得证.

一阶条件

定理

对于定义在凸集上的可微函数ff, ff是凸函数当且仅当

f(y)f(x)+f(x)(yx)x,ydomf f(y) \geq f(x) + \nabla f(x)^\top (y-x) \quad \forall x, y \in \mathrm{dom}\,f

证明

必要性: 设ff是凸函数,则对于x,ydomf\forall x, y \in \mathrm{dom}\,f以及t(0,1)t \in (0,1),有

tf(y)+(1t)f(x)f(x+t(yx))tf(y)+f(x)tf(x)f(x+t(yx))f(y)f(x)f(x+t(yx))f(x)t \begin{aligned} &\qquad tf(y) + (1-t)f(x) \geq f(x+t(y-x)) \\ &\Rightarrow tf(y) + f(x) - tf(x) \geq f(x+t(y-x)) \\ &\Rightarrow f(y) - f(x) \geq \frac{f(x+t(y-x)) - f(x)}{t} \end{aligned}

t0t \to 0,由极限保号性可得

f(y)f(x)limt0f(x+t(yx))f(x)t=f(x)(yx) f(y) - f(x) \geq \lim_{t\to 0}\frac{f(x+t(y-x)) - f(x)}{t} = \nabla f(x)^\top (y-x)

这里最后一个等式成立是由于方向导数的性质:

如果函数ff在点x\mathbf {x}处可微,则沿着任意非零向量v\mathbf {v}的方向导数都存在。则有:

vf(x)=Dfx(v)=vf(x) \nabla_{\mathbf{v}}{f}(\mathbf{x})=\mathrm{D} f_{\mathbf {x} }(\mathbf{v})=\mathbf{v}\cdot\nabla f(\mathbf{x})

其中Dfx\mathrm{D}f_{\mathbf{x}}是函数ff在点x\mathbf{x}的全微分,为一线性映射;\nabla符号表示梯度算子,而“\cdot”表示Rn\mathbb{R}^n中的内积. (注:在这例子里,如果线性映射Dfx\mathrm{D}f_{\mathbf{x}}用矩阵表示且选用自然基底的话,Dfx=f(x)\mathrm {D}f_{\mathbf{x}}=\nabla f({\mathbf{x}})1×n1\times n的矩阵).


充分性: 对x,ydomf\forall x, y \in \mathrm{dom}\,f以及t(0,1)\forall t \in (0,1), 定义z=tx+(1t)yz = tx+(1-t)y, 应用两次一阶条件我们有

f(x)f(z)+f(z)(xz)(1)f(y)f(z)+f(z)(yz)(2) \begin{aligned} f(x) \geq f(z) + \nabla f(z)^\top (x-z)\qquad &\text{(1)}\\ f(y) \geq f(z) + \nabla f(z)^\top (y-z)\qquad &\text{(2)} \end{aligned}

(1)(1)乘上tt,(2)(2)乘上1t1-t,相加得

tf(x)+(1t)f(y)f(z)+tx+(1t)yz=f(z)=f(tx+(1t)y) tf(x) + (1-t)f(y) \geq f(z) + tx + (1-t)y - z = f(z) = f(tx+(1-t)y)

满足凸函数的定义,因此充分性成立.

梯度单调性

定义

ff为可微函数,则ff为凸函数当且仅当domf\mathrm{dom}\,f为凸集且f\nabla f为单调映射,

(f(x)f(y))(xy)0,x,ydomf (\nabla f(x) - \nabla f(y))^\top (x - y) \geq 0, \quad \forall x, y \in \mathrm{dom}\,f

证明

必要性: 若ff可微且为凸函数,根据一阶条件,我们有

f(x)f(x)+f(x)(yx)(1)f(y)f(y)+f(y)(xy)(2) \begin{aligned} f(x) \geq f(x) + \nabla f(x)^\top (y-x)\qquad &\text{(1)}\\ f(y) \geq f(y) + \nabla f(y)^\top (x-y)\qquad &\text{(2)} \end{aligned}

(1)+(2)(1) + (2)

f(x)+f(y)f(x)+f(y)+f(x)(yx)+f(y)(xy)0f(x)(yx)f(y)(yx)0(f(x)f(y))(yx)(f(x)f(y))(xy)0 \begin{aligned} f(x) + f(y) &\geq f(x) + f(y) + \nabla f(x)^\top (y-x) + \nabla f(y)^\top (x-y) \\ &\Rightarrow 0 \geq \nabla f(x)^\top (y-x) - \nabla f(y)^\top (y-x) \\ &\Rightarrow 0 \geq (\nabla f(x)^\top - \nabla f(y)^\top)(y-x) \\ &\Rightarrow (\nabla f(x) - \nabla f(y))^\top(x-y) \geq 0 \end{aligned}


充分性: 若f\nabla f为单调映射,构造一元辅助函数

g(t)=f(x+t(yx)),g(t)=f(x+t(yx))(yx) g(t) = f(x+t(y-x)), \quad g^\prime(t) = \nabla f(x+t(y-x))^\top(y-x)

f\nabla f的单调性可知g(t)g(0),  t0g^\prime(t) \geq g^\prime(0), \; \forall t \geq 0.因此

f(y)=g(1)=g(0)+01g(t)dtg(0)+g(0)=f(x)+f(x)(yx). f(y) = g(1) = g(0) + \int_0^1g^\prime(t) dt \geq g(0) + g^\prime(0) = f(x) + \nabla f(x)^\top(y-x).

上方图

定理

函数f(x)f(x)为凸函数当且仅当其上方图epi  fepi\; f是凸集.

证明

必要性: 若f(x)f(x)为凸函数,则对(x1,y1),(x2,y2)epi  f,t[0,1]\forall (x_1, y_1), (x_2, y_2) \in epi\; f, t \in [0,1],

ty1+(1t)y2tf(x1)+(1t)f(x2)f(tx1+(1t)x2)(tx1+(1t)x2,ty1+(1t)y2)epi  ff(tx1+(1t)x2)tf(x1)+(1t)f(x2) ty_1 + (1-t)y_2 \geq tf(x_1) + (1-t) f(x_2) \geq f(tx_1 + (1-t)x_2) \\ \therefore (tx_1+(1-t)x_2,ty_1 + (1-t)y_2) \in epi\;f\\ \Rightarrow f(tx_1+(1-t)x_2) \leq tf(x_1) + (1-t)f(x_2)


充分性: 若epi  fepi\;f是凸集,则对x1,x2domf,t[0,1]\forall x_1, x_2 \in \mathrm{dom}\,f , t \in [0,1],

(tx1+(1t)x2,tf(x1)+(1t)f(x2))epi  ff(tx1+(1t)x2)tf(x1)+(1t)f(x2) \begin{aligned} (tx_1+(1-t)x_2, tf(x_1)+(1-t)f(x_2)) \in epi\;f \\ \Rightarrow f(tx_1+(1-t)x_2) \leq tf(x_1) + (1-t)f(x_2) \end{aligned}

二阶条件

定理

ff为定义在凸集上的二阶连续可微函数

ff是凸函数当且仅当

2f(x)0,xdom  f \nabla^2f(x) \succeq 0, \forall x \in \mathrm{dom}\;f

如果2f(x)0,xdom  f\nabla^2f(x) \succ 0 , \forall x \in \mathrm{dom}\;f,则ff是严格凸函数.

:

二次函数f(x)=12xPx+qx+rf(x) = \frac{1}{2}x^\top Px + q^\top x + r,其中(PSn)(P \in \mathbb{S}^n)

f(x)=Px+q,2f(x)=P \nabla f(x) = Px + q, \qquad \nabla^2f(x) = P

ff是凸函数当且仅当P0P \succeq 0

证明

必要性: 反设f(x)f(x)在点xx处的海瑟矩阵2f(x)⪰̸0\nabla^2f(x)\not \succeq 0, 即存在非零向量vRnv \in \mathbb{R}^n使得v2f(x)v<0v^\top\nabla^2f(x)v < 0. 根据佩亚诺(Peano)余项的泰勒展开,

f(x+tv)=f(x)+tf(x)v+t22v2f(x)v+o(t2)f(x+tv)f(x)tf(x)vt2=12v2f(x)v+o(1) \begin{aligned} f(x + tv) = f(x) + t\nabla f(x)^\top v + \frac{t^2}{2}v^\top\nabla^2f(x)v + o(t^2) \\ \frac{f(x + tv) - f(x) - t\nabla f(x)^\top v}{t^2} = \frac{1}{2}v^\top\nabla^2f(x)v + o(1) \end{aligned}

tt充分小时,

f(x+tv)f(x)tf(x)vt2<0, \frac{f(x + tv) - f(x) - t\nabla f(x)^\top v}{t^2} < 0,

这显然和一阶条件矛盾,因此必有2f(x)0\nabla^2f(x) \succeq 0成立.


充分性: 设f(x)f(x)满足二阶条件2f(x)0\nabla^2f(x) \succeq 0,对x,ydom  f\forall x, y \in \mathrm{dom}\;f,根据泰勒展开,

f(y)=f(x)+f(x)(yx)+12(yx)2f(x+t(yx))(yx), f(y) = f(x) + \nabla f(x)^\top(y-x) + \frac{1}{2}(y-x)^\top \nabla^2f(x+t(y-x))(y-x),

其中t(0,1)t \in (0, 1)是和x,yx,y有关的常数. 由半正定性可知对x,ydom  f\forall x,y \in \mathrm{dom}\;f

f(y)f(x)+f(x)(yx). f(y) \geq f(x) + \nabla f(x)^\top(y-x).

由凸函数判定的一阶条件知ff为凸函数. 进一步, 若2f(x)>0\nabla^2f(x) > 0, 上式中不等号严格成立(xyx \neq y). 利用一阶条件的充分性的证明过程可得f(x)f(x)为严格凸函数.

x,ydom  f,t(0,1)\forall x, y \in \mathrm{dom}\;f,\forall t\in(0,1),设z=tx+(1t)ydom  fz = tx + (1-t)y \in \mathrm{dom}\;f,则

f(x)=f(z)+f(z)(xz)+12(xz)2f(z+t(xz))(xz)f(y)=f(z)+f(z)(yz)+12(yz)2f(z+t(yz))(yz) f(x) = f(z) + \nabla f(z)^\top(x-z) + \frac{1}{2}(x-z)^\top \nabla^2f(z+t(x-z))(x-z) \\ f(y) = f(z) + \nabla f(z)^\top(y-z) + \frac{1}{2}(y-z)^\top \nabla^2f(z+t(y-z))(y-z)

2f(x)>0{f(x)>f(z)+f(z)(xz)(1)f(y)>f(z)+f(z)(yz)(2) \because \nabla^2f(x) > 0 \\ \Rightarrow \begin{cases} f(x) > f(z) + \nabla f(z)^\top(x-z) & \text{(1)} \\ f(y) > f(z) + \nabla f(z)^\top(y-z) & \text{(2)} \end{cases}

t×(1)+(1t)×(2)t\times(1) + (1-t)\times(2)

tf(x)+(1t)f(y)>f(z)+f(z)[t(xz)+(1t)(yz)]=f(z)+f(z)[tx+(1t)yz]=f(tx+(1t)y) \begin{aligned} tf(x) + (1-t)f(y) &> f(z) + \nabla f(z)^\top [t(x-z) + (1-t)(y-z)] \\ &= f(z) + \nabla f(z)^\top [tx + (1-t)y - z] \\ &= f(tx + (1-t)y) \\ \end{aligned}

函数f是严格凸函数. \therefore\text{函数} f \text{是严格凸函数}.

二阶条件的应用

注意

该章节的前置知识包括矩阵论的矩阵求导部分.

最小二乘函数:

f(x)=Axb22f(x)=2A(Axb)2f(x)=2AA \begin{aligned} f(x) &= ||Ax-b||_2^2 \\ \nabla f(x) &= 2A^\top (Ax-b) \\ \nabla^2 f(x) &= 2A^\top A \end{aligned}

Quadratic-over-linear函数:

f(x,y)=x2y2f(x,y)=2y3[yx][yx]0是区域{(x,y)y>0}上的凸函数. \begin{aligned} f(x,y) &= \frac{x^2}{y} \\ \nabla^2 f(x, y) &= \frac{2}{y^3} \begin{bmatrix} y \\ -x \end{bmatrix}\begin{bmatrix} y \\ -x \end{bmatrix}^\top \succeq 0 \\ \text{是区域}\{ &(x,y) | y > 0 \}\text{上的凸函数}. \end{aligned}

Log-sum-exp函数:

f(x)=logk=1nexpxk  是凸函数.2f(x)=11zdiag(z)1(1z)2zz(zk=expxk) \begin{aligned} f(x) &= \log \sum_{k=1}^{n}\exp x_k \; \text{是凸函数}. \nabla^2f(x) &= \frac{1}{\mathbf{1}^\top z}\mathrm{diag}(z) - \frac{1}{(\mathbf{1}^\top z)^2}zz^\top \quad (z_k = \exp x_k) \end{aligned}

要证明2f(x)0\nabla^2f(x)\succeq 0,我们只需证明对v\forall v使得v2f(x)v0v^\top\nabla^2f(x)v \geq 0,即

v2f(x)v=(kzkvk2)(kzk)(kvkzk)2(kzk)20 v^\top\nabla^2f(x)v = \frac{ (\sum_k z_kv_k^2)(\sum_k z_k) - (\sum_k v_kz_k)^2 }{ (\sum_k z_k)^2 } \geq 0

由柯西不等式,得

(kvkzk)2(kzkvk2)(kzk) (\sum_k v_kz_k)^2 \leq (\sum_k z_kv_k^2)(\sum_k z_k)

因此ff是凸函数.

几何平均:

f(x)=(k=1nxk)1n(xR++n)是凹函数. f(x) = (\prod_{k=1}^{n}x_k)^\frac{1}{n} \quad (x \in \mathbb{R}_{++}^n) \text{是凹函数}.

Jensen不等式/琴生不等式

基础Jensen不等式:

ff是凸函数,则对于0θ10 \leq \theta \leq 1,有

f(θx+(1θ)y)θf(x)+(1θ)f(y) f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y)

概率Jensen不等式:

ff是凸函数,则对于任意随机变量zz,有

f(E[z])Ez[f(z)] f(\mathbb{E}[z]) \leq \mathbb{E}_z[f(z)]

基础Jensen不等式可以视为概率Jensen不等式在两点分布下的特殊情况

prob(z=x)=θ,prob(z=y)=1θ \mathrm{prob} (z=x) = \theta, \quad \mathrm{prob}(z=y) = 1- \theta

保凸的运算

验证一个函数是否为凸函数的方法

  1. 用定义验证(通常将函数限制在一条直线上)
  2. 利用一阶条件和二阶条件
  3. 直接研究ff的上方图epi  fepi\;f
  4. 说明ff可由简单的凸函数通过一些保凸的运算得到
    • 非负加权和
    • 与仿射函数的复合
    • 逐点取最大值
    • 与标量、向量函数的复合
    • 取下确界
    • 透视函数

非负加权和与仿射函数的复合

相关信息

非负数乘: 若ff是凸函数,则αf\alpha f是凸函数,其中α0\alpha\geq0.

求和: 若f1,f2f1,f2是凸函数,则f1+f2f1 + f2是凸函数.

与仿射函数的复合: 若ff是凸函数,则f(Ax+b)f(Ax + b)是凸函数.

:

线性不等式的对数障碍函数:

f(x)=i=1mlog(biaix),dom  f={xaix<bi,i=1,,m} f(x) = -\sum_{i=1}^{m}\log (b_i - a_i^\top x), \mathrm{dom}\;f = \{ x | a_i^\top x < b_i, \, i=1, \dots, m \}

仿射函数的(任意)范数: f(x)=Ax+bf(x)=||Ax+b||

逐点取最大值

相关信息

f1,,fmf_1, \dots , f_m是凸函数,则f(x)=max{f1(x),,fm(x)}f(x)=\max\{ f_1(x), \dots, f_m(x) \}是凸函数.

:

分段线性函数:

f(x)=maxi=1,,m(aix+bi)  是凸函数. f(x)=\max_{i=1,\dots,m}(a_i^\top x + b_i) \; \text{是凸函数.}

xRnx \in \mathbb{R}^n的前rr个最大分量之和:

f(x)=x[1]+x[2]++x[r]  是凸函数. f(x) = x_{[1]} + x_{[2]} + \cdots + x_{[r]} \; \text{是凸函数.}

其中x[i]x_{[i]}xx的从大到小排列的第ii个分量,

事实上,f(x)f(x)可以写成如下多个线性函数取最大值的形式:

f(x)=max{xi1+xi2++xir1i1<i2<<irn} f(x) = \max \{ x_{i_1} + x_{i_2} + \cdots + x_{i_r} | 1 \leq i_1 < i_2 < \cdots < i_r \leq n \}

逐点取上界

相关信息

若对每个yAy \in \mathcal{A},f(x,y)f(x,y)是关于xx的凸函数,则

g(x)=supyAf(x,y)  是凸函数. g(x) = \sup_{y\in \mathcal{A}}f(x,y) \; \text{是凸函数.}

:

集合CC的支撑函数:

SC(x)=supyCyx  是凸函数. S_C(x) = \sup_{y\in C}y^\top x \; \text{是凸函数.}

集合CC点到给定点xx的最远距离:

f(x)=supyCxy f(x) = \sup_{y\in C}||x-y||

对称矩阵XSnX\in \mathbb{S}^n的最大特征值:

λmax(X)=supy2=1yXy \lambda_{\max}(X) = \sup_{||y||_2=1}y^\top Xy

与标量函数的复合

相关信息

给定函数g:RnRg: \mathbb{R}^n \to \mathbb{R}h:RRh: \mathbb{R} \to \mathbb{R},

f(x)=h(g(x)) f(x) = h(g(x))

gg是凸函数,hh是凸函数,h^\hat{h}单调不减,那么ff是凸函数.

gg是凹函数,hh是凸函数,h^\hat{h}单调不增,那么ff是凸函数.

n=1n=1,g,hg,h均可微的情形,我们给出简证

f(x)=h(g(x))g(x)2+h(g(x))g(x) f^{\prime\prime}(x) = h^{\prime\prime}(g(x))g^\prime(x)^2 + h^\prime(g(x))g^{\prime\prime}(x)

注意: 必须是h^\hat{h}满足单调不减/不增的条件;如果仅是hh满足单调不减/不增的条件,存在反例.

推论:

  • 如果gg是凸函数,则expg(x)\exp g(x)是凸函数.
  • 如果gg是正值凹函数,则1g(x)\frac{1}{g(x)}是凸函数.

与向量函数的复合

相关信息

给定函数g:RnRg: \mathbb{R}^n \to \mathbb{R}h:RRh: \mathbb{R} \to \mathbb{R},

f(x)=h(g(x))=h(g1(x),g2(x),,gk(x)) f(x) = h(g(x)) = h(g_1(x), g_2(x), \dots, g_k(x))

gg是凸函数,hh是凸函数,h^\hat{h}关于每个分量单调不减,那么ff是凸函数.

gg是凹函数,hh是凸函数,h^\hat{h}关于每个分量单调不增,那么ff是凸函数.

n=1n=1,g,hg,h均可微的情形,我们给出简证

f(x)=g(x)2h(g(x))g(x)+h(g(x))g(x) f^{\prime\prime}(x) = g^\prime(x)^\top\nabla^2h(g(x))g^\prime(x) + \nabla h(g(x))^\top g^{\prime\prime}(x)

推论:

  • 如果gig_i是正值凹函数,则i=1mloggi(x)\sum_{i=1}^{m}\log g_i(x)是凹函数.
  • 如果gig_i是凸函数,则logi=1mexpgi(x)\log\sum_{i=1}^{m}\exp g_i(x)是凸函数.

取下确界

相关信息

f(x,y)f(x,y)关于(x,y)(x,y)征途是凸函数,CC是凸集,则

g(x)=infyCf(x,y)  是凸函数. g(x) = \inf_{y\in C}f(x,y) \; \text{是凸函数.}

:

  1. 考虑函数f(x,y)=xAx+2xBy+yCyf(x,y) = x^\top Ax + 2x^\top By + y^\top Cy,海瑟矩阵满足

    [ABBC]0,C0, \begin{bmatrix} A & B \\ B^\top & C \end{bmatrix} \succeq 0, \quad C \succ 0,

    f(x,y)f(x,y)为凸函数.对yy求最小值得

    g(x)=infyf(x,y)=x(ABC1B)x, g(x) = \inf_y f(x,y) = x^\top(A-BC^{-1}B^\top)x,

    因此gg是凸函数.进一步地,AA的Schur补ABC1B0A-BC^{-1}B^\top \succeq 0

  2. xx到凸集SS的距离dist(x,S)=infySxy\mathrm{dist}(x, S) = \inf_{y\in S}||x-y||是凸函数.

透视函数

相关信息

定义f:RnRf: \mathbb{R}^n \to \mathbb{R}的透视函数g:Rn×RRg: \mathbb{R}^n \times \mathbb{R} \to \mathbb{R},

g(x,t)=tf(xt),dom  g={(x,t)xtdom  f,t>0} g(x,t) = tf(\frac{x}{t}), \quad \mathrm{dom}\;g = \Big\{ (x,t) | \frac{x}{t} \in \mathrm{dom}\;f , t > 0 \Big\}

ff是凸函数,则gg是凸函数.

:

  1. f(x)=xxf(x) = x^\top x是凸函数,因此g(x,t)=xxtg(x,t) = \frac{x^\top x}{t}是区域{(x,t)t>0}\{ (x,t) | t > 0 \}上的凸函数.
  2. f(x)=logxf(x) = -\log x是凸函数,因此相对熵函数g(x,t)=tlogttlogxg(x, t) = t\log t - t\log xR++2\mathbb{R}^2_{++}上的凸函数
  3. ff是凸函数,那么

    g(x)=(cx+d)f(Ax+bcx+d) g(x) = (c^\top x + d)f(\frac{Ax+b}{c^\top x + d})

    是区域{xcx+d>0,Ax+bcx+ddom  f}\{ x | c^\top x + d > 0, \frac{Ax + b}{c^\top x + d} \in \mathrm{dom}\;f \}上的凸函数.

共轭函数

相关信息

适当函数ff的共轭函数定义为

f(y)=supxdom  f(yxf(x)) f^*(y) = \sup_{x \in \mathrm{dom}\;f}(y^\top x - f(x))

ff^*恒为凸函数,无论ff是否是凸函数.

:

  1. 负对数f(x)=logxf(x) = -\log x

    f(y)=supx>0(xy+logx)={1log(y)y<0Otherwise. f^*(y) = \sup_{x > 0}(xy + \log x) = \begin{cases} -1 - \log (-y) & y < 0 \\ \infty & \mathrm{Otherwise}. \end{cases}

  2. 强凸二次函数f(x)=12xQx,  QS++nf(x) = \frac{1}{2}x^\top Qx, \; Q\in\mathbb{S}^n_{++}

    f(y)=supx(yx12xQx)=12yQ1y \begin{aligned} f^*(y) &= \sup_x(y^\top x - \frac{1}{2}x^\top Qx) \\ &= \frac{1}{2}y^\top Q^{-1}y \end{aligned}

凸函数的推广

拟凸函数

相关信息

f:RnRf:\mathbb{R}^n\to \mathbb{R},如果dom  f\mathrm{dom}\;f是凸集,并且下水平集

Sα={xdom  ff(x)α} S_\alpha = \{ x \in \mathrm{dom}\;f | f(x) \leq \alpha \}

对任意α\alpha都是凸的

  • ff是拟凸的,则称f-f是拟凹的.
  • ff既是拟凸的,又是拟凹的,则称ff是拟线性的.

拟凸、凹函数的例子

相关信息

  1. x\sqrt{|x|}R\mathbb{R}上的拟凸函数.
  2. ceil(x)=inf{zZzx}\mathrm{ceil}(x) = \inf \{ z\in \mathbb{Z} | z \geq x \}是拟线性的.
  3. logx\log xR++\mathbb{R}_{++}上的拟线性函数.
  4. f(x1,x2)=x1x2f(x_1, x_2) = x_1x_2R++2\mathbb{R}_{++}^2上的拟凹函数.
  5. 分式线性函数

    f(x)=ax+bcx+d,  dom  f={xcx+d>0}  是拟线性的. f(x)=\frac{a^\top x+b}{c^\top x+d}, \; \mathrm{dom}\;f = \{ x | c^\top x + d > 0 \} \; \text{是拟线性的}.

  6. 距离比值函数

    f(x)=xa2xb2,  dom  f={x  xa2xb2}  是拟凸的. f(x)=\frac{||x-a||_2}{||x-b||_2}, \; \mathrm{dom}\;f = \{ x | \; ||x-a||_2 \leq ||x-b||_2 \} \; \text{是拟凸的}.

: 内部回报率(IRR)

现金流x=(x0,,xn);  xix = (x_0,\dots,x_n);\;x_iii时段支付的现金.

假定x0<0,x0+x1++xn>0x_0 < 0, \, x_0 + x_1 + \cdots + x_n > 0.

现值(Present Value)的表达式为

PV(x,r)=i=0n(1+r)ixi \mathrm{PV}(x,r) = \sum_{i=0}^{n}(1+r)^{-i}x_i

其中rr为利率.

内部回报率(IRR)是最小的使得PV(x,r)=0\mathrm{PV}(x,r) = 0的利率rr

IRR(x)=inf{r0PV(x,r)=0} \mathrm{IRR}(x) = \inf \{ r \geq 0 | \mathrm{PV}(x,r) = 0 \}

IRR是拟凹的,因为它的上水平集是开半空间的交

IRR(x)Ri=0n(1+r)ixi>0for  0r<R \mathrm{IRR}(x) \geq R \Leftrightarrow \sum_{i=0}^{n}(1+r)^{-i} x_i > 0 \quad \mathrm{for} \;0\leq r < R

拟凸函数的性质

类Jensen不等式:

对拟凸函数ff,

0θ1f(θx+(1θ)y)max{f(x),f(y)} 0\leq\theta\leq1 \Rightarrow f(\theta x + (1-\theta)y) \leq \max \{ f(x), f(y) \}

一阶条件:

定义在凸集上的可微函数ff是拟凸的,当且仅当

f(y)f(x)f(x)(yx)0 f(y)\leq f(x) \Rightarrow \nabla f(x)^\top(y-x) \leq 0

注: 拟凸函数的和不一定是拟凸函数.

对数凸函数

相关信息

如果正值函数ff满足logf\log f是凸函数,则ff称为对数凸函数,即

f(θx+(1θ)y)f(x)θf(y)1θfor  0θ1. f(\theta x + (1-\theta)y) \leq f(x)^\theta f(y)^{1-\theta} \quad \mathrm{for} \; 0\leq\theta\leq1.

如果logf\log f是凹函数,则ff称为对数凹函数.

幂函数: 当a0a\leq 0时,xax^{a}R++\mathbb{R}_{++}上的对数凸函数; 当a0a\geq 0,xax^aR++\mathbb{R}_{++}上的对数凹函数.

许多常见的概率密度函数是对数凹函数,例如正态分布

f(x)=1(2π)ndete12(xx)1(xx) f(x) = \frac{1}{ \sqrt{(2\pi)^n\det\sum} }e^{ -\frac{1}{2}(x-\overline{x})^\top\sum^{-1}(x-\overline{x}) }

高斯分布的累计分布函数Φ\Phi是对数凹函数.

Φ(x)=12πxe12u2du \Phi(x) = \frac{1}{ \sqrt{2\pi} }\int_{-\infty}^{x}e^{-\frac{1}{2}u^2}du

对数凸、凹函数的性质

相关信息

定义在凸集上的二阶可微函数ff是对数凹的,当且仅当

f(x)2f(x)f(x)f(x) f(x)\nabla^2f(x)\preceq\nabla f(x)\nabla f(x)^\top

对任意xdom  fx\in\mathrm{dom}\;f成立.

对数凹函数的乘积仍为对数凹函数.

对数凹函数的和不一定为对数凹函数.

f:Rn×RmRf:\mathbb{R}^n \times \mathbb{R}^m\to \mathbb{R}是对数凹函数,那么

g(x)=f(x,y)dy g(x)=\int f(x,y)dy

是对数凹函数.

对数凹函数的积分:

对数凹函数f,gf,g的卷积fgf*g是对数凹函数

(fg)(x)=f(xy)g(y)dy (f*g)(x)=\int f(x-y)g(y)dy

CRnC \subseteq \mathbb{R}^n是凸集,并且随机变量yy的概率密度函数是对数凹函数,则

f(x)=prob(x+yC)  是对数凹函数. f(x) = \mathrm{prob}(x+y \in C)\;\text{是对数凹函数}.

证明: f(x)f(x)可表示为两个对数凹函数乘积的积分

f(x)=g(x+y)p(y)dy,g(u)={1uC0u∉C f(x) = \int g(x+y)p(y)dy,\quad g(u) = \begin{cases} 1 & u\in C \\ 0 & u\not\in C \end{cases}

其中ppyy的概率密度函数.

: 生成函数

Y(x)=prob(x+wS) Y(x) = \mathrm{prob}(x+ w\in S)

  • xRnx\in\mathbb{R}^n: 产品的标称参数(Nominal Parameter).
  • wRnw\in\mathbb{R}^n: 制成品的参数是随机变量.
  • SS: 接受集.

SS是凸集,并且随机变量ww的概率密度函数是对数凹函数,则

  • YY是拟凹函数
  • 生成区域{xY(x)α}\{ x | Y(x) \geq \alpha \}是凸集.

广义不等式意义下的凸函数

相关信息

f:RnRmf:\mathbb{R}^n\to \mathbb{R}^m称为KK-凸函数: 如果dom  f\mathrm{dom}\;f是凸集,并且

f(θx+(1θ)y)Kθf(x)+(1θ)f(y) f(\theta x+(1-\theta)y) \preceq_K \theta f(x)+ (1-\theta)f(y)

x,ydom  f,0θ1\forall x,y \in \mathrm{dom}\;f,\,0\leq\theta\leq1成立

:

f:SmSm,f(X)=X2f:\mathbb{S}^m\to\mathbb{S}^m, f(X)=X^2S+m\mathbb{S}^m_{+}-凸函数

证明:

对固定的zRm,zX2z=Xz22z\in \mathbb{R}^m,\, z^\top X^2z=||Xz||_2^2关于XX是凸函数,即

z(θX+(1θ)Y)2zθzX2z+(1θ)zY2z z^\top (\theta X + (1-\theta)Y)^2z\leq \theta z^\top X^2z + (1-\theta)z^\top Y^2z

X,YSm,0θ1\forall X,Y \in \mathbb{S}^m,\, 0\leq\theta\leq1成立.

(θX+(1θ)Y)2θX2+(1θ)Y2 \therefore (\theta X + (1-\theta)Y)^2 \preceq \theta X^2 + (1-\theta)Y^2