基本不等式 f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) 扩展到多项也成立。 f(θ1x1+⋯+θkxk)≤θ1f(x1)+⋯+θkf(xk) , θ1+⋯+θk=1 一般形式: 事件 x∈domf 发生的概率为1,函数 f 是凸函数,当相应的期望存在时,有f(Ex)≤Ef(x)
注意,这里的保凸运算指凸函数的保凸运算,并不指凸集的保凸运算,要和上一章分开。 (1)非负加权求和 当 wi≥0,fi 是凸函数时, f=w1f1+⋯+wmfm 是凸函数。 当 fi 严格凸时, f 严格凸。 此性质可以扩展到积分。 如果固定y∈A,函数 f(x,y) 是关于 x 的凸函数。且对任意y∈A有 w(y)≥0 ,则函数 g(x)=∫Aw(y)f(x,y) dy 是关于 x 的凸函数。
(2)复合仿射映射
假设函数 f:Rn→R,A∈Rn×m,以及 b∈Rn ,定义 g:Rm→R 为 g(x)=f(Ax+b) 其中 domg={x∣Ax+b∈domf} 这样的话, f 与g的凹凸性一致。
(3)函数每点取最大
若 f1,f2 都是凸函数,则 f(x)=max{f1(x),f2(x)} 是凸函数。 这个性质还可以扩展到多个函数。 若 f1,⋯,fn 都是凸函数,则 f(x)=max{f1(x),⋯,fn(x)} 是凸函数。
举例: 最大 r 个分量和是凸函数。对于任意x∈Rn,用 x[i] 表示 x 中第i大的分量。则 f(x)=∑i=1rx[i] 是凸函数。 原因是 f(x) 还可以表示为: f(x)=max{xi1+⋯+xir∣1≤i1<i2<⋯<ir≤n} 即从 x 的分量中选取r个不同分量进行求和所有组合的最大值。函数可以看成 n!/(r!(n−r)!) 个线性函数取每点取最大,所以是凸函数。
逐点最大的性质可以扩展到无限个凸函数取上确界。 对于任意 y∈A ,函数 f(x,y) 关于 x 都是凸的,则函数g g(x)= supy∈Af(x,y) 也是凸的,此时函数的定义域为 dom g={x∣(x,y)∈dom f ∀y∈A,g(x)<∞}
(4)标量的复合:
标量的复合在直观上结论十分好理解。 对于 f(x)=h(g(x)) f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x) 这里,我们先假设这里写出来的导数都是存在的。 因为可以认为凸函数二阶导大于零,所以 h 凸g凸并且 h 非减,则f是凸函数。(剩下几条自己推吧,相信高中生知道导数定义都明白的) 如果函数不可导怎么办?这些直观的结论都依然成立,只是这时结论里的 h 要变成h~ 。 举几个例子: 如果 g 是凸函数则exp(g(x))也是凸函数 。 如果 g 是凹函数且大于零则1/g(x)是凸函数 。
(5)矢量的复合:
对于 f(x)=h(g1(x),⋯,gk(x)) 其中, h,g 都是矢量函数(即定义域在多维上,值域是一维) f′′(x)=g′(x)T▽2h(g(x))g′(x)+▽h(g(x))Tg′′(x) 此时,我们得到和上面标量复合类似的结论。同样, h 不可导时,结论中h要变成 h~ 。
矢量复合要注意的是,矢量复合可以组合多种情况的结论。比如下面结论同样是对的: 若 h 是凸函数且在h的非减分量上 gi 是凸函数,在 h 的非增分量上gi是凹函数,那么 f 是凸函数。
h(z)=log(∑i=1kezi)是凸函数且在每一维分量上非减,只要 gi 是凸函数,那么 h(gi) 就是凸函数。
(6)最小化
如果函数 f 是关于(x,y)是凸函数,集合 C 是非空凸集,定义函数: g(x)=infy∈Cf(x,y) 是凸函数。
举一个例子,定义点 x 到某一集合S的距离定义为: dist(x,S)=infy∈S∥x−y∥ 若 S 是凸集,那么距离函数dist(x,S)是凸函数。
(7)透视函数
定义函数: g(x,t)=tf(x/t) 定义域为: dom g={(x,t)∣x/t∈domf,t>0} 透视函数是保凸运算。 (一定注意要求 t>0 )
设函数 f:Rn→R ,定义函数 f∗:Rn→R 为 f∗(y)=supx∈dom f(yTx−f(x)) 此函数称为 f 的共轭函数。 (图片来自斯坦福Boyd Convex Optimization) 旋转直线xy, y 是斜率,得到的直线与f(x)在整个定义域上的最大差值就是 f∗(y) 。不出意外的话(如果 f(x) 可微),在满足 f′(x)=y 的点 x 处差值最大。
考虑一个简单的例子。
求f(x)=−log x的共轭函数。 对于函数 xy+log x 当 y≥0 时,此函数没有上界。 当 y<0 时,此函数在 x=−1/y 时取最大值。代入得: f∗(y)=−log (−y)−1
如果函数定义域内的所有下水平集都是凸集,则函数为拟凸函数。这个定义在理解了下水平集之后还是很好理解的。 拟凸函数在一些性质上很像凸函数一些性质的变形。 f(θx+(1−θ)y)≤max{f(x),f(y)} 这个性质称为拟凸函数的Jensen不等式。 拟凸函数也有相应的一阶条件。 拟凸函数的一阶条件: f(y)≤f(x)⇒∇f(x)T(y−x) 这是对应的描述拟凸函数的不等式。
函数为对数凹,对所有的 x∈domf 有 f(x)>0 且 logf 是凹函数。 我们也可以用类似定义凸函数的方法定义对数凹函数。 如果函数定义域是凸集,且在定义域上为正, 对 x,y∈domf ,0≤θ≤1 有 f(θx+(1−θ)y))≥f(x)θf(y)(1−θ) ,则称 f(x) 是对数凹函数。
关于对数凸函数,有几个性质比较重要。 1对数凸函数是凸函数,非负凹函数是对数凹函数。 2 对于对数凹函数, f(x)∇2f(x)⪯∇f(x)∇f(x)T 3 对数凸函数的和仍然是对数凸函数。 4 积分:积分可以理解成无数个函数的和。 所以有以下结论。 对于任意 y∈C , f(x,y) 是 x 的对数凸函数,则函数 g(x)=∫C f(x,y)dy是对数凸函数。这个用上面的求和的性质很好理解。
对数凹函数的积分也有积分性质。 如果函数 f:Rn×Rm→R 是对数凸函数,则 g(x)=∫f(x,y)dy 则此函数在 Rn 上是 x <script type="math/tex" id="MathJax-Element-2803">x</script>的对数凹函数。此条件和上面那个不一样,注意区分,此条件要求更严。