拉格朗日对偶性为我们提供了一条间接的解决带有约束的最优化问题。本篇博客将会简单易于理解的方式描述原始问题、对偶问题以及他们之间的关系。
假设 f(x) 、 ci(x) 、 hj(x) 是定义在 Rn 的连续可微函数,考虑如下约束最优化问题:
minx∈Rnf(x)s.t.ci(x)≤0,i=1,2,...,k,hj(x)=0,j=1,2,...,l.
该问题的拉格朗日函数表示为:
L(x,α,β)=f(x)+∑i=1kαici(x)+∑j=1lβjhj(x)(1)其中, αi≥0 令
θP(x)=maxα,β,α≥0L(x,α,β)(2) 注意: θP(x) 是关于 x 的函数 则有下式存在: θP(x)={f(x),x满足原始问题的所有约束 inf,其他 为什么会出现上式? 考虑如下两种情况: 1)不等式约束条件或者等式约束条件之一不满足,我们都可以找到一个 α 或者 β 使得 L(x,α,β) 取得最大值,例如, ci(x)>0 可以令对应的 αi 无穷大,以此达到 maxL(x,α,β) ,同理,当 hi(x)≠0 时,我们总可以找到符号相对应的 βi 使得拉格朗日函数趋于无穷。 2)当所有约束条件都满足时,只需令对应 ci(x)<0 的 αi=0 即可保证拉格朗日函数取得最大值为 f(x) 。 因此才会有上式的出现。这原问题等价于:
minxθP(x)=minxmaxα,β,α≥0L(x,α,β)(3) 式(3)称为拉格朗日函数的极小极大问题,设该问题的最小值为 p∗ 最优解为 x∗ 则: p∗=minxθP(x)=θP(x∗)(4) 到这里,原始问题就暂时先告一段落。根据式(1),我们可定义如下公式:
θD(α,β)=minxL(x,α,β)(5) 注意:这里的 θD(α,β) 是关于 α,β 的函数则原问题的对偶问题描述如下所示:
maxα,βθD(α,β)=maxα,βminxL(x,α,β)s.t.αi(x)≥0,i=1,2,...,k, 定义对偶问题的最值为 d∗ 对应的最优解为 α∗,β∗ 则下式存在: d∗=maxα,βθD(α,β)=θD(α∗,β∗)(6) 拉格朗日对偶性是先求 minxL(x,α,β) 以此得出 θD(α,β) 以及 x 关于α,β的函数 x(α,β) ,再求 maxα,βθD(α,β) 得出 α∗,β∗ 之后再求 x∗(α∗,β∗) .我们知道对于任意的 α,β,x 有如下不等式存在:
minxL(x,α,β)≤L(x,α,β)≤maxα,β,α≥0L(x,α,β)(7) 即: θD(α,β)=minxL(x,α,β)≤maxα,β,α≥0L(x,α,β)=θP(x)(8) 原问题可通过其拉格朗函数的极小极大问题来求解,即: minxθP(x)(9) 考虑到求一个式子的最小值,可以通过找到其存在的下界来得到,由式(8)可知,式(9)的下界为: maxα,βθD(α,β)≤minxθP(x)(10) 也就是说,我们找到了使 maxα,βθD(α,β) 成立的 α∗,β∗ 进而就 可能找到了 minxθP(x) 的极值 p∗=d∗ 及其对应的最优解 x∗ 。 什么时候会 确定通过对偶问题找出了原问题的极值与最优解呢?在此需要两个定理:定理1:假设函数 f(x) 和 ci(x) 都是凸函数, hj(x) 是仿射函数(仿射函数是一阶多项式,可以想象一下线性函数,即只含有x的一次函数)并假设不等式 ci(x) 是严格可行的,即 ci(x)<0,for∀x ,则存在 α∗,β∗,x∗ ,使得 x∗ 是原问题的解, α∗,β∗ 是对偶问题的解,且
p∗=d∗=L(x∗,α∗,β∗) -定理2:假设函数 f(x) 和 ci(x) 都是凸函数, hj(x) 是仿射函数(仿射函数是一阶多项式,可以想象一下线性函数,即只含有x的一次函数)并假设不等式 ci(x) 是严格可行的,即 ci(x)<0,for∀x ,则存在 α∗,β∗,x∗ ,则 x∗ 和 α∗,β∗ 是原问题和偶问题解的充分必要条件是, α∗,β∗,x∗ 满足下边的 Karush−Kuhn−Tucker(KKT) :
∇xL(x∗,α∗,β∗)=0∇αL(x∗,α∗,β∗)=0∇βL(x∗,α∗,β∗)=0α∗ici(x∗)=0,i=1,2,...,kci(x∗)≤0,i=1,2,...,kα∗i≥0,i=1,2,...,khj(x∗)=0,j=1,2,...,l所以,如果对偶问题求出的 x∗,α∗,β∗ 满足上述条件后, x∗ 即为原问题的最优解。
4 参考文献 统计学习方法—-李航