SLAM学习——非线性优化

xiaoxiao2021-02-28  95

1.状态估计问题

对于SLAM经典模型,我们知道是由一个运动方程和一个观测方程构成,如下方程:

{ x k = f ( x k − 1 , u k ) + w k z k , j = f ( y j , x k ) + v k , j \left\{\begin{matrix} \mathit{x}_{k}=f(\mathit{x}_{k-1},\mathit{u}_{k})+\mathit{w}_{k} \\ {z}_{k,j}=f(\mathit{y}_{j},\mathit{x}_{k})+\mathit{v}_{k,j} \end{matrix}\right. {xk=f(xk1,uk)+wkzk,j=f(yj,xk)+vk,j

其中 x k \mathit{x}_{k} xk为相机的位姿, u u u 为输入数据,即为采集到的数据。

假如我们在 x k \mathit{x}_{k} xk 处观测到路标 y j \mathit{y}_{j} yj,对应到图像上的像素位置 z k , j \mathit{z}_{k,j} zk,j,那么我们的观测方程可以表示为:

s z k , i = K ∗ e x p ( ε ∧ ) ∗ y i sz_{k,i}=\mathit{K}*exp(\varepsilon^{\wedge })*y_{i} szk,i=Kexp(ε)yi

其中 s s s为像素距离,即摄像机坐标系上的一点到像素坐标系的距离, K K K为内参, e x p ( ε ∧ ) exp(\varepsilon^{\wedge }) exp(ε) 为李代数 s e ( 3 ) se(3) se(3)。接着,在运动方程和观测方程中,我们假设噪声都满足于均值为0的高斯分布:

w k ∼ N ( 0 , R k ) , v k ∼ N ( 0 , Q k , j ) \mathit{w}_{k}\sim N(0,\mathit{{R}_{k}}),\mathit{v}_{k}\sim N(0,\mathit{{Q}_{k,j}}) wkN(0,Rk),vkN(0,Qk,j)

在这些噪声的影响下,我们希望通过带噪声的数据 z z z u u u来推断位姿 x x x 和地图 y y y (以及他们的概率分布),这构成了一个状态问题,其中有优化方法有:1.扩展卡尔曼滤波器( E K F EKF EKF)求解,关心的是当前时刻的状态估计,而对直接的状态没有多加考虑。2.非线性优化,使用所有时刻采集到的数据进行状态估计,被认为优于传统滤波器。

从概率学角度来看,把所有需要估计的变量都放到一个“状态变量中”,即 $\mathit{x}=\begin{Bmatrix} {x_{1},\cdots ,x_{N},y_{1},\cdots ,y_{M}}\end{Bmatrix} , 在 已 知 输 入 数 据 ,在已知输入数据 ,u 和 观 测 数 据 和观测数据 z$的条件下,求计算 x x x 的条件概率分布: P ( x ∣ z , u ) P(x|z,u) P(xz,u)

当然,如果在运动过程中没有采集数据,且只有一张张图片时,概率分布又可以转换为 P ( x ∣ z ) P(x|z) P(xz)。**如果忽略图像在时间上的联系,看做一堆彼此没有关系的图片,该问题为SfM,即如何从许多图像中重建三维空间结构。**当我们把SLAM看做图像具有时间先后顺序,需要实时求解一个SfM问题。利用贝叶斯法则,有:

P ( x ∣ z ) = P ( z ∣ x ) P ( x ) P ( z ) ∝ P ( z ∣ x ) P ( x ) P(x|z)=\frac{P(z|x)P(x)}{P(z)}\propto P(z|x)P(x) P(xz)=P(z)P(zx)P(x)P(zx)P(x)

其中,贝叶斯法则左侧通常成为后验概率,右侧的 P ( z ∣ x ) P(z|x) P(zx)成为似然,另一部分P(x)称为先验。直接求后验是困难的,但是求一个状态最优估计,使得在该状态下后验概率最大化,则是可行的。即最大后验概率为最大似然与先验的乘积。

如果当不知道机器人在哪里,那我们则没有了先验,可以求解 x 的最大似然估计( M L E MLE MLE):

x M L E ∗ = a r g m a x P ( z ∣ x ) x^{*}_{MLE}=\mathrm{arg} max P(z|x) xMLE=argmaxP(zx)

上述公式可表达为:在什么样的状态下,最可能产生现在观测到的数据。

为转换为最小二乘问题,我们可以得到最大似然估计等价于最小化噪声项的平方(在范数意义下),我们定义数据与估计值之间的误差:

{ e v , k = x k − f ( x k − 1 , u k ) e y , j , k = z k , j − h ( x k , y j ) \left\{\begin{matrix} e_{v,k}=x_{k}-f(x_{k-1},u_{k})\\ e_{y,j,k}=z_{k,j}-h(x_{k},y_{j}) \end{matrix}\right. {ev,k=xkf(xk1,uk)ey,j,k=zk,jh(xk,yj)

并求该误差的平方和:

J ( x ) = ∑ k e v , k T R k − 1 e v , k + ∑ k ∑ j e y , k , j T Q k , j − 1 e y , k , j J(x)=\sum_{k}e_{v,k}^{T}R_{k}^{-1}e_{v,k}+\sum_{k}\sum_{j}e_{y,k,j}^{T}Q_{k,j}^{-1}e_{y,k,j} J(x)=kev,kTRk1ev,k+kjey,k,jTQk,j1ey,k,j

以上公式为整体意义上的最小二乘法,它的最优解等价于状态的最大似然估计。当我们把估计的轨迹与地图代入SLAM的运动、观测方程时,并不会很完美。这时候我们对状态进行微调,使得整体的误差下降,这是一个非线性优化问题。

SLAM中的最小二乘问题具有一些特定的结构: 1.整个问题的目标函数由许多个误差的(加权的)平方和组成。虽然总体的状态变量维数很高,但每个误差项都是简单的,仅与一俩个状态变量有关,运动误差只与 x k − 1 , x k x_{k-1},x_{k} xk1,xk有关,观测误差只与 x k , y j x_{k},y_{j} xk,yj有关。 2.如果使用李代数表示,那么该问题转换成无约束最小二乘问题。 3.使用二范数度量误差,相当于欧式空间中距离的平方。

2.非线性最小二乘##

举个最简单的最小二乘问题: x m i n 1 2 ∥ f ( x ) ∥ 2 2 \underset{x}{}{min}\frac{1}{2}\left \| f(x) \right \|^{2}_{2} xmin21f(x)22(这里应该是二范数),为求其最小值,则需要求其导数,然后得到其求解 $ x $的最优解。对于不方便求解的最小二乘问题。

非线性最小二乘:最小二乘法(又称最小平方法)通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

例如SLAM问题,我们具体步骤有:

1.给定某个初始值。 2.对于第k次迭代,寻找增量 Δ x k \Delta x_{k} Δxk, 使得 ∥ f ( x k + Δ x k ) ∥ 2 2 \left \| f(x_{k}+\Delta x_{k}) \right \|^{2}_{2} f(xk+Δxk)22(这里应该是二范数)达到最小。 3.若 Δ x k \Delta x_{k} Δxk足够小,则停止。 4.否则,令 x k + 1 = x k + Δ x k x_{k+1}=x_{k}+\Delta x_{k} xk+1=xk+Δxk,返回第2步。

但是,如何求这个增量 Δ x k \Delta x_{k} Δxk呢 ???

求解增量最直观的方式是将目标函数在 x 附近进行泰勒展开,得到:

∥ f ( x + Δ x ) ∥ 2 2 ≈ ∥ f ( x ) ∥ 2 2 + J ( x ) Δ x + 1 2 Δ x T H Δ x \left \| f(x+\Delta x) \right \|^{2}_{2}\approx \left \| f(x) \right \|^{2}_{2}+J(x)\Delta x+\frac{1}{2}\Delta x^{T}H\Delta x f(x+Δx)22f(x)22+J(x)Δx+21ΔxTHΔx(这里应该是二范数的平方)

我们可以保留泰勒展开一届或者二阶项,对应的求解方法为一阶梯度或二阶梯度法。

如果保留一阶梯度,那么增量的解就为 − J T ( x ) -J^{T}(x) JT(x), 则沿着反方向梯度方向前进即可。称为最速下降法,但是由于过于贪心,容易走锯齿路线,增加迭代次数。如果保留二阶梯度,即为牛顿法,那么增量的解为 H Δ x = − J T \mathbf{H}\Delta x=-J^{T} HΔx=JT,但是需要计算 H H H矩阵(海塞矩阵),尽量避免。

补充一些范数的知识:

1-范数: ∣ ∣ x ∣ ∣ 1 = ∑ i = 1 N ∣ x i ∣ ||x||_{1}=\sum_{i=1}^{N}\left | x_{i} \right | x1=i=1Nxi,即向量元素绝对值之和。

2-范数: ∣ ∣ x ∣ ∣ 2 = ∑ i = 1 N x i 2 ||x||_{2}=\sqrt{\sum_{i=1}^{N} x_{i}^{2}} x2=i=1Nxi2 ,代表向量元素绝对值的平方和再开方。

p-范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 N ∣ x i ∣ p ) 1 / p ||x||_{p}=\begin{pmatrix}\sum_{i=1}^{N} \left | x_{i} \right |^{p}\end{pmatrix}^{1/p} xp=(i=1Nxip)1/p,向量元素绝对值的p次方和的p次幂。

2.1高斯牛顿法##

高斯牛顿法,它的思想是将f(x)进行泰勒展开(目标函数不是f(x)):

f ( x + Δ x ) ≈ f ( x ) + J ( x ) Δ x f(x+\Delta x)\approx f(x)+J(x)\Delta x f(x+Δx)f(x)+J(x)Δx

其中 J ( x ) J(x) J(x) f ( x ) f(x) f(x)关于x的导数,根据前面的框架,需要求得下降矢量 Δ x \Delta x Δx,使得 ∣ ∣ f ( x + Δ x ) ∣ ∣ 2 ||f(x+\Delta x)||^{2} f(x+Δx)2达到最小。其中,将 Δ x \Delta x Δx看做变量,那么我们会有一个线性的最小二乘问题:

在这里,我们将目标函数对 Δ x \Delta x Δx进行求导,最后得到线性方程有: J ( x ) T J ( x ) Δ x = − J ( x ) T f ( x ) J(x)^{T}J(x)\Delta x=-J(x)^{T}f(x) J(x)TJ(x)Δx=J(x)Tf(x)

这个方程称之为增量方程,也称之为高斯牛顿方程,将左边的系数设为 H H H右边的系数设为 g g g,则有 H H H Δ x \Delta x Δx= g g g。求解增量方程是整个优化问题的核心所在。

高斯牛顿法求解的算法步骤可写成:

1.给定初始值 x 0 x_{0} x0 2.对于第k次迭代,求出当前的雅克比矩阵 J ( x k ) J(x_{k}) J(xk) 和误差 f ( x k ) f(x_{k}) f(xk)。 3.求解增量方程: H Δ x k = g H \Delta x_{k}=g HΔxk=g 4.若 Δ x k \Delta x_{k} Δxk足够小,则停止。否则,令 x k + 1 = x k + Δ x k x_{k+1}=x_{k}+\Delta x_{k} xk+1=xk+Δxk返回第二步

高斯牛顿法的缺点:

1.要求 H H H是可逆的,而且是正定的,如果出现 H H H矩阵奇异或者病态,此时增量的稳定性较差,导致算法不收敛 2.步长问题,若求出来的 Δ x k \Delta x_{k} Δxk太长,则可能出现局部近似不够准确,无法保证迭代收敛

矩阵的小知识:

1.行列式=0,为奇异矩阵,反之为非奇异矩阵 2.可逆矩阵为非奇异矩阵(满秩),非奇异矩阵也为可逆矩阵 3. A X = 0 AX=0 AX=0,若A为奇异阵,有无穷解; A A A为非奇异阵, A X = 0 AX=0 AX=0有唯一解且 A X = b AX=b AX=b有唯一解 4.M为实对称矩阵,若有 X T M X > 0 X^{T}MX>0 XTMX>0,矩阵正定,若 X T M X > = 0 X^{T}MX>=0 XTMX>=0,矩阵半正定

**有改进的方法:**一维搜索方法,增加一个标量 a a a,寻求 Δ x k \Delta x_{k} Δxk,然后使得 ∣ ∣ f ( x + α Δ x ) ∣ ∣ 2 ||f(x+\alpha \Delta x)||^{2} f(x+αΔx)2最小。

2.2列文伯格-马夸尔特方法(阻尼牛顿法)##

在高斯牛顿法的基础上给 Δ x \Delta x Δx添加一个信赖区域,如果在这个信赖区域里面,那么认为近似是有效的,该信赖区域为:

p = f ( x + Δ x ) − f ( x ) J ( x ) Δ x p=\frac{f(x+\Delta x)-f(x)}{J(x)\Delta x} p=J(x)Δxf(x+Δx)f(x)(分母为方向乘步长)

p p p的分子是实际函数下降的值,分母是近似模型下降的值,若 p = 1 p=1 p=1,那么最好,若p太小,则实际减少值远少于近似减小的值,缩小近似范围。若 p p p太大,则实际减少值远大于近似减小的值,放大近似范围。

列文伯格-马夸尔特方法的算法步骤可写成:

1.给定初始值 x 0 x_{0} x0,以及优化半径 u u u 2.对于第k次迭代,求解:

Δ x ∗ = a r g m i n Δ x 1 2 ∣ ∣ f ( x ) + J ( x ) Δ x ∣ ∣ 2 \Delta x^{*}=\mathit{arg}\underset{\Delta x}{ min}\frac{1}{2}||f(x)+J(x)\Delta x||^{2} Δx=argΔxmin21f(x)+J(x)Δx2,s.t. ∣ ∣ D Δ x k ∣ ∣ 2 ≤ u ||D\Delta x_{k}||^{2}\leq u DΔxk2u

这里u是信赖区域的半径,D在后面讲 3.计算 p p p 4.若 p > 3 / 4 p>3/4 p>3/4,则 u = 2 u u=2u u=2u 5.若 p < 1 / 4 p<1/4 p<1/4,则 u = 0.5 u u=0.5u u=0.5u 6.若 p p p大于某阈值,则认为可行。令 x k + 1 = x k + Δ x k x_{k+1}=x_{k}+\Delta x_{k} xk+1=xk+Δxk。 7.判断是否收敛,如不收敛返回第2步,否则结束。

这里近似范围扩大的倍数和阈值都是经验值,可以替换成其他数值。上述约束中相当于把增量限定在半径为u的球里面,认为在球内的才有效。带上 D D D后成为椭圆,至于 D D D的形式,可为单位阵也可为对角非负数对角阵。

在上述求解中,由于是有约束优化,可以利用拉格朗日乘子将其转化为一个无约束优化问题:

$ m i n Δ x k 1 2 ∣ ∣ f ( x k ) + J ( x k Δ x k ) ∣ ∣ 2 + λ 2 ∣ ∣ D Δ x ∣ ∣ 2 \underset{\Delta x_{k}}{min}\frac{1}{2}||f(x_{k})+J(x_{k}\Delta x_{k})||^{2}+\frac{\lambda }{2}||D\Delta x||^{2} Δxkmin21f(xk)+J(xkΔxk)2+2λDΔx2 (其中 λ \lambda λ为拉格朗日乘子)

对无约束问题展开之后,得到:

( H + λ D T D ) Δ x = g (H+\lambda D^{T}D)\Delta x = g (H+λDTD)Δx=g

其中 λ \lambda λ又称为阻尼因子,当参数 λ \lambda λ较小时,H占主导地位,说明二次近似模型在该范围内是比较好的,该方法接近于高斯牛顿法。当参数 λ \lambda λ较大时, λ \lambda λ所在项接近于一阶梯度下降法。该方法可在一定程度上避免线性方程组的系数矩阵的非奇异和病态问题。

实际上,常令 D = I D=I D=I,又 g = − J T f g=-J^{T}f g=JTf H = J T J H=J^{T}J H=JTJ,故方程整理得: ( J T J + λ I ) Δ x l m = − J T f (J^{T}J+\lambda I) \Delta x_{lm}= -J^{T}f (JTJ+λI)Δxlm=JTf 阻尼因子的作用: λ > 0 \lambda > 0 λ>0保证 ( J T J + λ I ) (J^{T}J+\lambda I) (JTJ+λI)正定,迭代朝着下降方向进行。 阻尼因子的初始化: λ 0 = τ   m a x { ( J T J ) i j } \lambda_{0} = \tau \ max \begin{Bmatrix} (J^{T}J)_{ij} \end{Bmatrix} λ0=τ max{(JTJ)ij}, 按需设定 τ ∈ [ 1 0 − 8 , 1 ] \tau \in [10^{-8}, 1] τ[108,1]。 阻尼因子 μ \mu μ的更新策略:

如果 Δ x → F ( x ) ↑ \Delta x \rightarrow F(x) \uparrow ΔxF(x),则 λ ↑ → Δ x ↓ \lambda \uparrow \rightarrow \Delta x \downarrow λΔx,增大阻尼减小步长,拒绝本次迭代。如果 Δ x → F ( x ) ↓ \Delta x \rightarrow F(x) \downarrow ΔxF(x),则 λ ↓ → Δ x ↑ \lambda \downarrow \rightarrow \Delta x \uparrow λΔx,减小阻尼增加步长,减少迭代次数。

Δ x \Delta x Δx和阻尼因子 μ \mu μ的关系: 阻尼因子的更新由比例因子来确定: ρ = F ( x ) − F ( x + Δ x l m ) L ( 0 ) − L ( Δ x l m ) = 实 际 下 降 近 似 下 降 \rho = \frac{F(x) - F(x+\Delta x_{lm})}{L(0) - L(\Delta x_{lm})} = \frac{{实际下降}}{近似下降} ρ=L(0)L(Δxlm)F(x)F(x+Δxlm)= 其中 L ( 0 ) − L ( Δ x l m ) = − Δ x l m T J T f − 1 2 Δ x l m T J T J Δ x = − 1 2 Δ x l m T ( 2 J T f + ( J T J + λ I − λ I ) Δ x l m ) = − 1 2 Δ x l m T ( J T f − λ I Δ x l m ) = 1 2 Δ x l m T ( λ Δ x l m − J T f ) L(0)-L(\Delta x_{lm}) = - \Delta x_{lm}^{T} J^{T} f - \frac{1}{2} \Delta x_{lm}^{T}J^{T}J\Delta x \\ =-\frac{1}{2} \Delta x_{lm}^{T} (2 J^{T}f + (J^{T}J+\lambda I - \lambda I) \Delta x_{lm}) \\ = -\frac{1}{2} \Delta x_{lm}^{T} ( J^{T}f - \lambda I\Delta x_{lm}) \\ = \frac{1}{2} \Delta x_{lm}^{T}(\lambda \Delta x_{lm} - J^{T}f) L(0)L(Δxlm)=ΔxlmTJTf21ΔxlmTJTJΔx=21ΔxlmT(2JTf+(JTJ+λIλI)Δxlm)=21ΔxlmT(JTfλIΔxlm)=21ΔxlmT(λΔxlmJTf) 首先比例因子分母始终大于 0 0 0,因为是沿负梯度方向进行的 Δ x l m \Delta x_{lm} Δxlm的调整,故 L ( 0 ) > L ( Δ x l m ) L(0) > L(\Delta x_{lm}) L(0)>L(Δxlm),如果:

ρ < 0 \rho<0 ρ<0,则 F ( x ) ↑ F(x) \uparrow F(x),应该 μ ↑ → Δ x ↓ \mu \uparrow \rightarrow \Delta x \downarrow μΔx,增大阻尼减小步长。如果 ρ > 0 \rho>0 ρ>0且比较大,减小 λ \lambda λ,让LM接近Gauss-Newton使得系统更快收敛。反之,如果是比较小的正数,则增大阻尼 λ \lambda λ,缩小迭代步长。

最后,对于常见的非线性优化,可以通过 ceres 和 g2o 库进行求解。

转载请注明原文地址: https://www.6miu.com/read-45964.html

最新回复(0)