第十章　位姿与点联合估计

Chapter 10 Pose-and-Point Estimation

10.1 束调整 / Bundle Adjustment

10.1.1 问题描述 / Problem Setup

中文

束调整（Bundle Adjustment, BA） 是计算机视觉与机器人中最重要的非线性最小二乘问题之一：同时估计相机轨迹（ $K$ 个位姿）和场景地图（ $M$ 个路标点）。

与第 9 章位姿估计不同，这里路标点坐标 $p_{j}$ 也是未知量，需要与位姿一起优化。

待估状态

x = {T_{1}, \dots, T_{K}, p_{1}, \dots, p_{M}}, (10.1)

其中 $T_{k} \in SE (3)$ 是第 $k$ 个相机位姿， $p_{j} \in R^{4}$ （齐次坐标）是第 $j$ 个路标点的世界坐标。

可观测性（Gauge Freedom）

仅靠视觉测量，绝对坐标系无法确定（整体平移、旋转、尺度不可观）。标准处理方式：固定第 0 个位姿 $T_{0} = 1$ ，不参与优化。这消除了规范自由度（gauge freedom）。

测量模型

每次相机 $k$ 观测到路标 $j$ 产生一个测量：

y_{jk} = g (T_{k}, p_{j}) + n_{jk}, n_{jk} \sim N (0, R_{jk}), (10.2)

其中 $g$ 是复合映射：先将路标转换到相机坐标系，再经过相机投影模型：

g (T_{k}, p_{j}) = s (T_{k} p_{j}) . (10.3)

$s (\cdot)$ 可以是针孔模型、立体相机模型等任意非线性投影。

English

Bundle Adjustment (BA) is a cornerstone algorithm in computer vision and robotics: simultaneously estimate $K$ camera poses and $M$ landmark positions from visual measurements.

State to estimate:

x = {T_{1}, \dots, T_{K}, p_{1}, \dots, p_{M}},

where $T_{k} \in SE (3)$ and $p_{j} \in R^{4}$ (homogeneous).

Gauge freedom: visual measurements determine only relative geometry. We fix $T_{0} = 1$ (not included in the state) to remove the unobservable rigid-body gauge freedom.

Measurement model: camera $k$ observing landmark $j$ :

y_{jk} = s (T_{k} p_{j}) + n_{jk}, n_{jk} \sim N (0, R_{jk}) .

10.1.2 最大似然解 / Maximum Likelihood Solution

中文

在全部测量 $y = {y_{jk}}$ 已知的情况下，最大似然（ML）问题等价于最小化

J (x) = \frac{1}{2} j, k \sum e_{jk}^{T} R_{jk}^{- 1} e_{jk}, (10.4)

其中测量残差为

e_{jk} (x) = y_{jk} - s (T_{k} p_{j}) . (10.5)

线性化：在工作点 $x_{op} = {T_{op, k}, p_{op, j}}$ 处，对位姿施加李代数扰动、对路标施加线性扰动：

T_{k} = exp (ϵ_{k}^{\land}) T_{op, k}, p_{j} = p_{op, j} + D ζ_{j}, (10.6)

其中 $D = [1_{3 \times 3}; 0_{1 \times 3}]^{T}$ 将 3D 扰动嵌入齐次坐标。残差线性化为

e_{jk} (x) \approx e_{jk} (x_{op}) - G_{1, jk} ϵ_{k} - G_{2, jk} ζ_{j}, (10.7)

其中雅可比矩阵为

G_{1, jk} = S_{jk} (T_{op, k} p_{op, j})^{⊙}, G_{2, jk} = S_{jk} T_{op, k} D, (10.8)

$S_{jk} = \frac{\partial s}{\partial ( \cdot )}_{T_{op, k} p_{op, j}}$ 是投影函数的雅可比， $(\cdot)^{⊙}$ 是 $SE (3)$ 的伴随算子。

将全部扰动向量堆叠：

δ x_{1} = ϵ_{1} ⋮ ϵ_{K}, δ x_{2} = ζ_{1} ⋮ ζ_{M}, δ x = [δ x_{1} δ x_{2}] . (10.9)

费用函数的二次近似为

J (x) \approx J (x_{op}) - b^{T} δ x + \frac{1}{2} δ x^{T} A δ x, (10.10)

其中

A = H^{T} W^{- 1} H = [A_{11} A_{12}^{T} A_{12} A_{22}], b = H^{T} W^{- 1} e (x_{op}), (10.11)

H = [G_{1} G_{2}], W = R = diag (R_{10}, R_{20}, \dots, R_{M K}) . (10.12)

最优扰动 $δ x^{⋆}$ 满足线性方程

A δ x^{⋆} = b . (10.13)

然后更新工作点：

T_{op, k} \leftarrow exp (ϵ_{k}^{⋆\land}) T_{op, k}, p_{op, j} \leftarrow p_{op, j} + D ζ_{j}^{⋆}, (10.14)

迭代至收敛（高斯-牛顿法 Gauss-Newton）。

GN vs. Newton’s Method

GN 近似： $A = G_{1}^{T} R^{- 1} G_{1} + \dots$ ，仅用一阶雅可比，舍去 Hessian 的二阶项。适用于残差较小时（近最优时成立）。

Newton 法： $A = G^{T} R^{- 1} G + \sum_{i} e_{i} \frac{\partial ^{2} e _{i}}{\partial x ^{2}}$ ，包含二阶项。收敛域更大，但计算代价高。 BA 问题通常用 GN 法，因为残差（重投影误差）在最优解附近很小。

English

The ML objective is

J (x) = \frac{1}{2} j, k \sum e_{jk}^{T} R_{jk}^{- 1} e_{jk}, e_{jk} = y_{jk} - s (T_{k} p_{j}) .

Linearizing about $x_{op}$ using left perturbations for poses and additive perturbations for landmarks:

T_{k} = exp (ϵ_{k}^{\land}) T_{op, k}, p_{j} = p_{op, j} + D ζ_{j} .

The Jacobians are

G_{1, jk} = S_{jk} (T_{op, k} p_{op, j})^{⊙}, G_{2, jk} = S_{jk} T_{op, k} D .

Stacking all perturbations $δ x = [δ x_{1}^{T}, δ x_{2}^{T}]^{T}$ , the quadratic approximation is

J (x) \approx J (x_{op}) - b^{T} δ x + \frac{1}{2} δ x^{T} A δ x,

and the GN step solves $A δ x^{⋆} = b$ , then updates operating points via the Lie exponential and vector addition.

10.1.3 利用稀疏结构 / Exploiting Sparsity

中文

矩阵 $A$ 的块结构

A = [A_{11} A_{12}^{T} A_{12} A_{22}], (10.15)

其中

A_{11} = G_{1}^{T} R^{- 1} G_{1}, A_{12} = G_{1}^{T} R^{- 1} G_{2}, A_{22} = G_{2}^{T} R^{- 1} G_{2} . (10.16)

关键观察：

$A_{22}$ 是块对角矩阵。 原因： $G_{2}$ 中不同路标的列块之间没有耦合（每个路标的扰动 $ζ_{j}$ 只影响自身行），因此

A_{22} = diag (k \sum G_{2, 1 k}^{T} R_{1 k}^{- 1} G_{2, 1 k}, \dots, k \sum G_{2, M k}^{T} R_{M k}^{- 1} G_{2, M k}) . (10.17)

$A_{11}$ 也是块对角矩阵。 原因：每个测量只关联一个位姿，因此 $G_{1}$ 的每行只对应一个位姿的列块，导致 $A_{11} = G_{1}^{T} R^{- 1} G_{1}$ 呈块对角形式：

A_{11} = diag (j = 1 \sum M G_{1, j 1}^{T} R_{j 1}^{- 1} G_{1, j 1}, \dots, j = 1 \sum M G_{1, j K}^{T} R_{j K}^{- 1} G_{1, j K}) .

整个矩阵 $A$ 呈**箭头形（arrowhead）**稀疏结构：

A = * * * * * * * * * *, (10.18)

其中左上角 $A_{11}$ （位姿-位姿块）和右下角 $A_{22}$ （路标-路标块，块对角）。

Schur 补消去路标

利用块消去（Schur 补）先消去路标变量：

\tilde{A}_{11} (A_{11} - A_{12} A_{22}^{- 1} A_{12}^{T}) δ x_{1}^{⋆} = \tilde{b}_{1}, (10.19)

其中 $\tilde{b}_{1} = b_{1} - A_{12} A_{22}^{- 1} b_{2}$ 。

由于 $A_{22}$ 块对角，其逆 $A_{22}^{- 1}$ 可逐块求解，计算量仅 $O (M)$ （每个 $3 \times 3$ 块求逆）。然后求解规模为 $6 K \times 6 K$ 的缩减位姿系统，再回代求路标扰动：

δ x_{2}^{⋆} = A_{22}^{- 1} (b_{2} - A_{12}^{T} δ x_{1}^{⋆}) . (10.20)

总体复杂度 $O (K^{3} + K^{2} M)$ ，相比直接解 $O ((6 K + 3 M)^{3})$ 有巨大提升。

Cholesky 分解

也可以利用 $A$ 的稀疏结构做 Cholesky 分解 $A = U^{T} U$ ：

U = [U_{11} 0 U_{12} U_{22}], (10.21)

其中 $U_{22}$ 块对角（继承自 $A_{22}$ ），求逆高效。后向回代即可得到 $δ x^{⋆}$ 和不确定性 $\hat{P} = A^{- 1}$ 。

English

The matrix $A$ has arrowhead sparsity: $A_{22}$ (landmark-landmark) is block-diagonal because each landmark’s perturbation only appears in its own rows, while $A_{11}$ (pose-pose) is dense among poses that share landmarks.

Schur complement (eliminate landmarks first):

(A_{11} - A_{12} A_{22}^{- 1} A_{12}^{T}) δ x_{1}^{⋆} = b_{1} - A_{12} A_{22}^{- 1} b_{2} .

Since $A_{22}^{- 1}$ is block-diagonal (each $3 \times 3$ block inverted independently), the reduced pose system has size $6 K \times 6 K$ . Back-substitution recovers the landmark corrections. Total cost: $O (K^{3} + K^{2} M)$ .

Cholesky: A block-Cholesky factorization $A = U^{T} U$ exploits the same sparsity and allows efficient extraction of posterior covariances.

10.1.4 初始化策略 / Initialization

中文

BA 是非凸优化，GN 需要良好的初值。实践中常用：

旋转平均（rotation averaging）：从成对相对旋转中初始化绝对旋转。
平移求解（translation solver）：固定旋转后线性求解平移。
三角化（triangulation）：固定位姿后，用线性最小二乘初始化路标位置。

经典策略：先做递增式 BA（每添加一帧做一次小型 BA），再做全局 BA 精化。

English

BA is non-convex; GN requires good initialization. Common strategy: rotation averaging → translation initialization → triangulation → incremental BA → global BA refinement.

10.1.5 插值示例 / Interpolation Example

中文

欠约束 BA：当某时刻相机没有足够路标观测（欠约束）时，该位姿不可估计。一种正则化方法是引入轨迹插值约束。

假设我们已知位姿 $T_{2}$ ，并假定 $T_{1}$ 与 $T_{2}$ 之间满足常速运动（匀速插值）：

T_{1} = T_{2}^{α}, α \in [0, 1], (10.22)

其中 $T^{α} = exp (α ln (T)^{\lor}^{\land})$ 。此时 $T_{1}$ 不是独立变量，可用 $T_{2}$ 表达。

对 $α$ 处的扰动： $ϵ_{1} = A (α, ξ_{op}) ϵ_{2}$ ，其中 $A$ 是插值雅可比矩阵（依赖 $α$ 和工作点）。

插值矩阵：设原扰动状态 $δ x = [δ x_{1}^{T}, δ x_{2}^{T}]^{T}$ ，引入缩减扰动状态 $δ x^{'} = I^{T} δ x$ ：

I^{T} = [A (α, ξ_{op}) 0 1001], (10.23)

新的费用函数变为

A^{'} = I^{T} A I, b^{'} = I^{T} b, A^{'} δ x^{' ⋆} = b^{'} . (10.24)

重要结论：插值操作不破坏箭头形稀疏结构—— $A^{'}$ 的路标-路标块 $A_{22}^{'}$ 仍保持块对角，Schur 补方法依然可用。

English

When a pose is underconstrained (too few landmark observations), a constant-velocity interpolation provides regularization. Assume pose $T_{1} = T_{2}^{α}$ for some $α \in [0, 1]$ .

The perturbation at $T_{1}$ is then $ϵ_{1} = A (α, ξ_{op}) ϵ_{2}$ (interpolation Jacobian). This reduces the free variables via an interpolation matrix $I$ :

A^{'} = I^{T} AI, b^{'} = I^{T} b .

Crucially, the landmark-landmark block $A_{22}^{'}$ remains block-diagonal, preserving the arrowhead structure and Schur complement efficiency.

10.2 同步定位与建图（SLAM） / Simultaneous Localization and Mapping

10.2.1 问题描述 / Problem Setup

中文

直觉：BA vs. SLAM

BA 是纯粹的最大似然问题——仅依赖视觉测量，位姿间没有耦合。SLAM 是最大后验问题——除了视觉测量，还引入了运动先验（来自 IMU、轮速计或常速假设），位姿之间通过运动模型相互关联。

另一个关键区别：BA 需要固定某个位姿（规范自由度），SLAM 有运动先验，因此 $T_{0}$ 也可以参与估计。

待估状态

x = {T_{0}, T_{1}, \dots, T_{K}, p_{1}, \dots, p_{M}}, (10.25)

与 BA 相比增加了 $T_{0}$ 。

输入（运动信息）

v = {\overset{ˇ}{T}_{0}, ϖ_{1}, ϖ_{2}, \dots, ϖ_{K}}, (10.26)

其中 $\overset{ˇ}{T}_{0}$ 是初始位姿先验， $ϖ_{k}$ 是第 $k$ 步的广义速度输入。

测量与 BA 相同： $y = {y_{jk}}$ 。

English

SLAM extends BA by incorporating a motion prior (from odometry, IMU, or a constant-velocity model) linking consecutive poses. This adds the initial pose $T_{0}$ to the estimated state (no gauge freedom needed since the prior provides an absolute reference):

x = {T_{0}, T_{1}, \dots, T_{K}, p_{1}, \dots, p_{M}} .

Inputs: $v = {\overset{ˇ}{T}_{0}, ϖ_{1}, \dots, ϖ_{K}}$ .

10.2.2 批量最大后验解 / Batch Maximum a Posteriori Solution

中文

从第 9.2 节的运动先验，定义运动误差：

e_{v, k} (x_{op}) = ⎩ ⎨ ⎧ ln (\overset{ˇ}{T}_{0} T_{op, 0}^{- 1})^{\lor} ln (exp (Δ t_{k} ϖ_{k}^{\land}) T_{op, k - 1} T_{op, k}^{- 1})^{\lor} k = 0 k = 1 \dots K, (10.27)

运动先验代价项： $J_{v, k} = \frac{1}{2} e_{v, k}^{T} Q_{k}^{- 1} e_{v, k}$ 。

总代价函数：

J (x) = 运动先验 k = 0 \sum K J_{v, k} + 视觉测量 j, k \sum J_{y, jk}, (10.28)

矩阵形式：

A = H^{T} W^{- 1} H, H = [F^{- 1} G_{1} 0 G_{2}], W = [Q 0 0 R], (10.29)

其中 $F^{- 1}$ 是第 9.2 节的运动先验块三对角矩阵， $Q = diag (\overset{ˇ}{P}_{0}, Q_{1}, \dots, Q_{K})$ 。

块矩阵展开：

A = [A_{11} A_{12}^{T} A_{12} A_{22}] = [F^{- T} Q^{- 1} F^{- 1} + G_{1}^{T} R^{- 1} G_{1} G_{2}^{T} R^{- 1} G_{1} G_{1}^{T} R^{- 1} G_{2} G_{2}^{T} R^{- 1} G_{2}] . (10.30)

运动先验雅可比（与第 9.2 节一致）：

E_{k} = J (- e_{v, k})^{- 1}, F_{k - 1} = J (- e_{v, k})^{- 1} Ad (T_{op, k} T_{op, k - 1}^{- 1}) . (10.31)

求解 $A δ x^{⋆} = b$ ，然后更新工作点并迭代。

English

SLAM adds motion prior cost terms to the BA objective. The motion error at step $k$ is (from §9.2):

e_{v, k} = ln (exp (Δ t_{k} ϖ_{k}^{\land}) T_{op, k - 1} T_{op, k}^{- 1})^{\lor}, k > 0.

The full system matrix:

A = H^{T} W^{- 1} H, H = [F^{- 1} G_{1} 0 G_{2}], W = diag (Q, R) .

The block $A_{11}$ now contains both the motion prior contribution $F^{- T} Q^{- 1} F^{- 1}$ (block-tridiagonal) and the measurement contribution $G_{1}^{T} R^{- 1} G_{1}$ . The block $A_{22}$ is unchanged from BA (block-diagonal).

10.2.3 利用稀疏结构 / Exploiting Sparsity

中文

引入运动先验不破坏箭头形稀疏结构：

$A_{12}$ 和 $A_{22}$ ：与 BA 完全相同， $A_{22}$ 仍块对角。
$A_{11}$ ：增加了运动先验项 $F^{- T} Q^{- 1} F^{- 1}$ ，但该项是块三对角的，因此 $A_{11}$ 整体仍为块三对角。

两种利用稀疏的策略：

策略	利用哪个块的稀疏	适用场景
Schur 补	$A_{22}$ 块对角	路标数 $M$ 远大于位姿数 $K$
Cholesky	$A_{11}$ 块三对角	位姿数 $K$ 远大于路标数 $M$

注意：Schur 补需要构建 $A_{11}^{- 1}$ ，而 $A_{11}^{- 1}$ 是稠密的，因此当位姿数量很大时，Cholesky 方法更优。

因子图视角

SLAM 的代价函数可以用因子图直观表示：每个测量 $J_{y, jk}$ 和每个运动先验 $J_{v, k}$ 是图中的一个”因子”（黑点），连接对应的变量节点。因子图清晰展示了变量间的耦合关系，是理解稀疏结构的利器。

English

Adding the motion prior does not destroy the arrowhead sparsity:

$A_{22}$ remains block-diagonal (unchanged).
$A_{11}$ gains the block-tridiagonal prior term $F^{- T} Q^{- 1} F^{- 1}$ .

Two exploitation strategies:

Schur complement (eliminating landmarks): preferred when $M ≫ K$ .
Cholesky (exploiting tridiagonal $A_{11}$ ): preferred when $K ≫ M$ (avoids forming the dense $A_{11}^{- 1}$ ).

10.2.4 SLAM 示例 / SLAM Example

中文

图 10.4 展示了一个简单的 SLAM 问题：3 个路标点、3 个自由位姿（ $T_{0}$ 也参与估计）。

代价函数共 9 项：

J = 运动先验（ 3 项） J_{v, 0} + J_{v, 1} + J_{v, 2} + 视觉测量（ 6 项） J_{y, 10} + J_{y, 30} + J_{y, 11} + J_{y, 21} + J_{y, 22} + J_{y, 32} . (10.32)

与 BA 不同，运动先验确保 $A$ 始终良条件——即便没有任何测量，也能给出轨迹的先验解。

English

A minimal SLAM example with $K = 3$ poses and $M = 3$ landmarks has 9 cost terms: 3 motion prior terms (one per step, including the initial prior on $T_{0}$ ) and 6 measurement terms. Unlike BA, the motion prior guarantees $A$ is always well-conditioned.

10.3 本章小结 / Chapter Summary

中文

问题	方法	结构	关键工具
BA	最大似然	箭头形， $A_{22}$ 块对角	Schur 补 / Cholesky
SLAM	最大后验	同上 + $A_{11}$ 块三对角	Schur 补 / Cholesky
插值 BA	+ 插值约束	仍保持箭头形	插值矩阵 $I$

核心技术共性：

所有问题均用 GN 法迭代；位姿通过指数映射更新，路标通过线性加法更新。
稀疏结构由问题物理结构决定（路标各自独立 → $A_{22}$ 块对角；运动先验链 → $A_{11}$ 块三对角）。
Schur 补将复杂度从 $O ((6 K + 3 M)^{3})$ 降至 $O (K^{3} + K^{2} M)$ 。

English

Problem	Criterion	Structure	Key tool
BA	ML	Arrowhead, $A_{22}$ block-diag	Schur/Cholesky
SLAM	MAP	+ $A_{11}$ block-tridiag	Schur/Cholesky
Interpolated BA	ML + constraint	Arrowhead preserved	Interpolation matrix

All problems use Gauss-Newton iteration with left $SE (3)$ perturbations for poses. Sparsity is a consequence of physical structure: independent landmarks give block-diagonal $A_{22}$ ; motion priors give block-tridiagonal $A_{11}$ . The Schur complement reduces complexity from $O ((6 K + 3 M)^{3})$ to $O (K^{3} + K^{2} M)$ .

下一章将把连续时间 GP 先验引入三维轨迹估计，得到 STEAM 算法。/ The next chapter introduces continuous-time GP priors for 3D trajectory estimation, leading to the STEAM algorithm.

Chunibyo

Explorer

ch10_pose_point

第十章　位姿与点联合估计

Chapter 10 Pose-and-Point Estimation

10.1 束调整 / Bundle Adjustment

10.1.1 问题描述 / Problem Setup

10.1.2 最大似然解 / Maximum Likelihood Solution

10.1.3 利用稀疏结构 / Exploiting Sparsity

10.1.4 初始化策略 / Initialization

10.1.5 插值示例 / Interpolation Example

10.2 同步定位与建图（SLAM） / Simultaneous Localization and Mapping

10.2.1 问题描述 / Problem Setup

10.2.2 批量最大后验解 / Batch Maximum a Posteriori Solution

10.2.3 利用稀疏结构 / Exploiting Sparsity

10.2.4 SLAM 示例 / SLAM Example

10.3 本章小结 / Chapter Summary

Graph View

Table of Contents

Backlinks

Chunibyo

Explorer

ch10_pose_point

第十章 位姿与点联合估计 §

Chapter 10 Pose-and-Point Estimation §

10.1 束调整 / Bundle Adjustment §

10.1.1 问题描述 / Problem Setup §

10.1.2 最大似然解 / Maximum Likelihood Solution §

10.1.3 利用稀疏结构 / Exploiting Sparsity §

10.1.4 初始化策略 / Initialization §

10.1.5 插值示例 / Interpolation Example §

10.2 同步定位与建图（SLAM） / Simultaneous Localization and Mapping §

10.2.1 问题描述 / Problem Setup §

10.2.2 批量最大后验解 / Batch Maximum a Posteriori Solution §

10.2.3 利用稀疏结构 / Exploiting Sparsity §

10.2.4 SLAM 示例 / SLAM Example §

10.3 本章小结 / Chapter Summary §

Graph View

Table of Contents

Backlinks

第十章　位姿与点联合估计

Chapter 10 Pose-and-Point Estimation

10.1 束调整 / Bundle Adjustment

10.1.1 问题描述 / Problem Setup

10.1.2 最大似然解 / Maximum Likelihood Solution

10.1.3 利用稀疏结构 / Exploiting Sparsity

10.1.4 初始化策略 / Initialization

10.1.5 插值示例 / Interpolation Example

10.2 同步定位与建图（SLAM） / Simultaneous Localization and Mapping

10.2.1 问题描述 / Problem Setup

10.2.2 批量最大后验解 / Batch Maximum a Posteriori Solution

10.2.3 利用稀疏结构 / Exploiting Sparsity

10.2.4 SLAM 示例 / SLAM Example

10.3 本章小结 / Chapter Summary