Image Matching from Handcrafted to Deep Features A Survey.mm
摘要¶
- 介绍了特征检测、描述和匹配技术,并进行了分析。
- 简要介绍了几种典型的基于图像匹配的应用
- 通过实验,对这些经典和最新的技术进行了全面和客观的比较。
- 总结了图像匹配技术的当前状态,并提供了关于未来工作的深刻讨论和展望。
- 这项综述可以作为图像匹配和相关领域的研究人员和工程师的参考资料。
1 引言¶
- 图像匹配策略
- 基于区域的方法
- 基于特征的方法
- 挑战
- 依赖于相似性测量,对变化敏感。
- 基于特征匹配方法
- 很难定义和提取属于现实世界中相同位置的高比例和大数量的特征,确保匹配性。
- 特征点之间的匹配数量众多,通常从高分辨率图像中提取出数千个特征
- 离群值和噪声影响大
- 质量较差、内容重复、几何变形、视角变化导致误匹配
- 两个图像或点集之间的几何关系不易确定
- 深度学习
- 宽基线图像立体或在复杂和严重变形下进行注册时,从图像学习直接进行注册或变换模型估计的选择有限。
- 稀疏点数据变换的参数回归困难
2 特征检测¶
2.1 特征检测概述¶
- 按语义结构
- 角点特征
- 斑点特征
- 线条/边缘
- 形态区域特征
- 点易于提取,大致可以分为角点和斑点
- 良好的兴趣点
- 易于查找
- 计算速度快
- 提升思路
- 可匹配性
- 后续应用
- 匹配效率
- 减少存储要求
- 可重复性
- 不变性
- 稳健性
- 效率
- 特征检测的共同思想构建特征响应以区分显着的点、线和区域,以及平坦和不明显的图像区域
- 根据策略分类
- 梯度
- 强度
- 二阶导数
- 轮廓曲率
- 区域分割
- 基于学习
2.2 角点特征¶
- 角点搜索的策略
- 梯度
- 强度
- 轮廓曲率
2.2.1 基于梯度的检测器¶
- 基于梯度的角点响应倾向使用一阶信息
- Moravec 检测器
- 对方向或图像旋转不具有不变性
- Harris 角点检测器
- 引入了解决各向异性和计算复杂性问题的方法。
- 使用二阶矩阵或自相关矩阵找到最快和最低灰度值变化的方向,因
- 对方向和光照具有不变性
- 具有可靠的可重复性和独特性
- 使特征更加“分散”并更准确地定位来提高跟踪性能。
2.2.2 基于强度的检测器¶
- 基于模板/强度比较的角点检测器
- 将周围像素的强度与中心像素的强度进行比较
- 简化图像梯度计算
- 适用于具有存储和实时要求的应用。
- SUSAN
- 基于局部半径区域像素和核的亮度相似性。
- 不需要梯度计算。已经提出了许多类似的方法,这些方法
- FAST
- 基于亮度比较
- 使用与中心像素沿圆形模式的每个像素的二进制比较
- 使用机器学习策略确定更可靠的角点特征
- SUSAN 的改进
- FAST-ER
- 提高 FAST 的效率而不损失效果
- 基于核周围进一步像素强度比较来增强可重复性
- AGAST
- 定义了另外两个像素亮度比较标准
- 在扩展配置空间中对其进行了优化和专门的决策树训练,从而使 FAST 检测器更通用和自适应
- ORB
- 将 FAST 的效率与 Harris 检测器的可靠性相结合
- 使用 Harris 响应来选择一定数量的 FAST 角点作为最终检测到的特征
- 局部块的灰度质心和中心像素本身形成一个矢量,表征为主方向
- 一种类似于 Sadder 的检测器
- 通过对具有一定几何约束的两个同心圆上的强度比较来有效验证鞍点条件
2.2.3 基于曲率的检测器¶
角点特征提取的另一种策略是基于检测到的高级图像结构,例如边缘、轮廓和显著区域。角点特征可以立即被定义为来自边缘或轮廓的中点/端点或稀疏采样(Belongie 等人 2002)。这些随后用于形状匹配或点注册,特别是对于纹理较少或二进制类型的图像对。 - 基于曲率策略 - 边缘提取和选择方法 - 曲线平滑 - 曲率估计 - 直接:基于代数或几何估计,例如余弦、局部曲率和切线偏转 - 间接:显著性测量 - 曲线上的几个移动矩形计数曲线点 - 从连接曲线两个端点的弦到曲线点的垂直距离 - 其他替代方法 - 直接方法对噪声和局部变化更敏感 - 选择曲率极值点 - 使用阈值策略确定角点,以消除虚假和不明显的点 - MSFD 多尺度分割型角点检测器 - 用于宽基线场景匹配和重构 - 可以为宽基线图像匹配生成丰富且准确的角点特征 - 并具有高重建性能
总结¶
- 共同缺点
- 分布不分散或不均匀
- 受到两个图像之间的尺度和仿射变换的限制
- 对比
- 基于梯度的方法
- 能够更精确地定位
- 基于强度的方法
- 在效率方面具有优势
- 基于曲率方法
- 需要更多的计算,
- 对于处理无纹理或二进制图像(例如红外和医学图像)等图像更为合适
2.3 斑点特征¶
- 斑点特征
- 局部封闭区域,区域内的像素彼此相似,与周围区域有所不同
- 分类
- 二阶偏导数
- 基于仿射不变的拉普拉斯尺度选择和/或 Hessian 矩阵计算
- 区域分割两种类型的检测器。
- 分割形态区域来检测斑点特征
- 椭圆拟合来估计仿射信息。
- 特点
- 斑点特征对于精度要求较高的视觉应用更有用
- 有更多的图像线索用于特征识别和表示
- 斑点特征对图像变换更加准确和鲁棒。
基于二阶偏导数的方法¶
- 高斯拉普拉斯(LoG)
- 使用拉普拉斯算子进行边缘检测,根据图像的二阶导数的零交叉点进行操作
- 应用高斯卷积滤波作为预处理步骤,以减少噪声。
- 差分高斯(DoG)
- 用来近似 LoG 滤波器,并大大加快计算速度
- 基于 Hessian 矩阵行列式(DoH)
- 这种方法更具仿射不变性
- 可以应用第二矩阵的特征值和特征向量来估计和校正仿射区域。
- SIFT
- 在 DoG 金字塔中提取关键点
- 使用局部强度值的 Hessian 矩阵进行滤波
- SURF
- 使用 Haar 小波计算,近似基于 Hessian 矩阵的检测器
- 积分图像策略,简化了二阶微分模板的构建。
- ASIFT
- 全仿射不变的 SIFT 检测器
- 使用双边滤波近似 Laplace 计算的中心周围极值策略特征检测器
- DARTs
- 使用分段三角形滤波器高效近似 DoH
- SIFT-ER 检测器
- 使用余弦调制的高斯滤波器,以获得具有最小尺度空间定位误差的高特征可检测性
- 其中滤波器系统具有高度精确的滤波器近似
- 无需任何图像下/上采样
- 基于边缘焦点的斑点检测器
- 边缘焦点被定义为图像中距离最近的边缘大致等距的点,边缘的方向垂直于此点
- KAZA 检测器
- 采用非线性偏扩散滤波来搜索斑点特征
- 在金字塔框架中嵌入快速显式扩散
- 受到计算复杂性的限制
- WADE
- 通过波传播函数实现非线性特征检测。
- 全仿射不变的 SIFT 检测器
2.3.2 基于分割的检测器¶
- 基于像素强度或零梯度进行不规则区域分割
- 极大稳定极值区域(MSER)(Matas et al. 2004)。
- 提取在大范围强度阈值下保持稳定的区域
- 不需要额外的处理来估计尺度
- 对大的视角变化具有鲁棒性
- MSER 的扩展方法
- 利用形状结构线索。
- 其他改进
- 基于主曲率图像的分水岭区域
- 考虑颜色信息以提高区分度
- 基于强度和边缘的区域
- 也用于仿射协变区域检测
- 这种类型的特征检测对于特征匹配的用途不太有用
- 发展成为计算机视觉中的显著性检测和分割
2.4 可学习特征¶
2.4.1 经典学习方法¶
- 经典的学习方法
- 决策树
- 支持向量机(SVM)
- 其他分类器
- 使用到传统学习方法的检测器
- FAST 检测器
- Wald-Boost 分类器
- 经典学习仅用于通过分类器学习可靠的特征选择,而不是直接从原始图像中提取兴趣特征
2.4.2 基于深度学习的检测器¶
- 基于 CNN 的检测
- 构建响应图
- 任务通常转化为一个回归问题,可以在变换和成像条件不变性约束下以可微分的方式进行训练。
- 许多方法通过与特征描述和匹配的联合训练将特征检测集成到整个匹配管道中,可以增强最终的匹配性能并以端到端的方式优化整个过程。
- TILDE
- 训练多个分段线性回归模型以检测在天气和照明条件大幅变化的情况下可重复使用的关键点
- 使用 DoG 进行训练集收集,从相同视点拍摄的多个训练图像中识别出良好的关键点候选项- 训练一个通用的回归器来预测一个得分图
- 经过非极大值抑制(NMS)后的最大值可以视为所需的兴趣点
- DetNet
- 学习局部协变特征的第一个完全一般化的公式;
- 将检测任务形式化为回归问题
- 推导出一个协方差约束
- 自动学习局部特征检测的稳定锚点,以在几何变换下实现。
- Quad-net
- 单一的实值响应函数实现了在变换不变的分位数排名下的关键点检测
- 通过优化可重复排名来完全从头开始学习检测器
- TCDET 检测器
- 平等关注区分性和协变约束
- 可以在各种图像变换下检测出具有区分性和可重复性的特征
- Key.Net
- 在浅层多尺度架构中结合了手工制作和学习的 CNN 滤波器
- 手工制作的滤波器提供了本地化、评分和排名可重复特征的锚点结构
- LIFT
- 可以被视为 SIFT 的可训练版本,需要来自 SfM 系统的监督来确定特征锚点
- 训练过程是从描述符到检测器逐个进行的,可以使用学到的结果来指导检测器的训练,从而提高了可检测性。
- SuperPoint
- 通过输入全尺寸图像引入了一个完全卷积模型
- 并在一个前向传递中联合计算像素级兴趣点位置和相关描述符;为了生成伪地面真值并进行预训练,构建了一个合成数据集
- 通过自监督训练实现了它的同质性适应模块,提高了检测的可重复性。
- LF-Net
- 将端到端流程限制在一个分支中,以可微分的方式优化整个过程
- 使用在全尺寸图像上操作的完全卷积网络生成丰富的特征评分图
- 可以用于提取关键点位置和特征属性,如尺度和方向
- RF-Net
- 选择多尺度上的高响应像素作为关键点,但响应图是由感受野特征图构建的
- ASFeat
- 以探索特征点的局部形状信息,并通过联合学习本地特征检测器和描述符来增强点检测的准确性
2.5 3D 特征检测器¶
- 现有的方法
- 固定尺度检测器
- 在特定尺度级别搜索关键点
- 自适应尺度检测器
- 通过采用在表面上定义的尺度空间来扩展二维图像的尺度概念
- 通过将三维数据嵌入到二维平面上来实现传统的尺度空间分析
2.5.1 固定尺度检测器¶
- 局部表面贴片(LSP)方法
- 点的显著性通过其形状指数来测量
- 该形状指数由点处的主曲率定义
- 内在形状签名(ISS)方法
- 显著性源自支持区域的散射矩阵的特征值分解。
- 可以识别出在每个主方向上变化很大的点。
- 基于形状热核的方法(HKS)
- 基于形状上的热扩散过程的属性
- 显著性测量是通过将热核限制到时间域来定义的
- 热核是由底层流形唯一确定的,这使得 HKS 成为形状的紧凑特征描述。
2.5.2 自适应尺度检测器¶
- 拉普拉斯-贝尔特拉米尺度空间
- 计算围绕每个点的增加支持上的设计函数来实现。
- 这个函数由一个反映了底层形状的局部平均曲率的新颖运算符定义,并提供了显著性信息
- MeshDoG 方法
- 类似于 2D 情况下的 DoG 运算符
- 该运算符是在流形上定义的标量函数上计算的。DoG 运算符的输出代表了关键点检测的显著性。
2.6 总结¶
- 特征检测器的解决的问题
- 如何在图像中定义可辨别的模式
- 如何在不同的图像条件和图像质量下重复检测显著特征
- 改进策略
- 特征响应类型
- 效率
- 鲁棒性
- 准确性
- 传统方法中的常用策略
- 近似和预计算
- 尺度和仿射信息估计
- 搜索稳定特征
- 局部极值搜索
- 获得亚像素精度
- 非极大值抑制(NMS)
- 像素和尺度空间中避免局部聚集的特征
3 特征描述¶
- 特征描述符
- 用于将感兴趣点周围的原始局部信息转换为稳定且具有辨别性的形式
- 以高维向量的形式存在
- 描述符空间中两个对应的特征尽可能接近
- 两个不对应的特征则尽可能远离。
3.1 特征描述符概述¶
- 特征描述的处理过程
- 局部低级特征提取
- 像素强度和梯度
- 局部块被划分为若干部分
- 空间池化
- 特征归一化
3.2 手工制作的特征描述符¶
- 构建过程
- 类似传统局部描述符
- 提取低级信息
- 图像梯度
- 强度
- 应用常用的池化和归一化策略
- 统计
- 比较
- 生成长且简单的矢量
- 根据数据类型(浮点或二进制)进行区分性描述
- 描述策略分类
- 梯度统计
- 局部二值模式统计
- 局部强度比较
- 局部强度顺序统计
3.2.1 基于梯度统计的描述符¶
- 梯度直方图(HOG)
- SIFT
- SURF
- 使用 Haar 小波响应来近似梯度计算来加速 SIFT 运算
- 应用积分图像,避免 Haar 小波响应中的重复计算
- CSIFT
- 使用额外的颜色信息来增强辨别性
- ASIFT
- 模拟了通过变化两个相机轴方向参数获得的所有图像视图,以实现完全仿射不变性
- SIFT-rank
- 基于 SIFT 的不变特征对应的序数图像描述。
- 基于 Weber 定律的方法(WLD)
- 在特定位置编码差分激发和方向的直方图。
- RootSIFT
- 不增加处理或存储要求的情况下获得了更好的性能。
- DSP-SIFT
- 对不同域大小中的梯度方向进行池化
- DAISY
- 基于 SIFT 的宽基线立体图像的另一种高效的密集描述符
- 使用对数极坐标网格布局和高斯池化策略来近似梯度方向的直方图
- DARTs
- 高效地计算尺度空间并重用它来进行描述符计算
- 局部重力力量模式
3.2.2 基于局部二值模式统计的描述符¶
- 基于强度统计的方法
- 受到局部二值模式(LBP)的启发
- LBP
- 具有有利于其在兴趣区域描述中使用的特性
- 缺点是该运算符产生了一个相当长的直方图,并且在平坦的图像区域中不太稳健。
- 中心对称 LBP(CS-LBP)
- (使用 SVM 进行分类器训练)是 LBP 的修改版本
- 结合了 SIFT 和 LBP 的优点
- 以解决平坦区域问题
- 中心对称局部三值模式(CS-LTP)
- 在块中使用相对顺序的直方图和 LBP 代码的直方图
- RLBP(Chen 等人 2013)
- 改变编码位来提高 LBP 的稳健性
3.2.3 基于局部强度比较的描述符¶
- 基于局部强度比较的描述符
- 二进制描述符
- 用于比较的选择规则是关键
- 大多限于短基线匹配。
- BRIEF
- 由图像块中多个随机点对的强度二进制测试结果串联而成
- ORB
- 旋转 BRIEF
- 与定向 FAST 角点相结合
- 使用机器学习策略选择了强大的二进制测试
- 减轻旋转和尺度变化的限制。
- BRISK
- 使用了一个半径逐渐增大的同心圆采样策略
- FREAK
- 受视网膜结构启发
- 比较视网膜采样模式上的图像强度来进行快速计算和低内存成本的匹配
- 保持对尺度、旋转和噪声的鲁棒性
3.2.4 基于局部强度顺序统计的描述符¶
- 像素值的顺序
- 强度顺序的池化对旋转和单调强度变化不敏感,
- 将序数信息编码到描述符中
- 强度顺序池化方案可以使描述符在不估计参考方向的情况下具有旋转不变性
- 序数空间强度分布方法
- 该方法使用序数和空间强度直方图来归一化捕获的纹理信息和结构信息
- 对任何单调递增的亮度变化都是不变的。
- LIOP
- 编码每个像素的局部顺序信息
- 使用整体序数信息将局部块划分为子区域
- 这些子区域用于累积 LIOPLIOP
- OIOP/MIOP
- 可以编码用于噪声和畸变稳健性的整体序数信息
- 还提出一种基于学习的量化方法来提高其区分度。
3.3 基于学习的特征描述符¶
3.3.1 经典学习型描述符¶
- PCASIFT
- 使用主成分分析(PCA)
- 减少由局部图像梯度组成的向量的维度
- 形成一个强大且紧凑的描述符。
- 二进制描述符
- 从提供的浮点型描述符中学习
- 通常通过哈希方法来实现
- 局部敏感哈希(LSH)
- 是一种常见的无监督哈希方法
- 该方法通过随机投影生成嵌入
- 非监督哈希
- 核化 LSH
- 光谱哈希
- 语义哈希
- 基于 p 稳定分布的 LSH
- 监督哈希方法
- 最小损失哈希
3.3.2 基于深度学习的描述符¶
- 主要形式
- 度量学习
- 学习一个用于相似度测量的判别度量
- 输入是原始块或生成的描述符
- 描述符学习
- 描述符学习倾向于从原始图像或块生成描述符表示
- 需要一个测量方法,比如 L2 距离或经过训练的度量网络
- DeepCompare
- 使用通用块相似性函数直接从原始图像像素中学习
- 在这种情况下,各种 Siamese 类型的 CNN 模型被应用于编码相似性函数
- 这些模型被训练用于识别正样本和负样本图像块对
- MatchNet
- 同时学习描述符和度量
- 级联类似 Siamese 的描述网络和完全卷积决策网络
- 任务被转化为一个交叉熵损失下的分类问题
- DeepDesc
- 使用 CNN 来学习具有 L2 距离测量的判别图像块表示
- 通过最小化成对铰链损失来训练具有正样本和负样本块对的 Siamese 网络
- 提出的硬负采样策略减轻了正负样本不平衡问题
- TFeat
- 利用三元组训练样本来进行基于 CNN 的图像块描述和匹配
- 通过浅卷积网络和快速硬负采样策略实现
- L2Net
- 渐进采样策略来优化欧几里得空间中的相对距离损失函数
- 考虑中间特征图和描述符的紧凑性以获得更好的性能
- HardNet
- 使用简单的铰链三元组损失和“最难在批次内”的挖掘,获得更好的改进
- PN-Net
- 同时使用了在距离度量学习和在线增强领域引入的思想
- 同时使用正和负约束进行训练。
- 所提出的 SoftPN 损失函数比铰链损失或 SoftMax 比率具有更快的收敛速度和更低的误差
- BinGAN
- 生成对抗网络的正则化方法
- 学习图像块的具有辨别性但紧凑的二进制表示
- ContextDesc
- 将局部块相似性约束与兴趣点的空间几何约束相结合,从而大大提高了匹配性能。
- 端到端学习方法
- LIFT
- 通过端到端 CNN 网络同时实现关键点检测、方向估计和特征描述。
- SuperPoint
- 一种用于训练多视图几何问题的兴趣点检测器和描述符的自监督框架
- 完全卷积模型在全尺寸图像上运行,并共同计算像素级兴趣点位置和相关描述符
- 与基于路径的网络形成对比。
- LF-Net
- 一个双分支设置
- 并通过迭代创建虚拟目标响应
- 允许无需手工制作的先验条件即可从头开始进行训练
- 这个技术实现了特征图生成
- 使用前 K 选择和 NMS 的尺度不变关键点检测、方向估计和描述符提取
- RF-Net
- 创建了一个端到端可训练的匹配框架
- 从 LF-Net 结构修改而来的
- 构建的感知特征图导致了有效的关键点检测
- 通用的损失函数术语,即邻域掩码,有助于训练补丁选择
- D2-Net
- 使用单个 CNN 同时实现了密集特征描述符和特征检测器的双重作用
- 语义匹配
- UCN
- 使用深度度量学习直接学习了一个保留几何或语义相似性的特征空间
- 有助于生成几何或语义对应任务的密集和准确的对应关系
- NCN
- 开发了一种基于典型思想的可端到端训练的 CNN 架构
- 使用半本地约束来找到图像对之间可靠的稠密对应关系
3.4 三维特征描述符¶
3.4.1 手工制作三维描述符¶
- 描述符分类
- 基于空间分布直方图
- 对支持区域中的点的空间分布进行编码的直方图来表示局部特征
- 基于几何属性直方图
- 光谱描述符
- 自旋图像
- 三维形状上下文
- 独特形状上下文
- 旋转投影统计
- 三自旋图像
- 局部表面块
- THRIFT
- 点特征直方图,
- 快速点特征直方图
- 方向直方图签名
- MeshHoG 描述符
- 类似于 SIFT(Lowe 2004),并使用梯度信息生成直方图。
- 全局点签名
- 用形状上的 Laplace-Beltrami 算子的特征值和特征函数来表示点的局部特征
- 波核签名
- 从与形状相关的 Laplace-Beltrami 算子的谱分解中获得的
- HKS
- 基于热扩散过程
- WKS
- 基于形状上的量子力学粒子的时间演化
3.4.2 基于学习的三维描述符¶
- 使用不同的学习方案来泛化光谱描述符。
- PointNet
- 这个网络可以消耗原始点云以充分利用三维匹配任务中的稀疏性。
3.5 总结¶
- 设计目标
- 实现检测到的特征点之间的准确和有效的对应关系建立
- 将原始图像信息转化为具有区分性和稳定性的表示
- 两个匹配的特征尽可能接近
- 误匹配的特征则相距甚远
- 描述符的设计要求
- 易于计算
- 计算和存储要求低。
- 面对严重变形和成像条件时保持其区分性和不变性特征
- 传统局部描述符的构建过程
- 提取低级信息
- 图像梯度
- 强度
- 梯度信息可以被视为比原始强度更高阶的图像线索
- 池化策略、直方图或统计方法
- 对几何变换更具不变性
- 需要额外的计算来计算梯度和统计,以及浮点类型数据的距离度量
- 基于 LBP 的方法
- 具有较高的区分能力和对光照变化和图像对比度的良好鲁棒性
- 经常用于纹理表示和人脸识别。
- 提高深度描述符的区分能力和鲁棒性的技巧
- 中心周围和三元(甚至更多)结构可能提供大量的重要信息来学习
- 硬负样本挖掘策略会使结构集中在困难样本上,可以实现更好的匹配性能
- 根据描述任务的基本和内在属性设计更可靠的损失函数。
- 最近设计的三元、排名、对比和全局损失优于早期的简单铰链和交叉熵损失
- 需要有效和全面的 ground truth 数据集
- 获得更好的匹配性能和泛化能力。
- 将描述符与检测器一起训练,端到端方式构建成完整的匹配管道
- 可以共同优化检测器和描述符,从而可以实现令人振奋的性能
- 描述符的整体性能还取决于适当的检测器
4 匹配方法¶
4.1 匹配方法概述¶
- 匹配方法分类
- 基于区域
- 通常指的是密集匹配
- 通常不检测特征
- 基于特征
- 直接
- 图匹配
- 点集配准
- 间接
- 将匹配任务分为两个阶段
- 通过测量空间的距离来评估描述符的相似性
- 使用额外的局部和/或全局几何约束将错误匹配从潜在匹配集中移除
4.2 基于区域的匹配¶
- 基于区域的方法
- 进行图像配准
- 使用整个图像的像素强度来建立密集像素对应关系
- 相似性度量标准
- 相关性的方法
- 域变换
- 倾向于在将原始图像转换为另一个域
- 互信息(MI)方法
- 适用于多模态
- MI 在确定整个搜索空间的全局最大值方面存在困难,这不可避免地降低了其鲁棒性
- 优化方法
- 连续优化
- 离散优化
- 两者的混合形式
- 变换模型
- 刚性
- 仿射
- 薄板样条(TPS)
- 弹性体
- 扩散模型
4.3 图匹配方法¶
- 图匹配(GM)
- 在两个或多个图之间建立节点到节点的对应关系
- 从问题设置的角度分类
- 精确匹配
- 不精确匹配
- GM 可以被公式化为二次分配问题(QAP)
- 研究的主体集中在 Lawler 的 QAP(Lawler 1963)上。
- Koopmans-Beckmann 的 QAP 是另一种流行的形式。
- 作为一般的组合 QAP 问题,GM 已知是 NP 困难问题
- 大多数方法放宽了严格的约束并以可接受的代价提供了近似解决方案
4.3.1 光谱松弛方法¶
- 这些方法由于松弛程度较大而具有效率的优点。然而,一般情况下精度不足。
4.3.2 凸松弛方法¶
- 许多研究已经转向研究原始问题的凸松弛方法,以获得解决非凸 QAP 问题的理论优势。
- 半定规划(SDP)
- 是解决组合问题的通用工具,已应用于解决 GM
- SDP 松弛
- 非常紧密,允许在多项式时间内找到强近似解
- 高计算成本限制了其可扩展性
- LP 松弛的对偶问题
- 这与 MAP 推断算法有很强的联系。
4.3.3 凸到凹松弛¶
- 一个有用的策略是利用路径跟随技术
- 这种方法逐渐实现了原始问题的凸到凹过程,最终找到一个满足约束的良好解决方案
- 与升级方法相比,计算复杂度也低得多
4.3.4 连续松弛¶
4.3.5 多图匹配¶
- 与经典的两图匹配设置不同,联合匹配一批具有一致对应关系的图,即多图匹配
- 多图匹配的一个核心问题是为可行解决方案强制执行循环一致性
- 多图匹配方法分类
- 多图匹配问题通过计算一系列二图匹配任务的迭代过程来解决
- 以初始(带噪声的)二图匹配结果作为输入,并旨在恢复全局一致的二图匹配集
- 利用聚类或低秩恢复技术来解决多图匹配问题,为问题提供了特征空间的新视角
4.3.6 其他范式¶
- GM 的随机漫步观点
- 渐进的 GM 方法
- 超图匹配
4.4 点集配准方法¶
- 点集配准(PSR)
- 估计最佳对齐两个点集的空间变换
- PSR 对数据提出了更强的假设,即点集之间存在全局变换
4.4.1 ICP 及其变种¶
- 迭代最近点(ICP)算法
- ICP 交替进行两个点集中最接近点的硬分配和封闭形式刚性变换估计,直到收敛
- 简单性和低计算复杂性
- ICP 算法被广泛用作基线算法
- ICP 需要良好的初始化
- 容易陷入局部最优解。
- EM-ICP
- LM-ICP
- TriICP
- 鲁棒点匹配(RPM)算法
- 克服 ICP 的限制
- 采用了软分配和确定性退火策略
- 刚性变换模型则通过使用薄板样条来进行非刚性化。
4.4.2 基于 EM 的方法¶
- RPM 也是 EM 类 PSR 方法的代表之一
- 一致性点漂移(CPD)方法
- 建立在 GMM 基础上的概率框架中
- EM 算法用于参数的最大似然估计
4.4.3 基于密度的方法¶
- 基于密度的方法引入了生成模型到 PSR 问题中
4.4.4 基于优化的方法¶
- 基于优化的方法作为全局最优解,以缓解局部最优问题
- 这些方法通常在有限的变换空间中进行搜索,以节省时间
- 广泛使用随机优化技术
- 遗传算法
- 粒子群优化
- 粒子滤波
- 模拟退火
- 不能保证收敛
- 分支界限(BnB)优化技术
- 可以在变换空间中高效地搜索全局最优解
- 构成许多基于优化的方法的理论基础,
- 基于半定规划(SDP)松弛的方法
- 该方法保证了等距形状匹配的全局解。
- 一种鲁棒非刚性 PSR 的公式
- 基于全局平滑鲁棒数据拟合和正则化
- 通过 majorization-minimization 算法进行优化
- 以减少解决简单最小二乘问题的每次迭代
4.4.5 杂项方法¶
- PSR 基于不同观察的一些新方案已经出现
- 将点集建模为受引力作用的粒子
- 通过求解牛顿力学的微分方程来实现配准
- 使用上下文感知高斯场来解决 PSR 问题
- 区分性优化方法
- 从训练数据中学习搜索方向,以指导优化,无需定义成本函数
- 考虑了点集的颜色信息
- 多个点集的联合配准。
4.5 消除误匹配的描述符匹配¶
- 描述符匹配后的误匹配消除,也称为间接图像匹配
- 将匹配任务分为两个阶段
- 通过测量空间的距离来计算局部图像描述符的相似性,建立初步对应关系
- 通过使用额外的局部和/或全局几何约束,从虚拟匹配集中移除错误匹配。
- 构建虚拟匹配集的常见策略
- 固定阈值(FT)
- 最近邻(NN,也称为蛮力匹配)、
- 互相最近邻(MNN)
- 最近邻距离比(NNDR)
- 误匹配消除方法分类
- 基于重新采样的方法
- 非参数模型方法
- 宽松方法
4.5.1 虚拟匹配集构建¶
- FT 策略
- 考虑了距离低于固定阈值的匹配项
- 可能会对数据敏感
- 可能导致与一对一对应性相反的众多一对多匹配
- NN 策略
- 可以有效处理数据敏感性问题并提高潜在真实匹配项的召回率 无法避免一对多的情况。
- 互相最近邻
- 可以获得高比例的正确匹配,
- 可能牺牲了许多其他真实对应关系
- NNDR
- 考虑到了第一个和第二个最近邻之间的距离差异很大。
- 使用预定义的阈值的距离比会获得稳健且有前途的匹配性能
- 不会牺牲许多真实匹配。
- 依赖于这些描述符的稳定距离分布。
- 在 SIFT 等描述符匹配中被广泛使用且表现良好
- NNDR 对于其他类型的描述符,如二进制或一些基于学习的描述符已不再适用。
4.5.2 基于重新采样的方法¶
- RANSAC 算法
- 假设这两幅图像由某种参数化几何关系(如射影变换或极线几何)耦合在一起
- 采用一种假设和验证策略
- 采样最小子集,作为假设估计模型
- 并通过一致内点数量验证质量
- 与最优模型一致的对应关系被识别为内点。
- MLESAC
- 最大似然过程来验证模型质量
- NAPSAC
- 假定内点在中在空间上是连贯的
- GroupSAC
- 假定内点存在某些分组
- PROSAC
- 利用了先验预测的内点概率
- EVSAC
- 使用了与对应关系的极值理论的置信度估计。
- 局部优化 RANSAC(LO-RANSAC)
- 其中关键观察是当到达迄今为止最佳模型时,采用最小子集可以放大底层噪声并产生与 ground truth 相去甚远的假设
- LO-RANSAC
- USAC
- 集成了很多 RANSAC 改进策略
- MAGSAC
- 应用了 \(\sigma\)-一致性
- 在一系列噪声尺度上进行边际化来消除对用户定义阈值的需求
- MAGSAC++
- 引入了一个新的评分函数
- 避免了需要内点/外点决策
- 一种新颖的边际化过程被构建为 M-估计
- 重新采样类方法的缺陷
- 理论上所需的运行时间随着异常值率的增加呈指数级增长
- 最小子集采样策略仅适用于参数模型,并不能处理经历复杂变换的图像对
4.5.3 基于非参数模型的方法¶
- 非参数模型处理匹配中更一般的先验
- 运动连贯性
- 可以处理退化情况
- 使用三角形化的 2-D 网格来模拟变形,使用定制的鲁棒估计器来消除异常值的有害影响
- 矢量场一致性(VFC)
- 变形函数限制在再生核希尔伯特空间中,与 Tikhonov 正则化一起用于强制执行平滑约束
- 估计在贝叶斯模型中进行,其中显式考虑了异常值以实现稳健性
4.5.4 宽松方法¶
- 分段仿射变形
4.6 基于学习的匹配¶
- 学习进行的匹配步骤
- 基于图像的学习
- 图像配准
- 立体匹配
- 相机定位或变换估计
- 基于点的学习
- 点数据处理
- 分类
- 分割
- 配准
4.6.1 从图像学习¶
- 图像配准
- 立体匹配
4.6.2 从点学习¶
- 深度学习技术解决基于点的任务
- 参数拟合
- 受到经典的 RANSAC 算法的启发
- 估计变换模型
- 点分类和/或分割
- 倾向于训练分类器来从候选匹配集中识别真实的匹配项
4.7 三维情况下的匹配¶
- 三维匹配方法步骤
- 关键点检测
- 局部特征描述
- 计算描述符之间的相似性来建立稀疏对应关系集
4.8 总结¶
- 传统的图像配准和立体匹配
- 基于块的相似性测量和优化策略来实现密集匹配,以搜索全局最优解
- 在具有高重叠区域(轻微几何变形)和双目摄像机的图像对上进行的
- 需要大量的计算负担和有限的手工制作测量指标。
- 深度学习
- 提高了配准精度和视差估计
- 对于更复杂的场景,如宽基线图像立体匹配或具有严重几何变形的图像配准,仍然是一个开放的问题。
- 基于特征的匹配可以有效解决大视角、宽基线和严重非刚性图像匹配问题中的限制
- 最流行的策略
- 基于描述符距离构建假定匹配
- 使用鲁棒估计器(如 RANSAC)
- 假定匹配集中存在大量误匹配可能会对后续视觉任务的性能产生负面影响,并且需要相当长的时间来估计模型
- 需要误匹配移除方法,并将其集成到具有额外几何约束的情况下,以尽可能保留尽可能多的真实匹配,并将误匹配保持在最低水平
- 基于重采样的方法,如 RANSAC,可以估计潜在参数模型并同时去除离群值
- 其理论上所需的运行时间随着离群值比率的增加而呈指数增长
- 非参数模型的方法可以通过使用高维非参数模型来处理非刚性图像匹配问题
- 在更复杂的解决方案空间中定义目标函数和找到最优解仍然具有挑战性
- 参数敏感性
- 容易保留明显的离群值
5 基于匹配的应用¶
5.1 SfM¶
- 运动恢复(Structure-from-Motion,SfM)包括三个主要阶段
- 跨图像的特征匹配
- 相机姿态估计
- 使用估计的运动和特征恢复三维结构
- 特征匹配管道应用
- 特征检测
- 描述
- 最近邻匹配
- 初始对应关系离群值处理
- 需要几何验证
- 使用 RANSAC 来估计基础矩阵
- 几何感知方法
- 使用少量特征来估计图像之间的极线几何,并利用它来引导匹配其余特征
5.2 SLAM¶
- 过程
- 需要特征匹配来建立帧之间的对应关系
- 作为估计相对相机姿态和定位的输入
- 回环检测
- SLAM 应用中的另一个核心模块
- 使用图像相似性来识别以前访问过的位置
- 特征匹配结果自然适用于测量两个场景的相似性
5.3 视觉导航¶
5.4 图像配准和拼接¶
- 图像配准
- 将来自不同视点、不同时刻或不同传感器获得的同一场景的两个或多个图像对齐的过程
- 建立对应关系后,图像配准就被简化为估计变换模型(例如刚性、仿射或投影)
- 源图像通过映射函数进行变换
- 依赖于插值技术(例如双线性和最近邻)
- 多模态图像配准问题更加复杂
- 不同模态引起的外观高度变化
- PIIFD 特征
- 图像拼接、图像镶嵌
- 图像拼接处理重叠度较低的图像,并要求在像素级别进行准确对齐
5.5 图像融合¶
- 图像融合
- 用于将不同传感器或不同拍摄设置下获取的图像中的有意义信息进行组合,其中源图像已经精确对齐。
- 图像融合的前提是使用特征匹配方法对源图像进行注册
5.6 图像检索、物体识别和跟踪¶
- 特征匹配可用于衡量图像之间的相似性
- 图像检索
- 检索出对于给定查询图像展现相似场景的所有图像
- 图像相似性本质上是由图像之间的特征匹配决定的
- 几何上下文验证是一种常见的用于改进初始图像检索结果的技术
- 它与特征匹配直接相关
- 几何上下文验证技术可用于解决由于局部描述符的模糊性和量化损失导致的误匹配问题。