Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

Machine Translated by Google

SuperGlue:
使用图神经网络学习特征匹配

保罗‑爱德华·萨林  (Paul‑Edouard  Sarlin)1*丹尼尔·德通  ( Daniel  DeTone)2托马斯·马里谢维奇  (Tomasz  Malisiewicz)  2安德鲁·拉比诺维奇  (Andrew  Rabinovich )2
1 2
苏黎世联邦理工学院 魔法跳跃公司

抽象的
强力胶 器



本文介绍了  SuperGlue,
一种神经网络
通过共同寻找对应点并拒绝不可匹配的点来匹配两组局部特征。
通过求
解可微的最优值来估计分配

运输问题,
其成本由图表预测
神经网络。
我们引入灵活的上下文聚合
基于注意力的机制,
使  SuperGlue  能够推理底层  3D  场景和特征分配

共同。
与传统的、 手工设计的启发式方法相比,
我们的技术通过端到端的 检测器和描述符 强力胶
深度前端 深度中端匹配器
方式学习  3D  世界的几何变换和规律性的先验知识

从图像对进行训练。  SuperGlue  优于其他产品 图  1:
与  SuperGlue  的功能匹配。
我们的方法根据现成的局部特征建立
学习方法并取得最先进的成果 逐点对应关系: 它充当手工制作或学习的前端和后端之间的中间端。  
v8
SuperGlue  使用
在室内和室外环境中挑战现实世界的姿态估计任务。 所提出的方法在现
代  GPU  上实时执行表格匹配,
并且可以
图神经网络和注意力来解决作业
可以轻松集成到现代  SfM  或  SLAM  系统中。 优化问题,
并处理部分点可见性
代码和训练过的权重可在以下位置公开获取: 和优雅的遮挡,
产生部分分配。
github.com/magicleap/SuperGluePretrainedNetwork。

在这项工作中,学习特征匹配被视为
arXiv:1911.11763v2  
[cs.CV]  
2020  
28  
月  
年  

3  

一、
简介 找到两组局部变量之间的部分赋值
特征。我们重新审视经典的基于图的策略
图像中点之间的对应关系至关重要
通过解决线性分配问题来匹配, 其中,
用于估计几何计算机视觉任务中的  3D  结构和相机姿态,
例如同步定位
当放松到最优运输问题时,可以解决
和建图  (SLAM)  以及运动结构
可微分地。此优化的成本函数由图神经网络  (GNN)  预测。
灵感来自于

(SfM)。
这种对应关系通常通过以下方式估计
Transformer  [61]  的成功,
它使用自(图像内)
匹配局部特征,这个过程称为数据关联。
大视点和光照变化、
遮挡、
模糊,
和跨(图像间) 注意力以利用空间
和缺乏纹理是  2D  到  2D  数据关联特别具有挑战性的因素。 关键点及其视觉外观的关系。
这个公式强制执行了分配结构
预测, 同时使成本能够学习复杂的先验, 优雅地处理遮挡和不可重复的
在本文中,我们提出了一种新的思考方式
关键点。 我们的方法是从图像对进行端到端训练的
特征匹配问题。我们建议学习匹配过程,而不是学习更好的与任务无关
的局部特征,然后进行简单的匹配启发式和技巧
–  我们从大量带注释的数据中学习姿势估计的先验知识
数据集,
使  SuperGlue  能够推理  3D  场景
使用一种名为  SuperGlue  的新型神经架构从预先存在的局部特征中
和作业。
我们的工作可以应用于各种
提取信息。 在  SLAM  的背景下,
需要高质量的多视图几何问题
通常[8]将问题分解为视觉特征提取前端和捆绑调整或姿势
特征对应关系(见图2)。

估计后端, 我们的网络直接位于中间 *在  Magic  Leap,  Inc.  完成硕士学位工作。 作者感谢


–  SuperGlue  是一个可学习的中端(见图1)。 他的学术导师: Cesar  Cadena、Marcin  Dymczyk、
Juan  Nieto。

1
Machine Translated by Google

图匹配问题通常表述为
二次分配问题是  NP  难题,
需要昂贵、
复杂且不切实际的求解器[30]。

对于局部特征,
计算机视觉文献
2000  年代[5,27,57 ]使用带有许多启发式技巧的手工成本,
使其复
杂且脆弱。 卡埃塔诺等人。  [9]学习
更简单的线性分配的优化成本,
但只使用浅层模型,
而我们的  SuperGlue  学习
使用深度神经网络的灵活成本。
与图表相关
匹配是最优传输问题[63]   它是一个
具有高效而简单的广义线性分配
近似解,
Sinkhorn  算法[55,12,39 ] 。

点云等集合的深度学习旨在通过聚合跨元素的信息来设计排列等值函数或不
变函数。
有些作品对待一切

通过全局池化[70,40,15 ]或实例标准化[60,33,32 ]平等地对待元素,
而其他人
图  2:  SuperGlue  对应关系。
对于这两个
则专注于
具有挑战性的室内图像对,
与  SuperGlue  匹配
坐标或特征空间中的局部邻域[41,  66]。
结果是准确的姿势,
而其他姿势是学习或手工制作的
注意力[61,64,62,26 ]可以通过关注特定的元素和属性来执行全局和数据依赖
方法失败(对应关系因极线误差而着色)。
的局部聚合,
因此更加灵活。
通过观察,
自注意力可以被视为完整的消息传递图
神经网络[23,  4]的一个实例
我们展示了  SuperGlue  与两者相比的优越性
手工制作的匹配器和学习的内部分类器。 什么时候
与深层前端SuperPoint  [18]相结合,
Super  Glue  推进了室内和室外任务的最
先进技术 图,
我们将注意力集中在具有多种类型的图上
边缘,
类似于[28,  72],
并启用  SuperGlue  来学习
室外姿态估计,
为端到端深度  SLAM  铺平道路。
关于两组局部特征的复杂推理。

2、
相关工作 3.  SuperGlue  架构

动机:
在图像匹配问题中,
可以利用世界的一些规律:
3D  世界是
局部特征匹配通常通过  i)  检测兴趣点,
ii)  计算视觉描述符来执行,

所有的对应关系大部分是光滑的,
有时是平面的
iii)  将它们与最近邻  (NN)  搜索进行匹配,
对于给定的图像对,
如果场景是静态的,
并且某些姿势更有可能来自单个对极
iv)  过滤不正确的匹配,
最后  v)  估计
变换形式
几何变换。
经典管道开发
在  2000  年代通常基于  SIFT  [31],
过滤器匹配 相对于其它的。
此外,
2D  关键点通常是显着  3D  点的投影,
例如角点或斑点,

与劳氏比率测试[31]、
相互检查和启发式 此图像之间的对应关系必须遵循特定的物理关系

例如邻里共识[59,10,6,49 ] ,
并找到一个
使用  RANSAC  [21,  43]  等强大的求解器进行转换。 约束:  i)一个关键点在另一幅图像中最多只能有一个对应;  ii )一些关键点将

最近的深度学习匹配工作通常侧重于使用卷积神经网络(CNN)
从数据中
由于探测器的遮挡和故障而无法匹配。
学习更好的稀疏检测器和局部描述器[18,19,37,45,69 ] 。
为了提高他们的辨别
有效的特征匹配模型应该旨在找到相同特征的重投影之间的所有对应关系
能力,

3D  点并识别没有匹配的关键点。
一些作品明确地利用区域性来着眼于更广泛的背景
我们将  SuperGlue(见图3)
表述为解决优化问题,
其成本由深度神经网络预测
特征[32]或对数极坐标补丁[20]。
其他方法
学习通过将匹配分类为内点来过滤匹配
网络。
这减轻了对领域专业知识的需求
异常值[ 33,44,7,71 ] 。
这些对匹配组进行操作,
启发式 我们直接从数据中学习相关先验。
仍然由  NN  搜索估计,
因此忽略分配
结构并丢弃视觉信息。 值得学习的作品 表述:
考虑两个图像  A  和  B,
每个图像都有一个
到目前为止, 执行匹配的方法主要集中在密集匹配[46]或3D点云 关键点位置  p  和相关视觉描述符的集合
[65]上,
并且仍然表现出相同的效果 d  –  我们将它们  (p,  d)  统称为局部特征。
限制。
相比之下,
我们的可学习中端在单个端到端架构中同时执行上下文聚合、 位置由  x  和  y  图像坐标以及
匹配和过滤。 检测置信度  c,  pi :=  (x,  y,  c)i 。
视觉描述符
di  ∈  RD 可以是由像  SuperPoint  这样的  CNN  提取的

2
Machine Translated by Google

注意力图神经网络 最佳匹配层
地方
特色
注意力聚合 匹配描述 Sinkhorn算法
符 部分的
视觉描述符 自己 叉
+ 分数矩阵
正常化
排 任务
位置
关键 M+1
编码器 柱子

规范。

+ L 垃圾箱得 N+1 时间

分 =1

图  3:  SuperGlue  架构。  SuperGlue  由两个主要部分组成: 注意力图神经网络
网络(第3.1  节) 和最佳匹配层(第3.2  节)。 第一个组件使用关键点编码器来映射
将关键点位置  p  及其视觉描述符  d  转化为单个向量, 然后使用交替的自注意力和交叉注意力
f.  层(重复  L  次)
以创建更强大的表示。 最佳匹配层创建  M  ×  N  分数
矩阵, 用垃圾箱对其进行扩充, 然后使用  Sinkhorn  算法(对于  T  次迭代)
找到最佳部分分配。

或传统描述符如  SIFT。
图像  A  和  B  有 关键点编码器:
初始表示(0)xi为
M  和  N  局部特征, 索引为  A :=  {1, ...,  M}  和 每个关键点都结合了其视觉外观和位置。 我们使用多层感知器(MLP)
B :=  {1, ...,  N}  分别。 将关键点位置嵌入到高维向量中, 如下所示:
部分赋值:约束i)和ii)意味着  cor  v10
响应源自之间的部分分配
(0)xi  =  di  +  MLPenc  (pi).   (2)
两组关键点。用于整合下游
任务和更好的可解释性, 每个可能的对应都应该有一个置信值。
我们因 该编码器使图网络能够稍后进行推理
此 共同关注外观和位置,
尤其是当
定义部分软分配矩阵  P  ∈  [0,  1]M×N为: 与注意力相结合,
是语言处理中流行的“位置编码器”
的一个实例[22,  
61]。
P1N  ≤  1M且  P  1M  ≤  1N 。 (1)
多重图神经网络:
我们考虑单个
我们的目标是设计一个神经网络,
根据两组局部特征预测符号  P。 完整图,
其节点是两个图像的关键点。
该图有两种类型的无向边 它是

3.1.注意力图神经网络 多重图[34,  36]。
图像内边缘或自边缘,
Eself,
将关键点  i  连接到范围内的所有其他关键点
除了关键点的位置及其视觉外观之外,整合其他上下文线索可以直 相同的图像。 图像间边缘, 或交叉边缘,  Ecross,
将关键点  i  
观地增加其独特性。
例如我们可以考虑它的 连接到另一图像中的所有关键点。 我们用
消息传递公式[23,  4]沿着两种类型的边传播信息。
由此产生的多路复用
与其他共同可见的关键点的空间和视觉关系,例如显着的[32]、
自相似的
[54]、 图神经网络从高维状态开始
统计上同时发生[73],
或相邻[58]。
上 对于每个节点,
并通过同时聚合跨节点的消息来在每一层计算更新的
另一方面, 第二幅图像中关键点的知识 表示
可以通过比较候选人来帮助解决歧义 所有节点的所有给定边。
根据全局和明确的线索匹配或估计相对光度或几何变换。 令()x  A 是元素的中间表示

i  位于图像  A  的层 。 消息mE→i是以下结果
当被要求匹配给定的模糊关键点时, 人类会来回查看这两个图像: 所有关键点  {j :  (i,  j)  ∈  E}  的聚合,
其中
他们会筛选 E  ∈  {Eself,  Ecross}。
剩余消息传递更新
尝试性匹配关键点, 检查每个关键点并寻找 A  中的所有  i  是:
上下文线索有助于消除真实匹配的歧义
其他自相似性[11]。这暗示了一个迭代过程 (+1)x  A 我
=  ()x  A 我
+  MLP  ()x  A 我 ||  mE→i , (3)
可以将注意力集中在特定位置。
因此,
我们将  Super  Glue  的第一个主要模块设计为注意力图神经 其中  [·  ||  ·]表示串联。 类似的更新可以
网络(见图3)。给定初始局部特征, 它计算匹配 对图像  B  中的所有关键点同时执行。
具有不同参数的固定数量的层  L  是
D
描述符fi  ∈  R 通过让特征进行交流 沿着自身和交叉链状或聚合
与彼此。正如我们将要展示的,
图像内部和图像之间的远程特征聚合对 边缘。 因此, 从  =  1  开始, E  =  Eself如果是奇数
于稳健匹配至关重要。 如果是偶数, 则  E  =  Ecross 。

3
Machine Translated by Google

图像A 图像B 相似或显着的关键点的位置。


这使得能够表示几何变换和分配。
最终的匹配描
述符是线性投影:




FA我
=  W·  (L)x  A 我
+  b,  ∀i  ∈  A, (6)

对于  B  中的关键点也是如此。

3.2.最优匹配层
SuperGlue  的第二个主要块(见图3)






最佳匹配层,
产生部分分配矩阵。
正如在标准图匹配公式中一样,
分配  P  可以
通过计算  a  来获得

所有可能的匹配的得分矩阵  S  ∈  RM×N并在约束下最大化总得分Si,jPi,j

图  4:
自我注意力和交叉注意力的可视化。
注意力聚合在关键点之间构建动态 我,j
等式1  中。
这相当于解决线性分配问题。
图。
权重αij显示为射线。
自注意力(上)

可以参与同一图像中的任何位置,
例如独特的位置,
因此不限于附近的位置。
交 分数预测:
建立一个单独的表示
叉注意力(底部)
关注另一张图像中的位置, 所有  M  ×  N  种潜在匹配都将被禁止。
相反,
我们将成对得分表示为匹配描述
符的相似度:
例如具有相似外观的潜在匹配项。

A 乙
Si,  j  =<  f 我

F j  >,  ∀(i,  j)  ∈  A  ×  B, (7)
注意力聚合:
注意力机制执行聚合并计算消息mE→i 。
其中  <·,·>  是内积。
与学到的相反
自边缘基于自注意力[61]和交叉边缘 视觉描述符,
匹配描述符没有标准化,
并且它们的大小可以根据特征和在
是基于交叉注意力的。
类似于数据库检索,
i  的表示,
查询qi ,
检索值vj 训练以反映预测置信度。
一些元素基于它们的属性,
键kj 。 这
遮挡和可见性:
让网络抑制
消息计算为值的加权平均值: 一些关键点,
我们在每组中都增加了一个垃圾箱,
以便
不匹配的关键点被显式分配给它。
这种技术在图形匹配中很常见,
垃圾箱也有
mE→i  = αijvj , (4)
j:(i,j)εE SuperPoint  [18]使用它来解释图像单元
可能没有检测到。
我们将分数  S  增加到  S´
其中注意力权重αij是关键查询相似度上的  Softmax:  αij  =  Softmaxj  q  i  
通过附加新的行和列,
点到容器和
kj 。
bin‑to‑bin  分数,
填充有单个可学习参数:
键、
查询和值被计算为图神经网络深层特征的线性投影。
考虑到查询关键
点  i  在图像  Q  和所有源中 S ̄
我,N+1 =  S´M+1,j  =  S´M+1,N+1  =  z  ∈  R。 (8)

2
关键点在图像  S  中,
(Q,  S)  ∈  {A,  B} , 我们可以写: 而  A  中的关键点将被分配给单个关键点
在  B  或垃圾箱中,
每个垃圾箱有尽可能多的火柴
qi  =  W1()x  Q 我
+  b1 另一组有关键点:
N、M  代表垃圾箱
(5) 分别在A、
B中。
我们表示为  a  =  1 中号
N  和
千焦 = W2 b2
()x  S
j
+ 。

维杰 W3 b3 b  =  1 A   M  每个的预期匹配数


和  B  中的N  个关键点和垃圾箱。
增强分配  P     现在具有约束:
每层都有自己的投影参数,
经过学习和
两个图像的所有关键点共享。
在实践中,
我们
通过多头注意力提高表达能力[61]。 P1 ̄ N+1 =  a  且  P´  1M+1  =  b。 (9)
我们的配方提供了最大的灵活性
网络可以学习基于关键点的子集 Sinkhorn  算法:
上述优化问题的解决方案对应于分数为  S  的离散分布  a  和  
特定属性(见图4)。  SuperGlue  可以检索 b  之间的最优传输[39] 。
它是
或根据外观和关键点位置参加
因为它们被编码在表示xi中。 这包括 熵正则化公式自然会产生所需的软分配,
并且可以在  GPU  上有效求解
关注附近的关键点并救回亲属

4
Machine Translated by Google

使用  Sinkhorn  算法[55,  12]。
它是一个可微分的 4.  实施细节
匈牙利算法的版本[35], 经典使用
SuperGlue  可以与任何局部特征检测器和描述符结合使用, 但与  
对于二分匹配, 包括沿着行和列迭代标准化  exp(S´), 类似于  row  和
Super  Point  [18]配合使用效果特别好,它可以生成可重复且稀疏的
关键点
Softmax  列。  T  次迭代后, 我们扔掉垃圾箱
并恢复  P  =  P¯ –  实现非常高效的匹配。 视觉描述符是
1:
M,1:
N 。
从半密集特征图中双线性采样。 为了
3.3.损失 与其他匹配器进行公平比较, 除非明确提及,否则我们不会在以下情况
下训练视觉描述符网络
根据设计,
图神经网络和最佳匹配层都是可微分的 这使得从匹配
训练超级胶。 在测试时, 可以使用置信度
到视觉描述符的反向传播成为可能。
强力胶
阈值(我们选择0.2) 来保留一些匹配
软分配,
或者使用所有这些以及他们对一个任务的信心
从地面实况比赛中以监督方式进行训练
后续步骤,
例如加权姿态估计。
M  =  {(i,  j)}  ⊂  A  ×  B。
这些是根据地面估计的
真实相对变换 使用姿势和深度图 架构细节: 所有中间表示
或单应词。 这也让我们可以标记一些关键点 (键、 查询值、 描述符) 具有相同的维度
如果  I  ⊆  A  和  J  ⊆  B  附近没有任何重投影, 则它们不匹配。
给定这些标 D  =  256  作为  SuperPoint  描述符。 我们使用  L=9  层的交替多头自注
签, 我们最小化 意力和交叉注意力
赋值  P  的负对数似然: 每个  4  个头, 并执行  T  =  100  Sinkhorn  迭代。
该模型在PyTorch中实现[38], 包含12M
损失=- 对数  P 我,j 参数, 并在  NVIDIA  GTX  1080  上实时运行
(i,j)∈M GPU: 前向传递平均需要69毫秒(15  FPS)
(10)

对数  P i,N+1  - 对数  P M+1,j 。 室内图像对(参见附录C)。
i∈I j∈J 训练细节:
为了允许数据增强,超级点检测和描述步骤是动态执行的, 如
这种监督的目的是同时最大限度地 下所示
匹配的精确度和召回率。 训练期间分批进行。
一些随机关键点是
进一步添加以实现高效配料和增强稳健性。附录E提供了更多详细信
3.4.与相关工作的比较 息。
SuperGlue  架构与排列等价
图像中的关键点。 与其他手工制品不同
5.  实验
或学习方法, 它也等价于排列 5.1.单应性估计
的图像, 更好地反映了图像的对称性
问题并提供有益的归纳偏置。 此外,最佳运输方案强制互惠 我们使用真实图像和合成单应性进行大规模单应性估计实验

比赛的过程, 就像相互检查一样,
但是以一种温和的方式, 鲁棒(RANSAC)
和非鲁棒(DLT)
估计器。
类似于[46],
从而将其嵌入到训练过程中。 数据集:我们通过对随机单应性进行采样并应用随机光度畸变来生成
SuperGlue  与实例标准化[60]:
注意, 图像对
SuperGlue  使用的是比实例规范化更灵活、更强大的上下文聚合机 真实图像,遵循类似于[16,18,45,44 ]的配方。
制, 底层图像来自牛津和巴黎数据集中的  1M  分散图像集[42],
分为
正如之前的工作所使用的那样,
它平等地对待所有关键点
关于特征匹配[ 33,71,32,44,7 ] 。 训练、
验证和测试集。

SuperGlue  与  ContextDesc  [32]:  SuperGlue  可以联合 单应性估计  AUC
当地的
关于外观和位置的原因, 而  ContextDesc 火柴 公关
特征 分布式账本技术
分别处理它们。 此外, ContextDesc  是一个
神经网络 39.47   0.00   21.7  65.4
前端还需要更大的区域提取器, 并且会损失关键点得分。  SuperGlue NN+相互 42.45   0.24   43.8  56.5
只需要 超级点 神经网络+点CN 43.02   45.40   76.2  64.2
本地特征, 学习的或手工制作的, 因此可以成为现有匹配器的简单替代 神经网络+OA网络 44.55   52.29   82.8  64.7
强力胶 53.67 65.85 90.7  98.3
品。
SuperGlue  与  Transformer  [61]:  SuperGlue  借用了 表  1:
单应性估计。  SuperGlue  恢复几乎所有可能的匹配,同时抑制
来自  Transformer  的自注意力, 但将其嵌入到 大多数异常值。
图神经网络,
并额外引入了对称的交叉注意力。
这简化了架构,
并实现了 由于  SuperGlue  信件的质量很高,
更好的跨层功能重用。 直接线性变换  (DLT)  是一种基于最小二乘的解决方案, 没有鲁棒性机
制, 其性能优于  RANSAC。

5
Machine Translated by Google

基线:
我们将  SuperGlue  与应用于  SuperPoint  局部特征的几个匹配 当地的
姿态估计AUC
火柴 经前MS
特征
器进行比较  ‑  最近邻  (NN)  匹配器和各种异常值拒绝器: 相互 @5°  @10°  @20°

ORB 神经网络+GMS 5.21  13.65  25.36  72.0  5.7


D2网络 NN+相互 5.25  14.53  27.96  46.7  12.0
NN  约束、
PointCN  [33]和订单感知网络
ContextDesc  NN  +  比率测试 6.64  15.01  25.75  51.2  9.2
(OANet)  [71]。
所有学习的方法,
包括  SuperGlue,
NN+比率测试 5.83  13.06  22.47  40.3 1.0
通过将关键点从一张图像投影到另一张图像来找到地面真实对应关系 NN+OF‑RANSAC 6.19  13.80  23.73  61.9  0.7

进行训练。 我们生成 神经网络+OA网络 6.00  14.33  25.90  38.6  4.2
强力胶 6.71  15.70  28.67  74.2  9.8
即时单应性和光度畸变  –
NN  +  相互  9.43  21.53  36.40  50.4  18.8
训练期间图像对不会出现两次。 NN+距离+相互  9.82  22.42  36.83  63.9  14.6
神经网络+GMS  8.39  18.96  31.56  50.3  19.0
指标:
计算匹配精度  (P)  和召回率  (R) 超级点 NN+PointCN  11.40  25.47  41.41  71.8  25.5
来自地面实况对应。
使用  RANSAC  和  Direct  进行单应性估计 神经网络+OANet  11.76  26.90  43.85  74.0  25.7
强力胶  16.16  33.81  51.84  84.4  31.5

线性变换[24]  (DLT),
具有直接最小二乘解。
我们计算平均重投影误
表  2:
宽基线室内姿态估计。
我们报告位姿误差的AUC,
匹配分数(MS)

图像的四个角并报告下面的面积
和精度  (P),
均以百分比  %  表示。
超级胶水表现优于其他产品
累积误差曲线  (AUC)  最高可达  10  个像素的值。
所有手工制作和学习的匹配器应用于两者时
结果:  SuperGlue  具有足够的表达能力来掌握同形异义, 实现  98%   SIFT  和  SuperPoint。
的召回率和高精度(参见
表1)。 估计的对应关系非常好 室内的 户外的
51.8
50
64.2
60
不需要强大的估算器  –  SuperGlue  甚至可以工作 43.8 50
DLT  比  RANSAC  更好。
像PointCN和OANet这样的异常值拒绝方法无
40
36.4 46.9 49.4
40.3
40
30 28.7
法预测更正确 20
25.9
22.5 30 30.9 35.3
20
比  NN  匹配器本身更匹配, 过度依赖 10 10
AUC@20°  
(%)

初始描述符(参见图6和附录A)。 0 0

SIFT  +  NN  +  比率测试 SuperPoint  +  NN  +  相互
5.2.室内姿态估计 SIFT  +  神经网络  +  OANet SuperPoint  +  NN  +  OANet
筛分  +强力胶 超级点  +超级胶
由于室内图像匹配非常具有挑战性
缺乏纹理、丰富的自相似性、
场景的复杂  3D  几何形状以及大的视点变 图  5:
室内和室外姿势估计。  Super  Glue  与  SIFT  或  SuperPoint  局
化。 部特征配合使用, 并持续大幅提高姿势精度
如下所示,
SuperGlue  可以有效地
学习先验知识来克服这些挑战。 OANet,
一种最先进的异常值拒绝神经网络。

数据集:
我们使用ScanNet  [13],
一个大型室内数据集
由具有真实姿势的单目序列组成
基线: 我们评估  SuperGlue  和各种基线
和深度图像, 以及明确定义的训练、 验证和
使用根归一化  SIFT  [31,  2]  和  Su  perPoint  [18]特征的匹配器。  
测试对应不同场景的分割。 以前的作品
SuperGlue  使用源自地面实况的对应和无与伦比的关键点进行训练
根据时间差[37,  17]或  SfM  共视性[33,  71,  7]  选择训练和评估对,
通常
使用  SIFT  计算。我们认为这限制了
姿势和深度。 所有基线均基于最近的基线
邻居(NN) 匹配器和潜在的异常值拒绝方法。 在“手工制作”
类别中,我
对,
并根据重叠分数选择它们
们考虑
计算给定序列中所有可能的图像对
相互检查、 比率测试[31]、
描述符距离阈值以及更复杂的  GMS  [6]。  
仅使用地面真实姿势和深度。这导致
“Learned”类别中的方法是PointCN  [33],

显着更宽的基线对,对应于
现实世界室内图像匹配的当前前沿。丢弃重叠太小或太大的梳理对,

后续OANet  [71]和NG‑RANSAC  [7]。
我们重新训练
们选择
ScanNet  上的  PointCN  和  OANet,
适用于  SuperPoint  和
230M  训练和  1500  个测试对。 使用上述定义的  SIFT  和分类损失
指标: 与之前的工作[33,71,7 ]一样,我们报告 正确性标准及其各自的回归损失。
阈值处姿态误差的  AUC  (5° , 10° , 20° ), 对于  NG‑RANSAC,
我们使用原始训练的模型。
我们
其中位姿误差是角度误差的最大值 不包括任何图形匹配方法,
因为它们对于关键点的数量来说太慢了
旋转和平移。 相对位姿是从
使用  RANSAC  进行基本矩阵估计。 我们还报道 我们考虑  (>500)。
其他局部特征评估为
匹配精度和匹配分数[18,  69], 其中 参考:
ORB  [47]与  GMS、
D2‑Net  [19]和  ContextDesc  [32]使用公开可
根据极距, 匹配被认为是正确的。 用的训练模型。

6
Machine Translated by Google

结果:
与手工制作和学习的匹配器相比,
SuperGlue  的姿势精度显着提高 火柴
姿势 匹配 匹配
AUC@20° 精确 分数

NN+相互 36.40 50.4 18.8


(参见表2和图5),
并且与  SIFT  配合良好
无图神经网络 38.56   66.0   17.2
和超级点。
它的精度明显高于
无交叉注意力 42.57   74.0   25.3
其他学习匹配器,
展示了其更高的表示能力。
它还会产生大量正确的 强力胶 无位置编码 47.12   75.8   26.6
较小(3层) 46.93   79.9   30.0
全层(9层) 51.84 84.4 31.5
匹配  –  比应用于  SIFT  时的比率测试多  10  倍,
因为它对全部可能的集合进行
操作
表  4:  SuperGlue  的消融。
虽然最佳匹配层单独改进了基线最近邻匹配器,
匹配,
而不是有限的最近邻居集。
但图神经网络解释了  SuperGlue  带来的大部分收益。
两者交叉注意力
SuperGlue  与  SuperPoint  实现了最先进的结果
关于室内姿态估计。
他们相辅相成
好吧,
因为可重复的关键点使得估计成为可能
和位置编码对于强力粘合至关重要,
并且
即使在非常具有挑战性的情况下也能获得更多的正确匹配
更深的网络进一步提高了精度。
情况(参见图2、
图6  和附录A)。

5.3.户外姿势估计 5.4.了解强力胶
由于户外图像序列呈现出自己的一套 消融研究:
为了评估我们的设计决策,
我们使用  SuperPoint  功能重复室内实
挑战(例如,
照明变化和遮挡),
我们训练 验,
但是
并评估  SuperGlue  在户外的姿势估计 这次重点关注不同的  SuperGlue  变体。
表  4  中列出的这项消融研究表明,

环境。
我们使用相同的评估指标和基线 有  SuperGlue
方法与室内姿态估计任务中的方法相同。 块很有用,
可以带来显着的性能提升。
数据集:
我们对  PhotoTourism  数据集进行评估,
该数据集 当我们在训练  SuperGlue  时另外通过  Super  Point  描述符网络进行反
是  CVPR 19  图像匹配挑战赛的一部分[1]。
它 向传播时,
我们观察到  AUC@20°从  51.84  提高到  53.38。
是  YFCC100M  数据集[56]的子集,
并且具有地面
从现成的  SfM  工具获得的真实姿势和稀疏  3D  模型[37,52,53 ] 。
所有学到的 这证实了  SuperGlue  适合端到端
方法都经过训练 学习超越匹配。
在更大的  MegaDepth  数据集[29]  上,
该数据集也具有深度 可视化注意力:
自我和自我的广泛多样性
使用多视图立体计算的地图。
中的场景 交叉注意力模式如图7所示,
反映了
PhotoTourism  测试集已从训练集中删除。 习得行为的复杂性。
详细分析
与室内情况类似,
我们使用重叠分数选择具有挑战性的图像对进行训练和评 趋势和内部运作在附录D中进行。

根据[19,  37]中的  SfM  共可见性计算。 六,
结论
结果:
如表  3  所示,
SuperGlue  优于所有
本文展示了基于注意力的力量
基线,
在所有相对姿势阈值,
当应用于
用于局部特征匹配的图神经网络。  Super  Glue  的架构使用两种注意力:
(i)  自
SuperPoint  和  SIFT。
最值得注意的是,
精度
注意力,
它增强了局部描述符的感受野,
结果匹配度非常高  (84.9%),
强化了
SuperGlue  将局部特征“粘合”
在一起的类比。
(ii)  交叉注意力,
它可以实现跨图像通信,
并受到人类回顾方式的启发  ‑

姿态估计AUC
当地的
火柴 经前MS 匹配图像时来回。
我们的方法优雅
特征 @5°  @10°  @20°
通过求解来处理部分分配和遮挡点
ContextDesc  NN  +  比率测试 20.16  31.65  44.05  56.2  3.3
一个最优运输问题。
我们的实验表明
NN+比率检验  15.19  24.72  35.30  43.4  1.7 SuperGlue  比现有产品有了显着改进
NN+NG‑RANSAC  15.61  25.28  35.87  64.4  1.9
筛 方法,
能够对极宽基线室内和室外图像进行高精度相对位姿估计
神经网络+OANet  18.02  28.76  40.31  55.0  3.7
强力胶  23.68  36.44  49.44  74.1  7.2

NN+相互 9.80  18.99  30.88  22.5  4.9 对。
此外,SuperGlue  实时运行并工作
神经网络+GMS 13.96  24.58  36.53  47.1  4.7
超级点 兼具古典和博学的特点。
神经网络+OA网络 21.03  34.08  46.88  52.4  8.4
强力胶 34.18  50.32  64.16  84.9  11.1 总之,
我们的可学习中端用强大的神经模型取代了手工制作的启发式方法,
该模型在单个统一架构中同时执行上下文聚合、
匹配和过滤。
我们相信,

表  3:
室外姿势估计。
匹配超级点
和  SIFT  特征与  SuperGlue  的结果显着
更高的姿态准确度  (AUC)、
精度  (P)  和匹配 SuperGlue  与深度前端相结合,
是迈向端到端深度  SLAM  的一个重要里程碑。
与手工或其他学习方法相比,
得分(MS)
更高。

7
Machine Translated by Google

SuperPoint  +  NN  +  距离阈值 SuperPoint  +  NN  +  OANet 超级点  +超级胶







图  6:
定性图像匹配。
我们将  SuperGlue  与具有两个离群值的最近邻  (NN)  匹配器进行比较
在三种环境中手工制作和学习的拒绝者。  SuperGlue  始终如一地估计出更正确的匹配(绿色
线) 和更少的不匹配(红线), 成功应对重复的纹理、 大视点和照明变化。


图  7:
注意力可视化。
我们展示了各个层和头部的自注意力和交叉注意力权重αij 。  SuperGlue  ex  具有多种模式:
它可以关注全球或本地背景、
自相似
性、 独特特征或匹配候选者。

8
Machine Translated by Google

附录 HPatches:
我们使用  HPatches  [3]数据集评估  Super  Glue  在真实
数据上的泛化能力, 如
在接下来的几页中, 我们将介绍额外的实验细节、
定量结果、Su  
以前的作品[18,  45]。
该数据集描绘了平面场景
perGlue  的定性示例、
详细的计时结果,以及所学到的注意力模式的可
具有地面实况单应性并包含  295  个图像
视化和分析。
与视点变化配对和  285  对与照明变化配对。 我们评估在综合数据集上
训练的模型(参见第5.1  节)。  HPatches  实验

A.  详细结果
表  5  总结了这一点。 正如之前在
A.1.单应性估计 合成单应性实验, SuperGlue  的召回率明显高于所有依赖神经网络的
匹配器
定性结果: 整页的定性结果 搜索。 我们将召回率的剩余差距归因于  SuperPoint  无法检测到足够
合成单应性和真实单应性的  SuperGlue  匹配 的可重复关键点的几个具有挑战性的对。 尽管如此,
经过训练的合成数
见图13。 据集  SuperGlue  可以很好地推广到真实数据。
合成数据集:
我们更详细地了解第  5.1  节中的单应性评估。
图8显示了

在几个正确性像素阈值下匹配精度
A2。
室内姿态估计
单应性估计的累积误差曲线。  Su  perGlue  在所有像素正确性阈值中
占据主导地位。
定性结果:
图14显示了  SuperGlue  在室内图像上计算的更多匹配可
匹配精度 单应性准确度 视化,
并突出了构成我们评估数据集的宽基线图像对的极端难度。
100 100

80 80

ScanNet:
我们提供有关结果的更多详细信息
(%)

精   
60 60 ScanNet(第5.2节), 仅分析以下方法
使用  SuperPoint  本地功能。
图9绘制了累积值
40 40
位姿估计误差曲线以及精度和正确匹配数量之间的权衡。 我们根据重
(%)





正   

投影误差计算正确性(使用地面事实
20 20

0 0
深度和  10  像素的阈值), 并且, 对于具有
1 2 3 4 5 0 5 10 15
来自对称极线误差的无效深度。 我们获得
正确性阈值  (px) 估计误差(像素)
通过改变  PointCN  的置信度阈值来绘制曲线,
神经网络+RANSAC NN  +  相互  +  RANSAC
NN+PointCN+DLT NN+PointCN+RANSAC
OANet  和  SuperGlue。
在评估时, 我们使用原始的
神经网络+OANet+DLT NN  +  OANet  +  RANSAC 前两者的值为  0.5, SuperGlue  的值为  0.2。
强力胶+  DLT 强力胶+  RANSAC

图  8:
单应性评估的详细信息。  Super  Glue  表现出更高的精度和单应 姿势准确度 匹配精度
100 90
性精度
所有阈值。 与  RANSAC  相比,
DLT  的高精度导致更准确的估计。 80
80

70
60
(%)

精   

(%)

姿


60

40
当地的 视点照明 50
火柴
特征 富血小板血浆 右
20 40
NN  39.7  81.7  51.1  84.9
NN  +  相互  65.6  77.1  74.2  80.7 30
0
超级点 NN+点CN  87.6  80.7  94.5  82.6 0 10 20 30 30  40  50  60  70  80
神经网络+OANet  90.4  81.2  96.3  83.5 估计误差(度) 正确匹配数

强力胶  91.4  95.7  89.1  91.7
NN+相互 神经网络+点CN 神经网络+OA网络

NN+距离+相互 强力胶
表  5: 对实际数据的概括。 我们在  HPatches  数据集的视点和照明子集
上展示了在合成单应性数据集(参见第5.1节) 上训练的方法的精度   图  9:  ScanNet  评估的详细信息。
使用  SuperGlue  估计的姿势在所
(P)  和召回率  (R) 。 有错误阈值下都更加准确。  SuperGlue  提供了精度之间的最佳权衡

在接受合成单应性训练时,
SuperGlue  可以很好地泛化为真实数据。 和正确匹配的数量,
这对于
准确且稳健的姿态估计。

9
Machine Translated by Google

精确曲线下面积 大约。
曲线下面积[71] 正确本地化的查询  (%)
当地的

‧ ‧
火柴 方法 #  特征
特征 5 10° 20° 5 10° 20° .5m/2°  1m/5° 5m/10°

ContextDesc  NN  +  比率测试  26.09  45.52  63.07  53.00  63.13  73.00 R2D2  [45]  46.9  D2‑Net  [19]   66.3   88.8   20k


45.9  UR2KID  [68]  46.9   68.4   88.8   15k
NN+比率检验  24.09  40.71  58.14  45.12  55.81  67.20
SuperPoint+NN+互  43.9   67.3   88.8   15k
神经网络  +  OANet*  28.76  48.42  66.18  55.50  65.94  76.17
筛 SuperPoint+SuperGlue  45.9 59.2   76.5   4k
神经网络+OANet  29.15  48.12  65.08  55.06  64.97  74.83
70.4 88.8 4k
强力胶  30.49  51.29  69.72  59.25  70.38  80.44

NN+相互  16.94  30.39  45.72  35.00  43.12  54.05
表  7:
亚琛昼夜的视觉定位。  Super  Glue  显着提高了  SuperPoint  的性能
超级点 神经网络+OANet  26.82  45.04  62.17  50.94  61.41  71.77
强力胶  38.72  59.13  75.81  67.75  77.41  85.70
进行本地化,
达到新的最先进的结果
表  6:  YFCC100M  对的室外姿态估计。 关键点相对较少。
评估是在相同的图像对上进行的
在  OANet  [71]中使用他们的近似值和我们的精确值 B.  用于视觉定位的  SuperGlue
曲线下面积。  SuperGlue  持续改进基线
当使用  SIFT  和  SuperPoint  时。 视觉定位:
虽然双视图相对位姿估计是一个重要的基本问题,
但在

A.3.户外姿势估计 图像匹配可以直接有益于视觉定位等实际任务[50,  48],
其目的是估计查询图
像相对于  3D  模型的绝对姿态。
定性结果:
图15显示了关于
Phototourism  测试集和  MegaDepth  验证集。
此外,
现实世界的定位场景表现出明显更高的场景多样性和更具挑战性的条
YFCC100M:
而PhotoTourism  [1]和Zhang等人 件,
例如更大的视点和照明变化,
al.的[71]测试集都是基于YFCC100M  [56],
他们
使用不同的场景和配对。
为了便于比较,
我们也对SuperGlue进行了同样的评 比热门地标的旅游摄影数据集。

评估:
亚琛日夜基准[51,  50]
像  OANet  [71]中一样,
使用它们的评估指标。
我们
评估昼夜定位的局部特征匹配。
包括在其训练集上重新训练的  OANet  模型  (*)
我们使用  Super  Point  每张图像提取多达  4096  个关键点,
使用  
(而不是  MegaDepth)
使用根归一化  SIFT。

结果如表6所示。 SuperGlue  进行匹配, 对  SfM  进行三角测量
从白天数据库图像中建立模型,
并使用  2D‑2D  匹配和注册夜间查询图像
正如第5.3节中在对  Pho  toTourism  数据集进行评估时所观察到的,
SuperGlue  持续改进
科尔地图[52]。
评估服务器1计算位于多个距离内的查询的百分比,

SIFT  和  SuperPoint  的所有基线。
对于  SIFT  而言,
相对于  OANet  的改进有所下降,
我们将其归因于
方向阈值。
如表  7  所示,
尽管使用的关键点少得多,
但  Super  Point+SuperGlue  
显着更高的重叠和更低的难度
的性能与所有现有方法类似或更好。
[71]使用的对。
虽然近似  AUC  趋于
高估了准确性, 会导致相同的排名
图10显示了具有挑战性的昼夜图像对。
的方法。  OANet  与  SIFT  和  Su  perPoint  的数据与他们论文中报告的数据
一致。 1https://www.visuallocalization.net/

图  10:
使用  SuperGlue  匹配具有挑战性的昼夜配对。
我们显示了亚琛昼夜数据集的夜间查询和白天数据库图像之间的预测对应关系。
对应关系的颜色为  RANSAC

绿色的内部值或红色的异常值。
尽管户外训练集很少有夜间图像,
但  SuperGlue  很好地概括了此类情况
极端的光照变化。
此外,
它可以精确匹配窗户等重复图案的建筑立面。

10
Machine Translated by Google

SuperGlue  推理时间 自我注意力广度 交叉注意力广度


250 250
270  毫秒
250
200 200
(秒)

时 毫
200
87  毫秒 150 150
150
69  毫秒 (素)



平 像

100 (素)



平 像

100
100

50 50 50

0 0 0
256 第512章 1024 2048
0 5 10 15 1 6 11 16
每张图像的关键点数量 层数索引 层数索引

全图神经网络 最佳匹配层
图  12:
整个  SuperGlue  的注意力范围。
我们绘制了注意力跨度(注意力
图  11:  SuperGlue  详细的推理时间。  Super  Glue  的两个主要模块, 空间分散的度量) 与层指数的关系。 对于这两种类型的注意力,随着  
图神经网络和最佳匹配层, 具有相似的计算成本。 SuperGlue  专注于特定位置, 跨度往往会在网络深处减小。请参见图  16  
中的示例。
对于每个图像  512  和  1024  个关键点,
SuperGlue  的运行速度分别
为  14.5  和  11.5  FPS。

C.  时序和模型参数 定性示例: 我们分析了图16中特定示例的注意力模式。


我们的观察结果与
图  12  中报告的注意力广度趋势一致。
计时: 我们针对每个图像不同数量的关键点测量了  SuperGlue  及其两
个主要模块(图神经网络和最佳匹配层) 的运行时间。测量是在  NVIDIA  
GeForce  GTX  1080  GPU  上运行  500  次进行的。参见图11。
E.  实验细节
在本节中,
我们提供有关  SuperGlue  训练和评估的详细信息。
训练后的模型以
模型参数:  Keypoint  Encoder  MLP  有  5  层,
将位置映射到大小维度 及评估代码和图像对可在github.com/magicleap/SuperGluePretrainedNetwork  
(32、
64、
128、
256、
D),
产生  100k  个参数。
每层都有三个投影矩阵,
以 上公开获取。
及一个额外的WO来处理多头输出。 消息更新  MLP  有  2  层并映射到维度
(2D,
D)。
两种  MLP  都使用  BatchNorm  和  ReLU。
每层有0.66M个参 室内数据集的选择:
之前关于内点分类的工作[33,71,7 ]评估了SUN3D数
数。
据集[67]上的室内姿态估计。  SUN3D  中的相机姿态是根据基于  SIFT  
的稀疏  SfM  估计的,
而  ScanNet  利用  RGB‑D  融合和优化[14],
从而获
得更准确的姿态。 这使得  ScanNet  更适合生成准确的对应标签和评估姿
SuperGlue有18层,
总共12M个参数。
势估计。 我们还注意到, Zhang  等人使用的  SUN3D  图像对。  [71]通常
具有较小的基线和旋转角度。
D.  分析注意力
定量分析:
我们计算所有层和所有关键点的注意力权重的空间范围(注
意力跨度)。自注意力跨度对应于像素空间中一个关键点  i  和所有其他  j  
之间的距离,由注意力权重αij加权,
并对所有查询进行平均。 交叉注意力
这使得基本矩阵估计退化[24]并且角度平移误差不明确。 相比之下,我们
跨度对应于最终预测的匹配与所有关注的关键点  j  之间的平均距离。我
的  ScanNet  宽基线对在基线和旋转方面具有明显更多的多样性,因此
们对  100  个  ScanNet  对的跨度进行平均,
并在图12中绘制了每层所有
不会遇到上述问题。
头的最小值, 置信区间为  95%。

单应性估计  –  第5.1  节:测试集包含  1024  对  640×480  图像。单应性是
通过对原始全尺寸图像应用随机透视、 缩放、旋转和平移来生成的, 以避
自注意力和交叉注意力的跨度往往会在整个层中减小, 第一层和最 免边界伪影。 我们使用  SuperPoint  检测到的  512  个得分最高的关键
后一层之间的幅度超过  10  倍。  SuperGlue  最初关注覆盖图像大面积 点(非最大抑制  (NMS)  半径为  4  像素) 进行评估。 如果重投影误差低于  
的关键点,然后关注特定位置 自注意力关注关键点周围的小邻域, 而交 3  个像素,则对应被视为正确。 我们使用  OpenCV  函数  findHomography  
叉注意力将搜索范围缩小到真正匹配的附近。 进行  3000  次迭代,RANSAC  内点阈值为  3  像素。

中间层具有振荡跨度,
暗示着一个更复杂的过程。

11
Machine Translated by Google

室内姿态估计  –  第5.2  节:
重叠分数 关键点通过最大维度进行归一化
两幅图像  A  和  B  之间的平均像素比 图像。
在考虑了缺失的深度值和遮挡(通过检查 地面真值对应  M  和不匹配集
I  和  J  是通过首先使用以下公式计算所有检测到的关键点之
以保证深度的一致性)。
我们训练和评估 间的  M  ×  N  重新投影矩阵来生成的:
重叠分数在  [0.4,  0.8]  之间的对。
对于训练,
我们在每个时期对每个场景采样   地面实况单应性或姿势和深度。
对应项是具有重投影误差的条目,
该误差是沿
200  对,
与[19]中类似。
测试集是通过对序列进行  15  次子采样并随后对  300   行和列的最小值,
并且低于
个序列中的每一个序列随机采样  15  对来生成的。
我们调整大小
给定阈值:
单应性的  3、
5  和  3  像素,
分别进行室内、
室外匹配。
对于同应性,
不匹配的关键点就是那些不匹配的关键
所有  ScanNet  图像和深度图均为  640×480。
我们检测到多达  1024   点。
个  SuperPoint  关键点(使用公开的 出现在M中。
对于室内外搭配来说,
因为
可用的训练模型2 ,
NMS  半径为  4)  和  2048 位姿和深度的错误,
不匹配的关键点必须
SIFT  关键点(使用  OpenCV  的实现)。
姿势 此外,
最小重投影误差大于
通过首先估计基本矩阵来计算 分别为  15  和  5  像素。
这使我们可以忽略标签
OpenCV  的  findEssentialMat  和  RANSAC 对于对应关系不明确的关键点,

1  像素的内部阈值除以焦距, 仍然通过常态化提供一些监督
接下来是恢复姿势。
与之前相比 由Sinkhorn算法引起。
工作[33,71,7 ] ,
我们使用显式积分而不是粗直方图来计算更准确的  AUC。

消融研究  –  第5.4  节:  “无图神经网络”
基线用单个替代图神经网络
精度(P)
是正确数量的平均比例
线性投影,
但保留关键点编码器和
匹配数超过估计匹配总数。

最佳匹配层。  “无交叉注意力”
基线
匹配分数(MS)
是匹配数量的平均比例
用自注意力替换所有交叉注意力层:
它具有
在检测到的关键点总数上进行正确匹配。
参数数量与完整模型相同,
其作用类似于
它没有考虑到该对的重叠和减少
连体网络。  “无位置编码”
基线
共同可见的关键点的数量。
如果对极距离小于  5  ·  10-4 ,
则认为匹配是正确
只需删除关键点编码器并仅使用视觉描述符作为输入。
的。

户外姿势估计  –  第5.3  节:
用于培训 端到端训练  –  第5.4  节:  Super  Point  的两个副本,
用于检测和描述,
使用
Megadepth,
重叠分数是三角剖分的比率
两个图像中可见的关键点,
如[19]中所示。 原始重量。
检测网络被冻结,
梯度仅通过描述符网络传播,
我们对每个重叠分数在  [0.1,  0.7]  之间的对进行采样
时代。
我们对摄影旅游的所有  11  个场景进行评估 从  SuperGlue  流出  ‑  不使用额外损失。
数据集并重用基于边界的重叠分数
由  Ono  等人计算的框。  [37],
具有选择范围
[0.1,
0.4]。
调整图像大小,
使其最长尺寸等于  1600  像素,
并使用它们的垂直旋

EXIF  数据。
我们为  SIFT  和  Su  perPoint  检测到  2048  个关键点(NMS  半径
为  3)。
这里的极线正确性阈值是10-4 。
其他评价参数

与室内评估所用的相同。

SuperGlue  的训练:
对于同应/室内/室外数据的训练,
我们使用  Adam  优化
器[25]
第一个的恒定倾斜率为10-4
200k/100k/50k  迭代,
然后是  0.999998/0.999992/0.999992  的指数衰减,
直到迭代  900k。
当使用  SuperPoint  功能时,
我们使用批处理
32/64/16图像对和固定数量512/400/1024
每张图像的关键点。
对于  SIFT  特征,
我们使用  1024  个关键点和  24  对。
由于
培训人数有限
场景中,
室外模型权重初始化为
单应性模型权重。
在关键点编码器之前,

2github.com/magicleap/SuperPointPretrainedNetwork

12
Machine Translated by Google

SuperPoint  +  NN  +  距离 SuperPoint  +  NN  +  OANet 超级点  +超级胶



HP



图  13:
更多单应性示例。 我们在合成数据集(参见第5.1  节)、
来自  HPatches  的真实图像对(参见附录A.1)
以及网络摄像头捕获的棋盘图像上显示
点对应关系。  SuperGlue  始终如一地估计更正确的匹配(绿线)和更少的不匹配(红线), 成功应对重复的纹理、 大视点和照明变化。

13
Machine Translated by Google

SuperPoint  +  NN  +  距离 SuperPoint  +  NN  +  OANet 超级点  +超级胶







图  14:
更多室内示例。我们展示了超级胶水效果良好的困难和非常困难的ScanNet  室内示例,
以及由于不可能的运动或缺乏可重复
的关键点而失败的三个太困难的示例
(最后两行)。 正确的匹配是绿线,不匹配是红线。
详细信息请参见第  5.2  节。

14
Machine Translated by Google

SuperPoint  +  NN  +  距离 SuperPoint  +  NN  +  OANet 超级点  +超级胶

图  15:
更多户外示例。我们展示了  MegaDepth  验证和  PhotoTourism  测试集的结果。 正确的
匹配的是绿线, 不匹配的是红线。最后一行显示了一个失败案例, 其中  SuperGlue  重点关注
错误的自相似性。 详细信息请参见第  5.3  节。

15
Machine Translated by Google

估计的对应关系 关键点

自我关注 交叉注意力

图  16:
跨层的注意力模式。 对于此图像对(由  SuperGlue  正确匹配),我们查看三个特定的
可搭配不同难度的要点: 简单要点、中等要点、
困难要点
关键。 我们可视化所选对象的自注意力和交叉注意力权重(分别在图像  A  和  B  内, 以及从  A  到  B)
层和头, 用αij改变边缘不透明度。 自注意力最初关注整个图像(第   1  行),
并逐渐关注每个关键点周围的一个小邻域
(最后一行)。 类似地,一些交叉注意力头专注于候选日期匹配, 并逐渐减少检查的集合。简单的关键点早在第9层就匹配了, 而更多

困难的只在最后一层匹配。 与图12  类似, 自我注意力和交叉注意力跨度通常会缩小


贯穿各层。
然而,它们在第  11  层有所增加, 该层涉及其他位置 看似独特的位置
都比较远。我们假设  SuperGlue  试图使用额外的上下文来消除具有挑战性的比赛的歧义。

16
Machine Translated by Google

参考 [18]  丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。  SuperPoint:
自监督兴趣
点检测
[1]  摄影旅游挑战赛,
CVPR  2019  图像匹配 和描述。
在  CVPR  深度学习研讨会上
作坊。  https://image‑matching‑workshop。 视觉SLAM ,  2018.2,4,5,6,9  _  _
github.io。
访问日期:
2019  年  11  月  8  日。  7,  10
´ [19]  Mihai  Dusmanu、 Ignatius  Rocco、 Thomas  Pajdla、 Marc  Polle  Feys、
[2]  雷利亚·阿兰杰洛维奇和安德鲁·齐瑟曼。 为了改进对象检索, 每个人都应该知道三件事。 Joseph  Sivic、
Akihiko  Torii  和  Torsten  Sattler。  D2‑网络:
在CVPR中, 一种可训练的  CNN,
用于联合检测和描述局部
2012年6月
特征。  CVPR ,  2019.2,6,7,10,12  _  _  _
[3]  Vassileios  Balntas、
Karel  Lenc、
Andrea  Vedaldi  和  Krystian  Mikolajczyk。   [20]  帕特里克·埃贝尔、
阿纳斯塔西娅·米什楚克、
光武义、
帕斯卡
Hpatches:
基准和评估 富阿和爱德华·特鲁尔斯。
超越笛卡尔表示
手工制作和学习的本地描述符。
在  CVPR,
2017  年。  9 局部描述符。
在ICCV,
2019年。
2
[4]  彼得·W·巴塔利亚、
杰西卡·B·哈姆里克、维克多·巴普斯特、阿尔瓦罗 [21]  马丁·A·菲施勒和罗伯特·C·博尔斯。
随机抽样
·桑切斯‑冈萨雷斯、维尼修斯·赞巴尔迪、马特乌斯·马林诺夫斯基、安 共识:
模型与应用程序拟合的范式
德里亚·塔切蒂、大卫·拉波索、亚当·桑托罗、 图像分析和自动制图。
通讯
瑞安·福克纳等人。
关系归纳偏差、
深度学习和图网络。  arXiv:1806.01261,  2018.  2,   ACM,
24(6):381–395,  1981.  2
3
[22]  乔纳斯·格林、
迈克尔·奥利、
大卫·格兰吉尔、
丹尼斯·亚拉茨、
[5]  亚历山大·C·伯格、
塔玛拉·L·伯格和吉腾德拉·马利克。 和扬·N·道芬  (Yann  N  Dauphin)。
卷积序列到序列
使用低失真的形状匹配和物体识别 学习。  ICML,
2017  年。
3
信件往来。  CVPR,
2005  年。
2 [23]  贾斯汀·吉尔默、
塞缪尔·S·舍恩霍尔茨、
帕特里克·F·莱利、
奥里奥尔
[6]  JiaWang  Bian,  Wen‑Yan  Lin,  Yasuyuki  Matsushita,  Sai‑Kit   黑胶唱片和乔治·E·达尔。
神经消息传递
杨丹达阮和郑明明。
全球管理系统: 量子化学。
在  ICML,
2017.  2,  3
基于网格的运动统计可实现快速、
超鲁棒的特征对应。  CVPR ,  2017.2,6
[24]  理查德·哈特利和安德鲁·齐瑟曼。
计算机视觉中的多视图几何。
剑桥大学出版社,

[7]  埃里克·布拉赫曼和卡斯滕·罗瑟。
神经引导 2003年6月11日
RANSAC:
学习在哪里对模型假设进行采样。
在 [25]  迪德里克·P·金马和吉米·巴。
亚当:
一种方法
ICCV,  2019.  2,  5,  6,  11,  12  
随机优化。  arXiv:1412.6980,  2014.  12
[8]  塞萨尔·卡德纳、
卢卡·卡隆、
亨利·卡里略、亚西尔·拉蒂夫、 [26]  Juho  Lee、
Yoonho  Lee、
Jungtaek  Kim、
Adam  Kosiorek、
Se  ungjin  Choi  和  Yee  
´
大卫·斯卡拉穆扎、
何塞·内拉、
伊恩·里德和约翰·J·伦纳德。
同时定位和绘图的过去、
现 Whye  Teh。  Set  Transformer:
基于注意力的排列不变神经网络的框架。
在  ICML,
在和未来:
迈向稳健感知时代。  IEEE 2019  年。
2

机器人学报, 32(6):1309–1332,  2016.  1
´ [27]  马吕斯·莱奥尔代努和马夏尔·赫伯特。
光谱技术
[9]  Tiberio  S  Caetano、 Julian  J  McAuley、
Li  Cheng、
Quoc  V  Le  和  Alex  J  Smola。
学习 对于使用成对约束的对应问题。

图匹配。  IEEE  TPAMI, ICCV,  2005.  2  
31(6):1048–1058,  2009.  2
[28]  Yujia  Li,  Chenjie  Gu,  Thomas  Dullien,  Oriol  Vinyals,  and  
[10]扬·切赫、
吉里·麦塔斯和米哈尔·佩尔多克。
通过协同分割进行高效的顺序对应选择。   普什梅特·科利。
用于学习的图匹配网络
IEEE 图结构对象的相似性。
在  ICML,
2019  年。
2
TPAMI,  32(9):1568–1581,  2010.  2
[29]  李正奇和诺亚·斯内夫利。  MegaDepth:
从互联网照片中学习单视图深度预测。
在  
[11]马文·M·春。
视觉注意力的上下文提示。 CVPR,
2018  年。
认知科学趋势,
4(5):170–178,  2000.  3 7
[12]  马可·库图里。  Sinkhorn  距离:
光速计算 [30]  Eliane  Maria  Loiola、
Nair  Maria  Maia  de  Abreu、
Paulo  Oswaldo  
的最佳运输。
于  NIPS,
2013.  2,  5 Boaventura‑Netto、 Peter  Hahn  和  Tania  Querido。  A
[13]  Angela  Dai、
Angel  X  Chang、
Manolis  Savva、
Maciej  Halber、
Thomas  Funkhouser   二次分配问题的调查。
欧洲运筹学杂志,
176(2):657–690,  2007.  2
和  Matthias  Nießner。
扫描网:
带有丰富注释的室内场景  3D  重建。
在 [31]  大卫·G·洛。
来自尺度不变关键点的独特图像特征。
国际计算机视觉杂志,  60(2):91–
CVPR,  2017.  6   110,  2004.  2,  6
[14]  Angela  Dai、
Matthias  Nießner、
Michael  Zollhofer、
Shahram  ¡
伊扎迪和克里斯蒂安·西奥巴尔特。
捆绑融合:
实时 [32]  Zixin  Luo,  Tianwei  Shen,  Lei  Zhou,  Jiahui  Zhang,  Yao  Yao,  
使用动态表面重新整合进行全局一致的  3D  重建。  ACM  图形交易  (ToG), 李世伟,
田芳,
⻰泉。  ContextDesc:
具有跨模态上下文的本地描述符增强。

36(3):24,  2017.  11 CVPR,  2019.  2,  3,  5,  6  
[15]  邓浩文,
托尔加·伯达尔,
斯洛博丹·伊利奇。  PPF网: [33]  Kwang  Moo  Yi、
Eduard  Trulls、
Yuki  Ono、
Vincent  Lepetit、
用于稳健  3D  点的全局上下文感知局部特征 马蒂厄·萨尔兹曼和帕斯卡·福阿。
学习寻找美好
匹配。  CVPR,
2018.  2 信件往来。  CVPR ,  2018.2,5,6,11,12  _  _  _
[16]  丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
深度图像单应性估计。
在   [34]  彼得·J·穆查、
托马斯·理查森、
凯文·梅肯、
梅森·A
RSS  研讨会:
机器人深度学习的局限性和潜力中, 波特和尤卡‑佩卡·翁内拉。
社区结构
时间相关的、
多尺度的、
多重的网络。
科学,  328(5980):876–878,  2010.  3
2016年5月

[17]  丹尼尔·德托内、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
自我改进的视觉里程计。   [35]  詹姆斯·芒克斯。
分配和运输问题的算法。
工业和社会学会杂志
arXiv:1812.03245,
2018年6月 应用数学,
5(1):32–38,  1957.  5

17  号
Machine Translated by Google

[36]文森佐·尼科西亚、
吉内斯特拉·比安科尼、
维托·拉托拉和马克 [55]  理查德·辛克霍恩和保罗·诺普。
关于非负数
巴泰勒米。
不断发展的多路复用网络。
体检 矩阵和双随机矩阵。
太平洋杂志
信件,  111(5):058701,  2013.  3 数学,  1967.  2,  5
[37]  Yuki  Ono、
Eduard  Trulls、
Pascal  Fua  和  Kwang  Moo  Yi。 [56]  Bart  Thomee、
David  A  Shamma、
Gerald  Friedland、
Ben  Jamin  Elizalde、
Karl  
LF‑Net:
从图像中学习局部特征。
在  NeurIPS  中, Ni、
Douglas  Polish、
Damian  Borth  和
2018年2、  6、  7、  12日 李丽佳.  YFCC100M: 多媒体研究的新数据。

[38]  亚当·帕斯克、
萨姆·格罗斯、
苏米特·钦塔拉、
格雷戈里 ACM  通讯,
59(2):64–73,  2016.  7,  10

查南、
爱德华·杨、
扎卡里·德维托、
林泽明、
阿尔·班·德梅森、
卢卡·安蒂加和亚当·勒勒。 [57]  洛伦佐·托雷萨尼、
弗拉基米尔·科尔莫哥洛夫和卡斯滕

自动的 罗瑟。
通过图形匹配进行特征对应:
模型

PyTorch  中的差异化。在  NIPS  研讨会上,
2017  年。  5 和全局优化。
在  ECCV,
2008  年。
2
´ [58]  Tomasz  Trzcinski、
Jacek  Komorowski、
Lukasz  Dabala、
Konrad  Czarnota、
[39]  加布里埃尔·佩尔和马可·库图里。 计算最优传输。 机器学习的基础和趋势,
Grzegorz  Kurzejamski  和  Simon  Lynen。
SConE:
用于图像匹配的连体星座嵌入描述符。  ECCV  研讨会,
2018  年。  3
11(5‑6):355–607,  2019.  2,  4
[40]  Charles  R  Qi,  Hao  Su,  Kaichun  Mo,  and  Leonidas  J  Guibas.  
[59]Tinne  Tuytelaars  和  Luc  J  Van  Gool。
宽基线立体声
PointNet:
针对  3D  分类的点集深度学习
基于局部仿射不变区域的匹配。

和细分。  CVPR,
2017  年。
2
BMVC,
2000年。
2
[41]  Charles  Ruizhongtai  Qi,  Li  Yi,  Hao  Su,  and  Leonidas  J  
[60]  德米特里·乌里扬诺夫、
安德里亚·维达尔迪和维克多·伦皮茨基。
实例标准化:
快速风格
吉巴斯。  Pointnet++:
深度分层特征学习
化所缺少的要素。  arXiv:1607.08022,  2016.  2,  5
度量空间中的点集。 在  NIPS,2017  年。2
´
[42]  Philip  Radenovic、
Ahmet  Iscen、Giorgos  Tolias、
Yannis  Avrithis  和  Ondˇrej   [61]  Ashish  Vaswani、Noam  Shazeer、Niki  Parmar、 Jakob  Uszko  reit、
Chum。
重访牛津和巴黎: Llion  Jones、
Aidan  N  Gomez、
Lukasz  Kaiser  和  Illia
大规模图像检索基准测试。
在  CVPR,
2018  年。 波洛苏欣。
您所需要的就是关注。
在  NIPS,
2017  年1  月2  日,
5 3,  4,  5
[43]  拉胡尔·拉古拉姆、
扬·迈克尔·弗拉姆和马克·波勒菲斯。 [62]  Petar  Velikovi、
Guillem  Cucurull、
Arantxa  Casanova、
Adriana  Romero、
Pietro  
RANSAC技术的比较分析 Li  和  Yoshua  Bengio。
图注意力
自适应实时随机样本共识。 在ECCV中, 网络。  ICLR,
2018  年。
2
´
2008年2月 [63]塞德里克·维拉尼。 最佳运输: 新旧,
第  338  卷。
´
[44]  雷内·兰福特和弗拉德伦·科尔通。深层基础矩阵 施普林格科学与商业媒体,
2008.  2
估计。
在  ECCV  中,
2018.  2,  5 [64]  王小⻰,
Ross  Girshick,
Abhinav  Gupta,
Kaim  ing  He。
非局部神经网络。  CVPR,
´
[45]  Jerome  Revaud、
Philippe  Weinzaepfel、
Cesar  De  Souza、Noe  Pion、
Gabriela   2018.  2
Csurka、
Yohann  Cabon  和  Martin  Humen  berger。  R2D2:
可重复且可靠的检 [65]  王悦和贾斯汀·M·所罗门。
深度最近点:
测器和描述器。
在NeurIPS ,  2019.2,5,9,10  _ 学习点云配准的表示。

ICCV,  2019.  2  
´
[46]  Ignatius  Rocco、
Mircea  Cimpoi、
Relja  Arandjelovic、
Akihiko  Torii、
Thomas   [66]  Yue  Wang,  Yongbin  Sun,  Ziwei  Liu,  Sanjay  E.  Sarma,  

Pajdla  和  Joseph  Sivic。
有传感器网络的社区。
在  NeurIPS,
2018.2中, 迈克尔·M·布朗斯坦和贾斯汀·M·所罗门。
动态的
用于点云学习的图  CNN。  ACM交易
关于图形,
2019.  2
[47]  伊森·卢布利  (Ethan  Rublee)、
文森特·拉博  (Vincent  Rabaud)、
库尔特·科诺利格  (Kurt  Konolige)  和加里·R  (Gary  R)
布拉德斯基。  ORB:
SIFT  或  SURF  的有效替代方案。
在 [67]  肖建雄,
安德鲁·欧文斯,
安东尼奥·托拉尔巴。
SUN3D:
使用  SfM  重建的大空间数据库
ICCV,  2011.  6  
和对象标签。
在  ICCV  中,
2013  年。  11
[48]  保罗·爱德华·萨林、
塞萨尔·卡德纳、
罗兰·西格沃特和
[68]  Tsun‑Yi  Yang、
Duy‑Kien  Nguyen、
Huub  Heijnen  和  Vas  sileios  Balntas。  
马尔辛·戴姆奇克.从粗到细:
稳健的分层
UR2KiD:
统一检索、
关键点检测和关键点描述,
无需本地对应
大规模本地化。
在  CVPR,
2019  年。  10
[49]  托斯顿·萨特勒、
巴斯蒂安·莱贝和莱夫·科贝尔特。  SCRAM  SAC:
通过空间一致性过滤
监督。  arXiv:2001.07252,  2020.  10
器提高  RANSAC  的效率。
在ICCV,
2009年。
2
[69]  Kwang  Moo  Yi、
Eduard  Trulls、
Vincent  Lepetit  和  Pascal
福阿。  LIFT:
学习不变特征变换。
在ECCV中,
[50]  托斯顿·萨特勒、
威尔·马德恩、
卡尔·托夫特、
鸟井明彦、 2016年2月6日
拉尔斯·哈马斯特兰德、
埃里克·斯滕伯格、
丹尼尔·萨法里、
正俊 [70]Manzil  Zaheer、
Satwik  Kottur、
Siamak  Ravanbakhsh、
Barnabas  Poczos、
Ruslan  
奥富美、
Marc  Pollefeys、
Joseph  Sivic  等。
标杆管理 R  Salakhutdinov  和  Alexander  J
变化条件下的  6dof  户外视觉定位。
在 斯莫拉。
深套。
在  NIPS,
2017  年。
2
CVPR,  2018.  10   [71]  Jiahui  Zhang,  Dawei  Sun,  Zixin  Luo,  Anbang  Yao,  Lei  
[51]  托斯顿·萨特勒、
托比亚斯·韦安德、
巴斯蒂安·莱贝和莱夫 Zhou,  Tianwei  Shen,  Yurong  Chen,  Long  Quan,  and  Hongen  
科贝尔特。
修订基于图像的定位的图像检索。  BMVC,
2012年。
10 辽。
使用顺序感知网络学习二视图对应和几何。  ICCV ,  2019.2,5,6,10,11 ,  _  _

12
¡

[52]  约翰内斯·卢茨·舍恩伯格和简·迈克尔·弗拉姆。
重新审视运动结构。  CVPR,
2016年7月10日 [72]  Li  Zhang,  Xiangtai  Li,  Anurag  Arnab,  Kuiyuan  Yang,  Yun  hai  Tong,  and  Philip  
¡

[53]  Johannes  Lutz  Schonberger、
Enliang  Cheng、
Marc  Pollefeys  和  Jan‑Michael   HS  Torr.  Dual  graph  convolutional  net  work  for  semantic  segmentation.  
Frahm。非结构化多视图立体的像素级视图选择。 在  ECCV  中, 2016  年。  7 In  BMVC,  2019.  2  
[73]  张一萌,
贾兆银,
陈祖涵。
使用保留几何形状的视觉短语进行图像检索。
在CVPR中,

[54]  伊莱·谢赫特曼和米哈尔·伊拉尼。
匹配图像和视频之间的局部自相似性。  CVPR,
2007  
2011年3月
年。
3

18

You might also like