SuperGlue论文译文

Machine Translated by Google
SuperGlue：
使用图神经网络学习特征匹配
保罗‑爱德华·萨林 (Paul‑Edouard Sarlin)1*丹尼尔·德通 ( Daniel DeTone)2托马斯·马里谢维奇 (Tomasz Malisiewicz) 2安德鲁·拉比诺维奇 (Andrew Rabinovich )2
1 2
苏黎世联邦理工学院魔法跳跃公司
抽象的
强力胶器
化
优
端
后
本文介绍了 SuperGlue，
一种神经网络
通过共同寻找对应点并拒绝不可匹配的点来匹配两组局部特征。
通过求
解可微的最优值来估计分配
运输问题，
其成本由图表预测
神经网络。
我们引入灵活的上下文聚合
基于注意力的机制，
使 SuperGlue 能够推理底层 3D 场景和特征分配
共同。
与传统的、手工设计的启发式方法相比，
我们的技术通过端到端的检测器和描述符强力胶
深度前端深度中端匹配器
方式学习 3D 世界的几何变换和规律性的先验知识
从图像对进行训练。 SuperGlue 优于其他产品图 1：
与 SuperGlue 的功能匹配。
我们的方法根据现成的局部特征建立
学习方法并取得最先进的成果逐点对应关系：它充当手工制作或学习的前端和后端之间的中间端。
v8
SuperGlue 使用
在室内和室外环境中挑战现实世界的姿态估计任务。所提出的方法在现
代 GPU 上实时执行表格匹配，
并且可以
图神经网络和注意力来解决作业
可以轻松集成到现代 SfM 或 SLAM 系统中。优化问题，
并处理部分点可见性
代码和训练过的权重可在以下位置公开获取：和优雅的遮挡，
产生部分分配。
github.com/magicleap/SuperGluePretrainedNetwork。
在这项工作中，学习特征匹配被视为
arXiv:1911.11763v2
[cs.CV]
2020
28
月
年
日
3
一、
简介找到两组局部变量之间的部分赋值
特征。我们重新审视经典的基于图的策略
图像中点之间的对应关系至关重要
通过解决线性分配问题来匹配，其中，
用于估计几何计算机视觉任务中的 3D 结构和相机姿态，
例如同步定位
当放松到最优运输问题时，可以解决
和建图 (SLAM) 以及运动结构
可微分地。此优化的成本函数由图神经网络 (GNN) 预测。
灵感来自于
（SfM）。
这种对应关系通常通过以下方式估计
Transformer [61] 的成功，
它使用自（图像内）
匹配局部特征，这个过程称为数据关联。
大视点和光照变化、
遮挡、
模糊，
和跨（图像间）注意力以利用空间
和缺乏纹理是 2D 到 2D 数据关联特别具有挑战性的因素。关键点及其视觉外观的关系。
这个公式强制执行了分配结构
预测，同时使成本能够学习复杂的先验，优雅地处理遮挡和不可重复的
在本文中，我们提出了一种新的思考方式
关键点。我们的方法是从图像对进行端到端训练的
特征匹配问题。我们建议学习匹配过程，而不是学习更好的与任务无关
的局部特征，然后进行简单的匹配启发式和技巧
– 我们从大量带注释的数据中学习姿势估计的先验知识
数据集，
使 SuperGlue 能够推理 3D 场景
使用一种名为 SuperGlue 的新型神经架构从预先存在的局部特征中
和作业。
我们的工作可以应用于各种
提取信息。在 SLAM 的背景下，
需要高质量的多视图几何问题
通常[8]将问题分解为视觉特征提取前端和捆绑调整或姿势
特征对应关系（见图2）。
估计后端，我们的网络直接位于中间 *在 Magic Leap, Inc. 完成硕士学位工作。作者感谢

– SuperGlue 是一个可学习的中端（见图1）。他的学术导师： Cesar Cadena、Marcin Dymczyk、
Juan Nieto。
1
图匹配问题通常表述为
二次分配问题是 NP 难题，
需要昂贵、
复杂且不切实际的求解器[30]。
对于局部特征，
计算机视觉文献
2000 年代[5,27,57 ]使用带有许多启发式技巧的手工成本，
使其复
杂且脆弱。卡埃塔诺等人。 [9]学习
更简单的线性分配的优化成本，
但只使用浅层模型，
而我们的 SuperGlue 学习
使用深度神经网络的灵活成本。
与图表相关
匹配是最优传输问题[63] 它是一个
具有高效而简单的广义线性分配
近似解，
Sinkhorn 算法[55,12,39 ] 。
点云等集合的深度学习旨在通过聚合跨元素的信息来设计排列等值函数或不
变函数。
有些作品对待一切
通过全局池化[70,40,15 ]或实例标准化[60,33,32 ]平等地对待元素，
而其他人
图 2： SuperGlue 对应关系。
对于这两个
则专注于
具有挑战性的室内图像对，
与 SuperGlue 匹配
坐标或特征空间中的局部邻域[41, 66]。
结果是准确的姿势，
而其他姿势是学习或手工制作的
注意力[61,64,62,26 ]可以通过关注特定的元素和属性来执行全局和数据依赖
方法失败（对应关系因极线误差而着色）。
的局部聚合，
因此更加灵活。
通过观察，
自注意力可以被视为完整的消息传递图
神经网络[23, 4]的一个实例
我们展示了 SuperGlue 与两者相比的优越性
手工制作的匹配器和学习的内部分类器。什么时候
与深层前端SuperPoint [18]相结合，
Super Glue 推进了室内和室外任务的最
先进技术图，
我们将注意力集中在具有多种类型的图上
边缘，
类似于[28, 72]，
并启用 SuperGlue 来学习
室外姿态估计，
为端到端深度 SLAM 铺平道路。
关于两组局部特征的复杂推理。
2、
相关工作 3. SuperGlue 架构
动机：
在图像匹配问题中，
可以利用世界的一些规律：
3D 世界是
局部特征匹配通常通过 i) 检测兴趣点，
ii) 计算视觉描述符来执行，
所有的对应关系大部分是光滑的，
有时是平面的
iii) 将它们与最近邻 (NN) 搜索进行匹配，
对于给定的图像对，
如果场景是静态的，
并且某些姿势更有可能来自单个对极
iv) 过滤不正确的匹配，
最后 v) 估计
变换形式
几何变换。
经典管道开发
在 2000 年代通常基于 SIFT [31]，
过滤器匹配相对于其它的。
此外，
2D 关键点通常是显着 3D 点的投影，
例如角点或斑点，
因
与劳氏比率测试[31]、
相互检查和启发式此图像之间的对应关系必须遵循特定的物理关系
例如邻里共识[59,10,6,49 ] ，
并找到一个
使用 RANSAC [21, 43] 等强大的求解器进行转换。约束： i)一个关键点在另一幅图像中最多只能有一个对应； ii )一些关键点将
最近的深度学习匹配工作通常侧重于使用卷积神经网络（CNN）
从数据中
由于探测器的遮挡和故障而无法匹配。
学习更好的稀疏检测器和局部描述器[18,19,37,45,69 ] 。
为了提高他们的辨别
有效的特征匹配模型应该旨在找到相同特征的重投影之间的所有对应关系
能力，
3D 点并识别没有匹配的关键点。
一些作品明确地利用区域性来着眼于更广泛的背景
我们将 SuperGlue（见图3）
表述为解决优化问题，
其成本由深度神经网络预测
特征[32]或对数极坐标补丁[20]。
其他方法
学习通过将匹配分类为内点来过滤匹配
网络。
这减轻了对领域专业知识的需求
异常值[ 33,44,7,71 ] 。
这些对匹配组进行操作，
启发式我们直接从数据中学习相关先验。
仍然由 NN 搜索估计，
因此忽略分配
结构并丢弃视觉信息。值得学习的作品表述：
考虑两个图像 A 和 B，
每个图像都有一个
到目前为止，执行匹配的方法主要集中在密集匹配[46]或3D点云关键点位置 p 和相关视觉描述符的集合
[65]上，
并且仍然表现出相同的效果 d – 我们将它们 (p, d) 统称为局部特征。
限制。
相比之下，
我们的可学习中端在单个端到端架构中同时执行上下文聚合、位置由 x 和 y 图像坐标以及
匹配和过滤。检测置信度 c, pi := (x, y, c)i 。
视觉描述符
di ∈ RD 可以是由像 SuperPoint 这样的 CNN 提取的
2
注意力图神经网络最佳匹配层
地方
特色
注意力聚合匹配描述 Sinkhorn算法
符部分的
视觉描述符自己叉
+ 分数矩阵
正常化
排任务
位置
关键 M+1
编码器柱子
规范。
+ L 垃圾箱得 N+1 时间
分 =1
图 3： SuperGlue 架构。 SuperGlue 由两个主要部分组成：注意力图神经网络
网络（第3.1 节）和最佳匹配层（第3.2 节）。第一个组件使用关键点编码器来映射
将关键点位置 p 及其视觉描述符 d 转化为单个向量，然后使用交替的自注意力和交叉注意力
f. 层（重复 L 次）
以创建更强大的表示。最佳匹配层创建 M × N 分数
矩阵，用垃圾箱对其进行扩充，然后使用 Sinkhorn 算法（对于 T 次迭代）
找到最佳部分分配。
或传统描述符如 SIFT。
图像 A 和 B 有关键点编码器：
初始表示(0)xi为
M 和 N 局部特征，索引为 A := {1, ..., M} 和每个关键点都结合了其视觉外观和位置。我们使用多层感知器（MLP）
B := {1, ..., N} 分别。将关键点位置嵌入到高维向量中，如下所示：
部分赋值：约束i)和ii)意味着 cor v10
响应源自之间的部分分配
(0)xi = di + MLPenc (pi). (2)
两组关键点。用于整合下游
任务和更好的可解释性，每个可能的对应都应该有一个置信值。
我们因该编码器使图网络能够稍后进行推理
此共同关注外观和位置，
尤其是当
定义部分软分配矩阵 P ∈ [0, 1]M×N为：与注意力相结合，
是语言处理中流行的“位置编码器”
的一个实例[22,
61]。
P1N ≤ 1M且 P 1M ≤ 1N 。 (1)
多重图神经网络：
我们考虑单个
我们的目标是设计一个神经网络，
根据两组局部特征预测符号 P。完整图，
其节点是两个图像的关键点。
该图有两种类型的无向边它是
3.1.注意力图神经网络多重图[34, 36]。
图像内边缘或自边缘，
Eself，
将关键点 i 连接到范围内的所有其他关键点
除了关键点的位置及其视觉外观之外，整合其他上下文线索可以直相同的图像。图像间边缘，或交叉边缘， Ecross，
将关键点 i
观地增加其独特性。
例如我们可以考虑它的连接到另一图像中的所有关键点。我们用
消息传递公式[23, 4]沿着两种类型的边传播信息。
由此产生的多路复用
与其他共同可见的关键点的空间和视觉关系，例如显着的[32]、
自相似的
[54]、图神经网络从高维状态开始
统计上同时发生[73]，
或相邻[58]。
上对于每个节点，
并通过同时聚合跨节点的消息来在每一层计算更新的
另一方面，第二幅图像中关键点的知识表示
可以通过比较候选人来帮助解决歧义所有节点的所有给定边。
根据全局和明确的线索匹配或估计相对光度或几何变换。令()x A 是元素的中间表示
我
i 位于图像 A 的层。消息mE→i是以下结果
当被要求匹配给定的模糊关键点时，人类会来回查看这两个图像：所有关键点 {j : (i, j) ∈ E} 的聚合，
其中
他们会筛选 E ∈ {Eself, Ecross}。
剩余消息传递更新
尝试性匹配关键点，检查每个关键点并寻找 A 中的所有 i 是：
上下文线索有助于消除真实匹配的歧义
其他自相似性[11]。这暗示了一个迭代过程 (+1)x A 我
= ()x A 我
+ MLP ()x A 我 || mE→i , (3)
可以将注意力集中在特定位置。
因此，
我们将 Super Glue 的第一个主要模块设计为注意力图神经其中 [· || ·]表示串联。类似的更新可以
网络（见图3）。给定初始局部特征，它计算匹配对图像 B 中的所有关键点同时执行。
具有不同参数的固定数量的层 L 是
D
描述符fi ∈ R 通过让特征进行交流沿着自身和交叉链状或聚合
与彼此。正如我们将要展示的，
图像内部和图像之间的远程特征聚合对边缘。因此，从 = 1 开始， E = Eself如果是奇数
于稳健匹配至关重要。如果是偶数，则 E = Ecross 。
3
图像A 图像B 相似或显着的关键点的位置。

这使得能够表示几何变换和分配。
最终的匹配描
述符是线性投影：
注
关
我
自
FA我
= W· (L)x A 我
+ b, ∀i ∈ A, (6)
对于 B 中的关键点也是如此。
3.2.最优匹配层
SuperGlue 的第二个主要块（见图3）
是
力
意
注
叉
交
最佳匹配层，
产生部分分配矩阵。
正如在标准图匹配公式中一样，
分配 P 可以
通过计算 a 来获得
所有可能的匹配的得分矩阵 S ∈ RM×N并在约束下最大化总得分Si,jPi,j
图 4：
自我注意力和交叉注意力的可视化。
注意力聚合在关键点之间构建动态我,j
等式1 中。
这相当于解决线性分配问题。
图。
权重αij显示为射线。
自注意力（上）
可以参与同一图像中的任何位置，
例如独特的位置，
因此不限于附近的位置。
交分数预测：
建立一个单独的表示
叉注意力（底部）
关注另一张图像中的位置，所有 M × N 种潜在匹配都将被禁止。
相反，
我们将成对得分表示为匹配描述
符的相似度：
例如具有相似外观的潜在匹配项。
A 乙
Si, j =< f 我
，
F j >, ∀(i, j) ∈ A × B, (7)
注意力聚合：
注意力机制执行聚合并计算消息mE→i 。
其中 <·,·> 是内积。
与学到的相反
自边缘基于自注意力[61]和交叉边缘视觉描述符，
匹配描述符没有标准化，
并且它们的大小可以根据特征和在
是基于交叉注意力的。
类似于数据库检索，
i 的表示，
查询qi ，
检索值vj 训练以反映预测置信度。
一些元素基于它们的属性，
键kj 。这
遮挡和可见性：
让网络抑制
消息计算为值的加权平均值：一些关键点，
我们在每组中都增加了一个垃圾箱，
以便
不匹配的关键点被显式分配给它。
这种技术在图形匹配中很常见，
垃圾箱也有
mE→i = αijvj , (4)
j:(i,j)εE SuperPoint [18]使用它来解释图像单元
可能没有检测到。
我们将分数 S 增加到 S´
其中注意力权重αij是关键查询相似度上的 Softmax： αij = Softmaxj q i
通过附加新的行和列，
点到容器和
kj 。
bin‑to‑bin 分数，
填充有单个可学习参数：
键、
查询和值被计算为图神经网络深层特征的线性投影。
考虑到查询关键
点 i 在图像 Q 和所有源中 S￣
我,N+1 = S´M+1,j = S´M+1,N+1 = z ∈ R。 (8)
2
关键点在图像 S 中，
(Q, S) ∈ {A, B} , 我们可以写：而 A 中的关键点将被分配给单个关键点
在 B 或垃圾箱中，
每个垃圾箱有尽可能多的火柴
qi = W1()x Q 我
+ b1 另一组有关键点：
N、M 代表垃圾箱
(5) 分别在A、
B中。
我们表示为 a = 1 中号
N 和
千焦 = W2 b2
()x S
j
+ 。
维杰 W3 b3 b = 1 A M 每个的预期匹配数

和 B 中的N 个关键点和垃圾箱。
增强分配 P 现在具有约束：
每层都有自己的投影参数，
经过学习和
两个图像的所有关键点共享。
在实践中，
我们
通过多头注意力提高表达能力[61]。 P1￣ N+1 = a 且 P´ 1M+1 = b。 (9)
我们的配方提供了最大的灵活性
网络可以学习基于关键点的子集 Sinkhorn 算法：
上述优化问题的解决方案对应于分数为 S 的离散分布 a 和
特定属性（见图4）。 SuperGlue 可以检索 b 之间的最优传输[39] 。
它是
或根据外观和关键点位置参加
因为它们被编码在表示xi中。这包括熵正则化公式自然会产生所需的软分配，
并且可以在 GPU 上有效求解
关注附近的关键点并救回亲属
4
使用 Sinkhorn 算法[55, 12]。
它是一个可微分的 4. 实施细节
匈牙利算法的版本[35]，经典使用
SuperGlue 可以与任何局部特征检测器和描述符结合使用，但与
对于二分匹配，包括沿着行和列迭代标准化 exp(S´)，类似于 row 和
Super Point [18]配合使用效果特别好，它可以生成可重复且稀疏的
关键点
Softmax 列。 T 次迭代后，我们扔掉垃圾箱
并恢复 P = P¯ – 实现非常高效的匹配。视觉描述符是
1：
M，1：
N 。
从半密集特征图中双线性采样。为了
3.3.损失与其他匹配器进行公平比较，除非明确提及，否则我们不会在以下情况
下训练视觉描述符网络
根据设计，
图神经网络和最佳匹配层都是可微分的这使得从匹配
训练超级胶。在测试时，可以使用置信度
到视觉描述符的反向传播成为可能。
强力胶
阈值（我们选择0.2）来保留一些匹配
软分配，
或者使用所有这些以及他们对一个任务的信心
从地面实况比赛中以监督方式进行训练
后续步骤，
例如加权姿态估计。
M = {(i, j)} ⊂ A × B。
这些是根据地面估计的
真实相对变换使用姿势和深度图架构细节：所有中间表示
或单应词。这也让我们可以标记一些关键点（键、查询值、描述符）具有相同的维度
如果 I ⊆ A 和 J ⊆ B 附近没有任何重投影，则它们不匹配。
给定这些标 D = 256 作为 SuperPoint 描述符。我们使用 L=9 层的交替多头自注
签，我们最小化意力和交叉注意力
赋值 P 的负对数似然：每个 4 个头，并执行 T = 100 Sinkhorn 迭代。
该模型在PyTorch中实现[38]，包含12M
损失=－对数 P 我,j 参数，并在 NVIDIA GTX 1080 上实时运行
(i,j)∈M GPU：前向传递平均需要69毫秒（15 FPS）
(10)
‑
对数 P i,N+1 －对数 P M+1,j 。室内图像对（参见附录C）。
i∈I j∈J 训练细节：
为了允许数据增强，超级点检测和描述步骤是动态执行的，如
这种监督的目的是同时最大限度地下所示
匹配的精确度和召回率。训练期间分批进行。
一些随机关键点是
进一步添加以实现高效配料和增强稳健性。附录E提供了更多详细信
3.4.与相关工作的比较息。
SuperGlue 架构与排列等价
图像中的关键点。与其他手工制品不同
5. 实验
或学习方法，它也等价于排列 5.1.单应性估计
的图像，更好地反映了图像的对称性
问题并提供有益的归纳偏置。此外，最佳运输方案强制互惠我们使用真实图像和合成单应性进行大规模单应性估计实验
比赛的过程，就像相互检查一样，
但是以一种温和的方式，鲁棒（RANSAC）
和非鲁棒（DLT）
估计器。
类似于[46]，
从而将其嵌入到训练过程中。数据集：我们通过对随机单应性进行采样并应用随机光度畸变来生成
SuperGlue 与实例标准化[60]：
注意，图像对
SuperGlue 使用的是比实例规范化更灵活、更强大的上下文聚合机真实图像，遵循类似于[16,18,45,44 ]的配方。
制，底层图像来自牛津和巴黎数据集中的 1M 分散图像集[42]，
分为
正如之前的工作所使用的那样，
它平等地对待所有关键点
关于特征匹配[ 33,71,32,44,7 ] 。训练、
验证和测试集。
SuperGlue 与 ContextDesc [32]： SuperGlue 可以联合单应性估计 AUC
当地的
关于外观和位置的原因，而 ContextDesc 火柴公关
特征分布式账本技术
分别处理它们。此外， ContextDesc 是一个
神经网络 39.47 0.00 21.7 65.4
前端还需要更大的区域提取器，并且会损失关键点得分。 SuperGlue NN+相互 42.45 0.24 43.8 56.5
只需要超级点神经网络+点CN 43.02 45.40 76.2 64.2
本地特征，学习的或手工制作的，因此可以成为现有匹配器的简单替代神经网络+OA网络 44.55 52.29 82.8 64.7
强力胶 53.67 65.85 90.7 98.3
品。
SuperGlue 与 Transformer [61]： SuperGlue 借用了表 1：
单应性估计。 SuperGlue 恢复几乎所有可能的匹配，同时抑制
来自 Transformer 的自注意力，但将其嵌入到大多数异常值。
图神经网络，
并额外引入了对称的交叉注意力。
这简化了架构，
并实现了由于 SuperGlue 信件的质量很高，
更好的跨层功能重用。直接线性变换 (DLT) 是一种基于最小二乘的解决方案，没有鲁棒性机
制，其性能优于 RANSAC。
5
基线：
我们将 SuperGlue 与应用于 SuperPoint 局部特征的几个匹配当地的
姿态估计AUC
火柴经前MS
特征
器进行比较 ‑ 最近邻 (NN) 匹配器和各种异常值拒绝器：相互 @5° @10° @20°
ORB 神经网络+GMS 5.21 13.65 25.36 72.0 5.7

D2网络 NN+相互 5.25 14.53 27.96 46.7 12.0
NN 约束、
PointCN [33]和订单感知网络
ContextDesc NN + 比率测试 6.64 15.01 25.75 51.2 9.2
（OANet） [71]。
所有学习的方法，
包括 SuperGlue，
NN+比率测试 5.83 13.06 22.47 40.3 1.0
通过将关键点从一张图像投影到另一张图像来找到地面真实对应关系 NN+OF‑RANSAC 6.19 13.80 23.73 61.9 0.7
筛
进行训练。我们生成神经网络+OA网络 6.00 14.33 25.90 38.6 4.2
强力胶 6.71 15.70 28.67 74.2 9.8
即时单应性和光度畸变 –
NN + 相互 9.43 21.53 36.40 50.4 18.8
训练期间图像对不会出现两次。 NN+距离+相互 9.82 22.42 36.83 63.9 14.6
神经网络+GMS 8.39 18.96 31.56 50.3 19.0
指标：
计算匹配精度 (P) 和召回率 (R) 超级点 NN+PointCN 11.40 25.47 41.41 71.8 25.5
来自地面实况对应。
使用 RANSAC 和 Direct 进行单应性估计神经网络+OANet 11.76 26.90 43.85 74.0 25.7
强力胶 16.16 33.81 51.84 84.4 31.5
线性变换[24] （DLT），
具有直接最小二乘解。
我们计算平均重投影误
表 2：
宽基线室内姿态估计。
我们报告位姿误差的AUC，
匹配分数（MS）
差
图像的四个角并报告下面的面积
和精度 (P)，
均以百分比 % 表示。
超级胶水表现优于其他产品
累积误差曲线 (AUC) 最高可达 10 个像素的值。
所有手工制作和学习的匹配器应用于两者时
结果： SuperGlue 具有足够的表达能力来掌握同形异义，实现 98% SIFT 和 SuperPoint。
的召回率和高精度（参见
表1）。估计的对应关系非常好室内的户外的
51.8
50
64.2
60
不需要强大的估算器 – SuperGlue 甚至可以工作 43.8 50
DLT 比 RANSAC 更好。
像PointCN和OANet这样的异常值拒绝方法无
40
36.4 46.9 49.4
40.3
40
30 28.7
法预测更正确 20
25.9
22.5 30 30.9 35.3
20
比 NN 匹配器本身更匹配，过度依赖 10 10
AUC@20°
(%)
初始描述符（参见图6和附录A）。 0 0
SIFT + NN + 比率测试 SuperPoint + NN + 相互
5.2.室内姿态估计 SIFT + 神经网络 + OANet SuperPoint + NN + OANet
筛分 +强力胶超级点 +超级胶
由于室内图像匹配非常具有挑战性
缺乏纹理、丰富的自相似性、
场景的复杂 3D 几何形状以及大的视点变图 5：
室内和室外姿势估计。 Super Glue 与 SIFT 或 SuperPoint 局
化。部特征配合使用，并持续大幅提高姿势精度
如下所示，
SuperGlue 可以有效地
学习先验知识来克服这些挑战。 OANet，
一种最先进的异常值拒绝神经网络。
数据集：
我们使用ScanNet [13]，
一个大型室内数据集
由具有真实姿势的单目序列组成
基线：我们评估 SuperGlue 和各种基线
和深度图像，以及明确定义的训练、验证和
使用根归一化 SIFT [31, 2] 和 Su perPoint [18]特征的匹配器。
测试对应不同场景的分割。以前的作品
SuperGlue 使用源自地面实况的对应和无与伦比的关键点进行训练
根据时间差[37, 17]或 SfM 共视性[33, 71, 7] 选择训练和评估对，
通常
使用 SIFT 计算。我们认为这限制了
姿势和深度。所有基线均基于最近的基线
邻居（NN）匹配器和潜在的异常值拒绝方法。在“手工制作”
类别中，我
对，
并根据重叠分数选择它们
们考虑
计算给定序列中所有可能的图像对
相互检查、比率测试[31]、
描述符距离阈值以及更复杂的 GMS [6]。
仅使用地面真实姿势和深度。这导致
“Learned”类别中的方法是PointCN [33]，
其
显着更宽的基线对，对应于
现实世界室内图像匹配的当前前沿。丢弃重叠太小或太大的梳理对，
我
后续OANet [71]和NG‑RANSAC [7]。
我们重新训练
们选择
ScanNet 上的 PointCN 和 OANet，
适用于 SuperPoint 和
230M 训练和 1500 个测试对。使用上述定义的 SIFT 和分类损失
指标：与之前的工作[33,71,7 ]一样，我们报告正确性标准及其各自的回归损失。
阈值处姿态误差的 AUC (5° , 10° , 20° ），对于 NG‑RANSAC，
我们使用原始训练的模型。
我们
其中位姿误差是角度误差的最大值不包括任何图形匹配方法，
因为它们对于关键点的数量来说太慢了
旋转和平移。相对位姿是从
使用 RANSAC 进行基本矩阵估计。我们还报道我们考虑 (>500)。
其他局部特征评估为
匹配精度和匹配分数[18, 69]，其中参考：
ORB [47]与 GMS、
D2‑Net [19]和 ContextDesc [32]使用公开可
根据极距，匹配被认为是正确的。用的训练模型。
6
结果：
与手工制作和学习的匹配器相比，
SuperGlue 的姿势精度显着提高火柴
姿势匹配匹配
AUC@20° 精确分数
NN+相互 36.40 50.4 18.8

（参见表2和图5），
并且与 SIFT 配合良好
无图神经网络 38.56 66.0 17.2
和超级点。
它的精度明显高于
无交叉注意力 42.57 74.0 25.3
其他学习匹配器，
展示了其更高的表示能力。
它还会产生大量正确的强力胶无位置编码 47.12 75.8 26.6
较小（3层） 46.93 79.9 30.0
全层（9层） 51.84 84.4 31.5
匹配 – 比应用于 SIFT 时的比率测试多 10 倍，
因为它对全部可能的集合进行
操作
表 4： SuperGlue 的消融。
虽然最佳匹配层单独改进了基线最近邻匹配器，
匹配，
而不是有限的最近邻居集。
但图神经网络解释了 SuperGlue 带来的大部分收益。
两者交叉注意力
SuperGlue 与 SuperPoint 实现了最先进的结果
关于室内姿态估计。
他们相辅相成
好吧，
因为可重复的关键点使得估计成为可能
和位置编码对于强力粘合至关重要，
并且
即使在非常具有挑战性的情况下也能获得更多的正确匹配
更深的网络进一步提高了精度。
情况（参见图2、
图6 和附录A）。
5.3.户外姿势估计 5.4.了解强力胶
由于户外图像序列呈现出自己的一套消融研究：
为了评估我们的设计决策，
我们使用 SuperPoint 功能重复室内实
挑战（例如，
照明变化和遮挡），
我们训练验，
但是
并评估 SuperGlue 在户外的姿势估计这次重点关注不同的 SuperGlue 变体。
表 4 中列出的这项消融研究表明，
所
环境。
我们使用相同的评估指标和基线有 SuperGlue
方法与室内姿态估计任务中的方法相同。块很有用，
可以带来显着的性能提升。
数据集：
我们对 PhotoTourism 数据集进行评估，
该数据集当我们在训练 SuperGlue 时另外通过 Super Point 描述符网络进行反
是 CVPR 19 图像匹配挑战赛的一部分[1]。
它向传播时，
我们观察到 AUC@20°从 51.84 提高到 53.38。
是 YFCC100M 数据集[56]的子集，
并且具有地面
从现成的 SfM 工具获得的真实姿势和稀疏 3D 模型[37,52,53 ] 。
所有学到的这证实了 SuperGlue 适合端到端
方法都经过训练学习超越匹配。
在更大的 MegaDepth 数据集[29] 上，
该数据集也具有深度可视化注意力：
自我和自我的广泛多样性
使用多视图立体计算的地图。
中的场景交叉注意力模式如图7所示，
反映了
PhotoTourism 测试集已从训练集中删除。习得行为的复杂性。
详细分析
与室内情况类似，
我们使用重叠分数选择具有挑战性的图像对进行训练和评趋势和内部运作在附录D中进行。
估
根据[19, 37]中的 SfM 共可见性计算。六，
结论
结果：
如表 3 所示，
SuperGlue 优于所有
本文展示了基于注意力的力量
基线，
在所有相对姿势阈值，
当应用于
用于局部特征匹配的图神经网络。 Super Glue 的架构使用两种注意力：
(i) 自
SuperPoint 和 SIFT。
最值得注意的是，
精度
注意力，
它增强了局部描述符的感受野，
结果匹配度非常高 (84.9%)，
强化了
SuperGlue 将局部特征“粘合”
在一起的类比。
(ii) 交叉注意力，
它可以实现跨图像通信，
并受到人类回顾方式的启发 ‑
姿态估计AUC
当地的
火柴经前MS 匹配图像时来回。
我们的方法优雅
特征 @5° @10° @20°
通过求解来处理部分分配和遮挡点
ContextDesc NN + 比率测试 20.16 31.65 44.05 56.2 3.3
一个最优运输问题。
我们的实验表明
NN+比率检验 15.19 24.72 35.30 43.4 1.7 SuperGlue 比现有产品有了显着改进
NN+NG‑RANSAC 15.61 25.28 35.87 64.4 1.9
筛方法，
能够对极宽基线室内和室外图像进行高精度相对位姿估计
神经网络+OANet 18.02 28.76 40.31 55.0 3.7
强力胶 23.68 36.44 49.44 74.1 7.2
NN+相互 9.80 18.99 30.88 22.5 4.9 对。
此外，SuperGlue 实时运行并工作
神经网络+GMS 13.96 24.58 36.53 47.1 4.7
超级点兼具古典和博学的特点。
神经网络+OA网络 21.03 34.08 46.88 52.4 8.4
强力胶 34.18 50.32 64.16 84.9 11.1 总之，
我们的可学习中端用强大的神经模型取代了手工制作的启发式方法，
该模型在单个统一架构中同时执行上下文聚合、
匹配和过滤。
我们相信，
当
表 3：
室外姿势估计。
匹配超级点
和 SIFT 特征与 SuperGlue 的结果显着
更高的姿态准确度 (AUC)、
精度 (P) 和匹配 SuperGlue 与深度前端相结合，
是迈向端到端深度 SLAM 的一个重要里程碑。
与手工或其他学习方法相比，
得分（MS）
更高。
7
SuperPoint + NN + 距离阈值 SuperPoint + NN + OANet 超级点 +超级胶
的
内
室
的
外
户
性
应
单
图 6：
定性图像匹配。
我们将 SuperGlue 与具有两个离群值的最近邻 (NN) 匹配器进行比较
在三种环境中手工制作和学习的拒绝者。 SuperGlue 始终如一地估计出更正确的匹配（绿色
线）和更少的不匹配（红线），成功应对重复的纹理、大视点和照明变化。
己
自
图 7：
注意力可视化。
我们展示了各个层和头部的自注意力和交叉注意力权重αij 。 SuperGlue ex 具有多种模式：
它可以关注全球或本地背景、
自相似
性、独特特征或匹配候选者。
8
附录 HPatches：
我们使用 HPatches [3]数据集评估 Super Glue 在真实
数据上的泛化能力，如
在接下来的几页中，我们将介绍额外的实验细节、
定量结果、Su
以前的作品[18, 45]。
该数据集描绘了平面场景
perGlue 的定性示例、
详细的计时结果，以及所学到的注意力模式的可
具有地面实况单应性并包含 295 个图像
视化和分析。
与视点变化配对和 285 对与照明变化配对。我们评估在综合数据集上
训练的模型（参见第5.1 节）。 HPatches 实验
A. 详细结果
表 5 总结了这一点。正如之前在
A.1.单应性估计合成单应性实验， SuperGlue 的召回率明显高于所有依赖神经网络的
匹配器
定性结果：整页的定性结果搜索。我们将召回率的剩余差距归因于 SuperPoint 无法检测到足够
合成单应性和真实单应性的 SuperGlue 匹配的可重复关键点的几个具有挑战性的对。尽管如此，
经过训练的合成数
见图13。据集 SuperGlue 可以很好地推广到真实数据。
合成数据集：
我们更详细地了解第 5.1 节中的单应性评估。
图8显示了
在几个正确性像素阈值下匹配精度
A2。
室内姿态估计
单应性估计的累积误差曲线。 Su perGlue 在所有像素正确性阈值中
占据主导地位。
定性结果：
图14显示了 SuperGlue 在室内图像上计算的更多匹配可
匹配精度单应性准确度视化，
并突出了构成我们评估数据集的宽基线图像对的极端难度。
100 100
80 80
ScanNet：
我们提供有关结果的更多详细信息
（％）
确
精
60 60 ScanNet（第5.2节），仅分析以下方法
使用 SuperPoint 本地功能。
图9绘制了累积值
40 40
位姿估计误差曲线以及精度和正确匹配数量之间的权衡。我们根据重
(%)
性
应
单
的
确
正
投影误差计算正确性（使用地面事实
20 20
0 0
深度和 10 像素的阈值），并且，对于具有
1 2 3 4 5 0 5 10 15
来自对称极线误差的无效深度。我们获得
正确性阈值 (px) 估计误差（像素）
通过改变 PointCN 的置信度阈值来绘制曲线，
神经网络+RANSAC NN + 相互 + RANSAC
NN+PointCN+DLT NN+PointCN+RANSAC
OANet 和 SuperGlue。
在评估时，我们使用原始的
神经网络+OANet+DLT NN + OANet + RANSAC 前两者的值为 0.5， SuperGlue 的值为 0.2。
强力胶+ DLT 强力胶+ RANSAC
图 8：
单应性评估的详细信息。 Super Glue 表现出更高的精度和单应姿势准确度匹配精度
100 90
性精度
所有阈值。与 RANSAC 相比，
DLT 的高精度导致更准确的估计。 80
80
70
60
（％）
确
精
（%）
势
姿
确
正
60
40
当地的视点照明 50
火柴
特征富血小板血浆右
20 40
NN 39.7 81.7 51.1 84.9
NN + 相互 65.6 77.1 74.2 80.7 30
0
超级点 NN+点CN 87.6 80.7 94.5 82.6 0 10 20 30 30 40 50 60 70 80
神经网络+OANet 90.4 81.2 96.3 83.5 估计误差（度）正确匹配数
强力胶 91.4 95.7 89.1 91.7
NN+相互神经网络+点CN 神经网络+OA网络
NN+距离+相互强力胶
表 5：对实际数据的概括。我们在 HPatches 数据集的视点和照明子集
上展示了在合成单应性数据集（参见第5.1节）上训练的方法的精度图 9： ScanNet 评估的详细信息。
使用 SuperGlue 估计的姿势在所
(P) 和召回率 (R) 。有错误阈值下都更加准确。 SuperGlue 提供了精度之间的最佳权衡
在接受合成单应性训练时，
SuperGlue 可以很好地泛化为真实数据。和正确匹配的数量，
这对于
准确且稳健的姿态估计。
9
精确曲线下面积大约。
曲线下面积[71] 正确本地化的查询 (%)
当地的
‧ ‧
火柴方法＃特征
特征 5 10° 20° 5 10° 20° .5m/2° 1m/5° 5m/10°
ContextDesc NN + 比率测试 26.09 45.52 63.07 53.00 63.13 73.00 R2D2 [45] 46.9 D2‑Net [19] 66.3 88.8 20k

45.9 UR2KID [68] 46.9 68.4 88.8 15k
NN+比率检验 24.09 40.71 58.14 45.12 55.81 67.20
SuperPoint+NN+互 43.9 67.3 88.8 15k
神经网络 + OANet* 28.76 48.42 66.18 55.50 65.94 76.17
筛 SuperPoint+SuperGlue 45.9 59.2 76.5 4k
神经网络+OANet 29.15 48.12 65.08 55.06 64.97 74.83
70.4 88.8 4k
强力胶 30.49 51.29 69.72 59.25 70.38 80.44
NN+相互 16.94 30.39 45.72 35.00 43.12 54.05
表 7：
亚琛昼夜的视觉定位。 Super Glue 显着提高了 SuperPoint 的性能
超级点神经网络+OANet 26.82 45.04 62.17 50.94 61.41 71.77
强力胶 38.72 59.13 75.81 67.75 77.41 85.70
进行本地化，
达到新的最先进的结果
表 6： YFCC100M 对的室外姿态估计。关键点相对较少。
评估是在相同的图像对上进行的
在 OANet [71]中使用他们的近似值和我们的精确值 B. 用于视觉定位的 SuperGlue
曲线下面积。 SuperGlue 持续改进基线
当使用 SIFT 和 SuperPoint 时。视觉定位：
虽然双视图相对位姿估计是一个重要的基本问题，
但在
A.3.户外姿势估计图像匹配可以直接有益于视觉定位等实际任务[50, 48]，
其目的是估计查询图
像相对于 3D 模型的绝对姿态。
定性结果：
图15显示了关于
Phototourism 测试集和 MegaDepth 验证集。
此外，
现实世界的定位场景表现出明显更高的场景多样性和更具挑战性的条
YFCC100M：
而PhotoTourism [1]和Zhang等人件，
例如更大的视点和照明变化，
al.的[71]测试集都是基于YFCC100M [56]，
他们
使用不同的场景和配对。
为了便于比较，
我们也对SuperGlue进行了同样的评比热门地标的旅游摄影数据集。
测
评估：
亚琛日夜基准[51, 50]
像 OANet [71]中一样，
使用它们的评估指标。
我们
评估昼夜定位的局部特征匹配。
包括在其训练集上重新训练的 OANet 模型 (*)
我们使用 Super Point 每张图像提取多达 4096 个关键点，
使用
（而不是 MegaDepth）
使用根归一化 SIFT。
这
结果如表6所示。 SuperGlue 进行匹配，对 SfM 进行三角测量
从白天数据库图像中建立模型，
并使用 2D‑2D 匹配和注册夜间查询图像
正如第5.3节中在对 Pho toTourism 数据集进行评估时所观察到的，
SuperGlue 持续改进
科尔地图[52]。
评估服务器1计算位于多个距离内的查询的百分比，
并
SIFT 和 SuperPoint 的所有基线。
对于 SIFT 而言，
相对于 OANet 的改进有所下降，
我们将其归因于
方向阈值。
如表 7 所示，
尽管使用的关键点少得多，
但 Super Point+SuperGlue
显着更高的重叠和更低的难度
的性能与所有现有方法类似或更好。
[71]使用的对。
虽然近似 AUC 趋于
高估了准确性，会导致相同的排名
图10显示了具有挑战性的昼夜图像对。
的方法。 OANet 与 SIFT 和 Su perPoint 的数据与他们论文中报告的数据
一致。 1https://www.visuallocalization.net/
图 10：
使用 SuperGlue 匹配具有挑战性的昼夜配对。
我们显示了亚琛昼夜数据集的夜间查询和白天数据库图像之间的预测对应关系。
对应关系的颜色为 RANSAC
绿色的内部值或红色的异常值。
尽管户外训练集很少有夜间图像，
但 SuperGlue 很好地概括了此类情况
极端的光照变化。
此外，
它可以精确匹配窗户等重复图案的建筑立面。
10
SuperGlue 推理时间自我注意力广度交叉注意力广度

250 250
270 毫秒
250
200 200
（秒）
间
时毫
200
87 毫秒 150 150
150
69 毫秒（素）
离
距
均
平像
100 （素）
离
距
均
平像
100
100
50 50 50
0 0 0
256 第512章 1024 2048
0 5 10 15 1 6 11 16
每张图像的关键点数量层数索引层数索引
全图神经网络最佳匹配层
图 12：
整个 SuperGlue 的注意力范围。
我们绘制了注意力跨度（注意力
图 11： SuperGlue 详细的推理时间。 Super Glue 的两个主要模块，空间分散的度量）与层指数的关系。对于这两种类型的注意力，随着
图神经网络和最佳匹配层，具有相似的计算成本。 SuperGlue 专注于特定位置，跨度往往会在网络深处减小。请参见图 16
中的示例。
对于每个图像 512 和 1024 个关键点，
SuperGlue 的运行速度分别
为 14.5 和 11.5 FPS。
C. 时序和模型参数定性示例：我们分析了图16中特定示例的注意力模式。

我们的观察结果与
图 12 中报告的注意力广度趋势一致。
计时：我们针对每个图像不同数量的关键点测量了 SuperGlue 及其两
个主要模块（图神经网络和最佳匹配层）的运行时间。测量是在 NVIDIA
GeForce GTX 1080 GPU 上运行 500 次进行的。参见图11。
E. 实验细节
在本节中，
我们提供有关 SuperGlue 训练和评估的详细信息。
训练后的模型以
模型参数： Keypoint Encoder MLP 有 5 层，
将位置映射到大小维度及评估代码和图像对可在github.com/magicleap/SuperGluePretrainedNetwork
（32、
64、
128、
256、
D），
产生 100k 个参数。
每层都有三个投影矩阵，
以上公开获取。
及一个额外的WO来处理多头输出。消息更新 MLP 有 2 层并映射到维度
（2D，
D）。
两种 MLP 都使用 BatchNorm 和 ReLU。
每层有0.66M个参室内数据集的选择：
之前关于内点分类的工作[33,71,7 ]评估了SUN3D数
数。
据集[67]上的室内姿态估计。 SUN3D 中的相机姿态是根据基于 SIFT
的稀疏 SfM 估计的，
而 ScanNet 利用 RGB‑D 融合和优化[14]，
从而获
得更准确的姿态。这使得 ScanNet 更适合生成准确的对应标签和评估姿
SuperGlue有18层，
总共12M个参数。
势估计。我们还注意到， Zhang 等人使用的 SUN3D 图像对。 [71]通常
具有较小的基线和旋转角度。
D. 分析注意力
定量分析：
我们计算所有层和所有关键点的注意力权重的空间范围（注
意力跨度）。自注意力跨度对应于像素空间中一个关键点 i 和所有其他 j
之间的距离，由注意力权重αij加权，
并对所有查询进行平均。交叉注意力
这使得基本矩阵估计退化[24]并且角度平移误差不明确。相比之下，我们
跨度对应于最终预测的匹配与所有关注的关键点 j 之间的平均距离。我
的 ScanNet 宽基线对在基线和旋转方面具有明显更多的多样性，因此
们对 100 个 ScanNet 对的跨度进行平均，
并在图12中绘制了每层所有
不会遇到上述问题。
头的最小值，置信区间为 95%。
单应性估计 – 第5.1 节：测试集包含 1024 对 640×480 图像。单应性是
通过对原始全尺寸图像应用随机透视、缩放、旋转和平移来生成的，以避
自注意力和交叉注意力的跨度往往会在整个层中减小，第一层和最免边界伪影。我们使用 SuperPoint 检测到的 512 个得分最高的关键
后一层之间的幅度超过 10 倍。 SuperGlue 最初关注覆盖图像大面积点（非最大抑制 (NMS) 半径为 4 像素）进行评估。如果重投影误差低于
的关键点，然后关注特定位置自注意力关注关键点周围的小邻域，而交 3 个像素，则对应被视为正确。我们使用 OpenCV 函数 findHomography
叉注意力将搜索范围缩小到真正匹配的附近。进行 3000 次迭代，RANSAC 内点阈值为 3 像素。
中间层具有振荡跨度，
暗示着一个更复杂的过程。
11
室内姿态估计 – 第5.2 节：
重叠分数关键点通过最大维度进行归一化
两幅图像 A 和 B 之间的平均像素比图像。
在考虑了缺失的深度值和遮挡（通过检查地面真值对应 M 和不匹配集
I 和 J 是通过首先使用以下公式计算所有检测到的关键点之
以保证深度的一致性）。
我们训练和评估间的 M × N 重新投影矩阵来生成的：
重叠分数在 [0.4, 0.8] 之间的对。
对于训练，
我们在每个时期对每个场景采样地面实况单应性或姿势和深度。
对应项是具有重投影误差的条目，
该误差是沿
200 对，
与[19]中类似。
测试集是通过对序列进行 15 次子采样并随后对 300 行和列的最小值，
并且低于
个序列中的每一个序列随机采样 15 对来生成的。
我们调整大小
给定阈值：
单应性的 3、
5 和 3 像素，
分别进行室内、
室外匹配。
对于同应性，
不匹配的关键点就是那些不匹配的关键
所有 ScanNet 图像和深度图均为 640×480。
我们检测到多达 1024 点。
个 SuperPoint 关键点（使用公开的出现在M中。
对于室内外搭配来说，
因为
可用的训练模型2 ，
NMS 半径为 4) 和 2048 位姿和深度的错误，
不匹配的关键点必须
SIFT 关键点（使用 OpenCV 的实现）。
姿势此外，
最小重投影误差大于
通过首先估计基本矩阵来计算分别为 15 和 5 像素。
这使我们可以忽略标签
OpenCV 的 findEssentialMat 和 RANSAC 对于对应关系不明确的关键点，
而
1 像素的内部阈值除以焦距，仍然通过常态化提供一些监督
接下来是恢复姿势。
与之前相比由Sinkhorn算法引起。
工作[33,71,7 ] ，
我们使用显式积分而不是粗直方图来计算更准确的 AUC。
这
消融研究 – 第5.4 节： “无图神经网络”
基线用单个替代图神经网络
精度（P）
是正确数量的平均比例
线性投影，
但保留关键点编码器和
匹配数超过估计匹配总数。
这
最佳匹配层。 “无交叉注意力”
基线
匹配分数（MS）
是匹配数量的平均比例
用自注意力替换所有交叉注意力层：
它具有
在检测到的关键点总数上进行正确匹配。
参数数量与完整模型相同，
其作用类似于
它没有考虑到该对的重叠和减少
连体网络。 “无位置编码”
基线
共同可见的关键点的数量。
如果对极距离小于 5 · 10－4 ，
则认为匹配是正确
只需删除关键点编码器并仅使用视觉描述符作为输入。
的。
户外姿势估计 – 第5.3 节：
用于培训端到端训练 – 第5.4 节： Super Point 的两个副本，
用于检测和描述，
使用
Megadepth，
重叠分数是三角剖分的比率
两个图像中可见的关键点，
如[19]中所示。原始重量。
检测网络被冻结，
梯度仅通过描述符网络传播，
我们对每个重叠分数在 [0.1, 0.7] 之间的对进行采样
时代。
我们对摄影旅游的所有 11 个场景进行评估从 SuperGlue 流出 ‑ 不使用额外损失。
数据集并重用基于边界的重叠分数
由 Ono 等人计算的框。 [37]，
具有选择范围
[0.1，
0.4]。
调整图像大小，
使其最长尺寸等于 1600 像素，
并使用它们的垂直旋
转
EXIF 数据。
我们为 SIFT 和 Su perPoint 检测到 2048 个关键点（NMS 半径
为 3）。
这里的极线正确性阈值是10－4 。
其他评价参数
与室内评估所用的相同。
SuperGlue 的训练：
对于同应/室内/室外数据的训练，
我们使用 Adam 优化
器[25]
第一个的恒定倾斜率为10－4
200k/100k/50k 迭代，
然后是 0.999998/0.999992/0.999992 的指数衰减，
直到迭代 900k。
当使用 SuperPoint 功能时，
我们使用批处理
32/64/16图像对和固定数量512/400/1024
每张图像的关键点。
对于 SIFT 特征，
我们使用 1024 个关键点和 24 对。
由于
培训人数有限
场景中，
室外模型权重初始化为
单应性模型权重。
在关键点编码器之前，
2github.com/magicleap/SuperPointPretrainedNetwork
12
SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶
的
成
合
HP
丁
补
头
像
摄
图 13：
更多单应性示例。我们在合成数据集（参见第5.1 节）、
来自 HPatches 的真实图像对（参见附录A.1）
以及网络摄像头捕获的棋盘图像上显示
点对应关系。 SuperGlue 始终如一地估计更正确的匹配（绿线）和更少的不匹配（红线），成功应对重复的纹理、大视点和照明变化。
13
的
难
难
困
常
非
了
难
太
图 14：
更多室内示例。我们展示了超级胶水效果良好的困难和非常困难的ScanNet 室内示例，
以及由于不可能的运动或缺乏可重复
的关键点而失败的三个太困难的示例
（最后两行）。正确的匹配是绿线，不匹配是红线。
详细信息请参见第 5.2 节。
14
图 15：
更多户外示例。我们展示了 MegaDepth 验证和 PhotoTourism 测试集的结果。正确的
匹配的是绿线，不匹配的是红线。最后一行显示了一个失败案例，其中 SuperGlue 重点关注
错误的自相似性。详细信息请参见第 5.3 节。
15
估计的对应关系关键点
自我关注交叉注意力
图 16：
跨层的注意力模式。对于此图像对（由 SuperGlue 正确匹配），我们查看三个特定的
可搭配不同难度的要点：简单要点、中等要点、
困难要点
关键。我们可视化所选对象的自注意力和交叉注意力权重（分别在图像 A 和 B 内，以及从 A 到 B）
层和头，用αij改变边缘不透明度。自注意力最初关注整个图像（第 1 行），
并逐渐关注每个关键点周围的一个小邻域
（最后一行）。类似地，一些交叉注意力头专注于候选日期匹配，并逐渐减少检查的集合。简单的关键点早在第9层就匹配了，而更多
困难的只在最后一层匹配。与图12 类似，自我注意力和交叉注意力跨度通常会缩小

贯穿各层。
然而，它们在第 11 层有所增加，该层涉及其他位置看似独特的位置
都比较远。我们假设 SuperGlue 试图使用额外的上下文来消除具有挑战性的比赛的歧义。
16
参考 [18] 丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。 SuperPoint：
自监督兴趣
点检测
[1] 摄影旅游挑战赛，
CVPR 2019 图像匹配和描述。
在 CVPR 深度学习研讨会上
作坊。 https://image‑matching‑workshop。视觉SLAM ， 2018.2,4,5,6,9 _ _
github.io。
访问日期：
2019 年 11 月 8 日。 7, 10
´ [19] Mihai Dusmanu、 Ignatius Rocco、 Thomas Pajdla、 Marc Polle Feys、
[2] 雷利亚·阿兰杰洛维奇和安德鲁·齐瑟曼。为了改进对象检索，每个人都应该知道三件事。 Joseph Sivic、
Akihiko Torii 和 Torsten Sattler。 D2‑网络：
在CVPR中，一种可训练的 CNN，
用于联合检测和描述局部
2012年6月
特征。 CVPR ， 2019.2,6,7,10,12 _ _ _
[3] Vassileios Balntas、
Karel Lenc、
Andrea Vedaldi 和 Krystian Mikolajczyk。 [20] 帕特里克·埃贝尔、
阿纳斯塔西娅·米什楚克、
光武义、
帕斯卡
Hpatches：
基准和评估富阿和爱德华·特鲁尔斯。
超越笛卡尔表示
手工制作和学习的本地描述符。
在 CVPR，
2017 年。 9 局部描述符。
在ICCV，
2019年。
2
[4] 彼得·W·巴塔利亚、
杰西卡·B·哈姆里克、维克多·巴普斯特、阿尔瓦罗 [21] 马丁·A·菲施勒和罗伯特·C·博尔斯。
随机抽样
·桑切斯‑冈萨雷斯、维尼修斯·赞巴尔迪、马特乌斯·马林诺夫斯基、安共识：
模型与应用程序拟合的范式
德里亚·塔切蒂、大卫·拉波索、亚当·桑托罗、图像分析和自动制图。
通讯
瑞安·福克纳等人。
关系归纳偏差、
深度学习和图网络。 arXiv:1806.01261, 2018. 2, ACM，
24(6):381–395, 1981. 2
3
[22] 乔纳斯·格林、
迈克尔·奥利、
大卫·格兰吉尔、
丹尼斯·亚拉茨、
[5] 亚历山大·C·伯格、
塔玛拉·L·伯格和吉腾德拉·马利克。和扬·N·道芬 (Yann N Dauphin)。
卷积序列到序列
使用低失真的形状匹配和物体识别学习。 ICML，
2017 年。
3
信件往来。 CVPR，
2005 年。
2 [23] 贾斯汀·吉尔默、
塞缪尔·S·舍恩霍尔茨、
帕特里克·F·莱利、
奥里奥尔
[6] JiaWang Bian, Wen‑Yan Lin, Yasuyuki Matsushita, Sai‑Kit 黑胶唱片和乔治·E·达尔。
神经消息传递
杨丹达阮和郑明明。
全球管理系统：量子化学。
在 ICML，
2017. 2, 3
基于网格的运动统计可实现快速、
超鲁棒的特征对应。 CVPR ， 2017.2,6
[24] 理查德·哈特利和安德鲁·齐瑟曼。
计算机视觉中的多视图几何。
剑桥大学出版社，
[7] 埃里克·布拉赫曼和卡斯滕·罗瑟。
神经引导 2003年6月11日
RANSAC：
学习在哪里对模型假设进行采样。
在 [25] 迪德里克·P·金马和吉米·巴。
亚当：
一种方法
ICCV, 2019. 2, 5, 6, 11, 12
随机优化。 arXiv:1412.6980, 2014. 12
[8] 塞萨尔·卡德纳、
卢卡·卡隆、
亨利·卡里略、亚西尔·拉蒂夫、 [26] Juho Lee、
Yoonho Lee、
Jungtaek Kim、
Adam Kosiorek、
Se ungjin Choi 和 Yee
´
大卫·斯卡拉穆扎、
何塞·内拉、
伊恩·里德和约翰·J·伦纳德。
同时定位和绘图的过去、
现 Whye Teh。 Set Transformer：
基于注意力的排列不变神经网络的框架。
在 ICML，
在和未来：
迈向稳健感知时代。 IEEE 2019 年。
2
机器人学报， 32(6):1309–1332, 2016. 1
´ [27] 马吕斯·莱奥尔代努和马夏尔·赫伯特。
光谱技术
[9] Tiberio S Caetano、 Julian J McAuley、
Li Cheng、
Quoc V Le 和 Alex J Smola。
学习对于使用成对约束的对应问题。
在
图匹配。 IEEE TPAMI， ICCV, 2005. 2
31(6):1048–1058, 2009. 2
[28] Yujia Li, Chenjie Gu, Thomas Dullien, Oriol Vinyals, and
[10]扬·切赫、
吉里·麦塔斯和米哈尔·佩尔多克。
通过协同分割进行高效的顺序对应选择。普什梅特·科利。
用于学习的图匹配网络
IEEE 图结构对象的相似性。
在 ICML，
2019 年。
2
TPAMI, 32(9):1568–1581, 2010. 2
[29] 李正奇和诺亚·斯内夫利。 MegaDepth：
从互联网照片中学习单视图深度预测。
在
[11]马文·M·春。
视觉注意力的上下文提示。 CVPR，
2018 年。
认知科学趋势，
4(5):170–178, 2000. 3 7
[12] 马可·库图里。 Sinkhorn 距离：
光速计算 [30] Eliane Maria Loiola、
Nair Maria Maia de Abreu、
Paulo Oswaldo
的最佳运输。
于 NIPS，
2013. 2, 5 Boaventura‑Netto、 Peter Hahn 和 Tania Querido。 A
[13] Angela Dai、
Angel X Chang、
Manolis Savva、
Maciej Halber、
Thomas Funkhouser 二次分配问题的调查。
欧洲运筹学杂志，
176(2):657–690, 2007. 2
和 Matthias Nießner。
扫描网：
带有丰富注释的室内场景 3D 重建。
在 [31] 大卫·G·洛。
来自尺度不变关键点的独特图像特征。
国际计算机视觉杂志, 60(2):91–
CVPR, 2017. 6 110, 2004. 2, 6
[14] Angela Dai、
Matthias Nießner、
Michael Zollhofer、
Shahram ¡
伊扎迪和克里斯蒂安·西奥巴尔特。
捆绑融合：
实时 [32] Zixin Luo, Tianwei Shen, Lei Zhou, Jiahui Zhang, Yao Yao,
使用动态表面重新整合进行全局一致的 3D 重建。 ACM 图形交易 (ToG)，李世伟，
田芳，
⻰泉。 ContextDesc：
具有跨模态上下文的本地描述符增强。
在
36(3):24, 2017. 11 CVPR, 2019. 2, 3, 5, 6
[15] 邓浩文，
托尔加·伯达尔，
斯洛博丹·伊利奇。 PPF网： [33] Kwang Moo Yi、
Eduard Trulls、
Yuki Ono、
Vincent Lepetit、
用于稳健 3D 点的全局上下文感知局部特征马蒂厄·萨尔兹曼和帕斯卡·福阿。
学习寻找美好
匹配。 CVPR，
2018. 2 信件往来。 CVPR ， 2018.2,5,6,11,12 _ _ _
[16] 丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
深度图像单应性估计。
在 [34] 彼得·J·穆查、
托马斯·理查森、
凯文·梅肯、
梅森·A
RSS 研讨会：
机器人深度学习的局限性和潜力中，波特和尤卡‑佩卡·翁内拉。
社区结构
时间相关的、
多尺度的、
多重的网络。
科学, 328(5980):876–878, 2010. 3
2016年5月
[17] 丹尼尔·德托内、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
自我改进的视觉里程计。 [35] 詹姆斯·芒克斯。
分配和运输问题的算法。
工业和社会学会杂志
arXiv:1812.03245,
2018年6月应用数学，
5(1):32–38, 1957. 5
17 号
[36]文森佐·尼科西亚、
吉内斯特拉·比安科尼、
维托·拉托拉和马克 [55] 理查德·辛克霍恩和保罗·诺普。
关于非负数
巴泰勒米。
不断发展的多路复用网络。
体检矩阵和双随机矩阵。
太平洋杂志
信件, 111(5):058701, 2013. 3 数学, 1967. 2, 5
[37] Yuki Ono、
Eduard Trulls、
Pascal Fua 和 Kwang Moo Yi。 [56] Bart Thomee、
David A Shamma、
Gerald Friedland、
Ben Jamin Elizalde、
Karl
LF‑Net：
从图像中学习局部特征。
在 NeurIPS 中， Ni、
Douglas Polish、
Damian Borth 和
2018年2、 6、 7、 12日李丽佳. YFCC100M：多媒体研究的新数据。
[38] 亚当·帕斯克、
萨姆·格罗斯、
苏米特·钦塔拉、
格雷戈里 ACM 通讯，
59(2):64–73, 2016. 7, 10
查南、
爱德华·杨、
扎卡里·德维托、
林泽明、
阿尔·班·德梅森、
卢卡·安蒂加和亚当·勒勒。 [57] 洛伦佐·托雷萨尼、
弗拉基米尔·科尔莫哥洛夫和卡斯滕
自动的罗瑟。
通过图形匹配进行特征对应：
模型
PyTorch 中的差异化。在 NIPS 研讨会上，
2017 年。 5 和全局优化。
在 ECCV，
2008 年。
2
´ [58] Tomasz Trzcinski、
Jacek Komorowski、
Lukasz Dabala、
Konrad Czarnota、
[39] 加布里埃尔·佩尔和马可·库图里。计算最优传输。机器学习的基础和趋势，
Grzegorz Kurzejamski 和 Simon Lynen。
SConE：
用于图像匹配的连体星座嵌入描述符。 ECCV 研讨会，
2018 年。 3
11(5‑6):355–607, 2019. 2, 4
[40] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.
[59]Tinne Tuytelaars 和 Luc J Van Gool。
宽基线立体声
PointNet：
针对 3D 分类的点集深度学习
基于局部仿射不变区域的匹配。
在
和细分。 CVPR，
2017 年。
2
BMVC，
2000年。
2
[41] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J
[60] 德米特里·乌里扬诺夫、
安德里亚·维达尔迪和维克多·伦皮茨基。
实例标准化：
快速风格
吉巴斯。 Pointnet++：
深度分层特征学习
化所缺少的要素。 arXiv:1607.08022, 2016. 2, 5
度量空间中的点集。在 NIPS，2017 年。2
´
[42] Philip Radenovic、
Ahmet Iscen、Giorgos Tolias、
Yannis Avrithis 和 Ondˇrej [61] Ashish Vaswani、Noam Shazeer、Niki Parmar、 Jakob Uszko reit、
Chum。
重访牛津和巴黎： Llion Jones、
Aidan N Gomez、
Lukasz Kaiser 和 Illia
大规模图像检索基准测试。
在 CVPR，
2018 年。波洛苏欣。
您所需要的就是关注。
在 NIPS，
2017 年1 月2 日，
5 3, 4, 5
[43] 拉胡尔·拉古拉姆、
扬·迈克尔·弗拉姆和马克·波勒菲斯。 [62] Petar Velikovi、
Guillem Cucurull、
Arantxa Casanova、
Adriana Romero、
Pietro
RANSAC技术的比较分析 Li 和 Yoshua Bengio。
图注意力
自适应实时随机样本共识。在ECCV中，网络。 ICLR，
2018 年。
2
´
2008年2月 [63]塞德里克·维拉尼。最佳运输：新旧，
第 338 卷。
´
[44] 雷内·兰福特和弗拉德伦·科尔通。深层基础矩阵施普林格科学与商业媒体，
2008. 2
估计。
在 ECCV 中，
2018. 2, 5 [64] 王小⻰，
Ross Girshick，
Abhinav Gupta，
Kaim ing He。
非局部神经网络。 CVPR，
´
[45] Jerome Revaud、
Philippe Weinzaepfel、
Cesar De Souza、Noe Pion、
Gabriela 2018. 2
Csurka、
Yohann Cabon 和 Martin Humen berger。 R2D2：
可重复且可靠的检 [65] 王悦和贾斯汀·M·所罗门。
深度最近点：
测器和描述器。
在NeurIPS ， 2019.2,5,9,10 _ 学习点云配准的表示。
在
ICCV, 2019. 2
´
[46] Ignatius Rocco、
Mircea Cimpoi、
Relja Arandjelovic、
Akihiko Torii、
Thomas [66] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma,
Pajdla 和 Joseph Sivic。
有传感器网络的社区。
在 NeurIPS，
2018.2中，迈克尔·M·布朗斯坦和贾斯汀·M·所罗门。
动态的
用于点云学习的图 CNN。 ACM交易
关于图形，
2019. 2
[47] 伊森·卢布利 (Ethan Rublee)、
文森特·拉博 (Vincent Rabaud)、
库尔特·科诺利格 (Kurt Konolige) 和加里·R (Gary R)
布拉德斯基。 ORB：
SIFT 或 SURF 的有效替代方案。
在 [67] 肖建雄，
安德鲁·欧文斯，
安东尼奥·托拉尔巴。
SUN3D：
使用 SfM 重建的大空间数据库
ICCV, 2011. 6
和对象标签。
在 ICCV 中，
2013 年。 11
[48] 保罗·爱德华·萨林、
塞萨尔·卡德纳、
罗兰·西格沃特和
[68] Tsun‑Yi Yang、
Duy‑Kien Nguyen、
Huub Heijnen 和 Vas sileios Balntas。
马尔辛·戴姆奇克.从粗到细：
稳健的分层
UR2KiD：
统一检索、
关键点检测和关键点描述，
无需本地对应
大规模本地化。
在 CVPR，
2019 年。 10
[49] 托斯顿·萨特勒、
巴斯蒂安·莱贝和莱夫·科贝尔特。 SCRAM SAC：
通过空间一致性过滤
监督。 arXiv:2001.07252, 2020. 10
器提高 RANSAC 的效率。
在ICCV，
2009年。
2
[69] Kwang Moo Yi、
Eduard Trulls、
Vincent Lepetit 和 Pascal
福阿。 LIFT：
学习不变特征变换。
在ECCV中，
威尔·马德恩、
卡尔·托夫特、
鸟井明彦、 2016年2月6日
拉尔斯·哈马斯特兰德、
埃里克·斯滕伯格、
丹尼尔·萨法里、
正俊 [70]Manzil Zaheer、
Satwik Kottur、
Siamak Ravanbakhsh、
Barnabas Poczos、
Ruslan
奥富美、
Marc Pollefeys、
Joseph Sivic 等。
标杆管理 R Salakhutdinov 和 Alexander J
变化条件下的 6dof 户外视觉定位。
在斯莫拉。
深套。
在 NIPS，
2017 年。
2
CVPR, 2018. 10 [71] Jiahui Zhang, Dawei Sun, Zixin Luo, Anbang Yao, Lei
托比亚斯·韦安德、
巴斯蒂安·莱贝和莱夫 Zhou, Tianwei Shen, Yurong Chen, Long Quan, and Hongen
科贝尔特。
修订基于图像的定位的图像检索。 BMVC，
2012年。
10 辽。
使用顺序感知网络学习二视图对应和几何。 ICCV ， 2019.2,5,6,10,11 , _ _
12
¡
[52] 约翰内斯·卢茨·舍恩伯格和简·迈克尔·弗拉姆。
重新审视运动结构。 CVPR，
2016年7月10日 [72] Li Zhang, Xiangtai Li, Anurag Arnab, Kuiyuan Yang, Yun hai Tong, and Philip
¡
[53] Johannes Lutz Schonberger、
Enliang Cheng、
Marc Pollefeys 和 Jan‑Michael HS Torr. Dual graph convolutional net work for semantic segmentation.
Frahm。非结构化多视图立体的像素级视图选择。在 ECCV 中， 2016 年。 7 In BMVC, 2019. 2
[73] 张一萌，
贾兆银，
陈祖涵。
使用保留几何形状的视觉短语进行图像检索。
在CVPR中，
[54] 伊莱·谢赫特曼和米哈尔·伊拉尼。
匹配图像和视频之间的局部自相似性。 CVPR，
2007
2011年3月
年。
3
18

SuperGlue论文译文

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SuperGlue论文译文

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

估计后端，我们的网络直接位于中间 *在 Magic Leap, Inc. 完成硕士学位工作。作者感谢

图像A 图像B 相似或显着的关键点的位置。

维杰 W3 b3 b = 1 A M 每个的预期匹配数

ORB 神经网络+GMS 5.21 13.65 25.36 72.0 5.7

NN+相互 36.40 50.4 18.8

SuperPoint + NN + 距离阈值 SuperPoint + NN + OANet 超级点 +超级胶

ContextDesc NN + 比率测试 26.09 45.52 63.07 53.00 63.13 73.00 R2D2 [45] 46.9 D2‑Net [19] 66.3 88.8 20k

SuperGlue 推理时间自我注意力广度交叉注意力广度

C. 时序和模型参数定性示例：我们分析了图16中特定示例的注意力模式。

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

困难的只在最后一层匹配。与图12 类似，自我注意力和交叉注意力跨度通常会缩小

You might also like

SuperGlue论文 译文

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SuperGlue论文 译文

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

估计后端， 我们的网络直接位于中间 *在 Magic Leap, Inc. 完成硕士学位工作。 作者感谢

图像A 图像B 相似或显着的关键点的位置。

维杰 W3 b3 b = 1 A M 每个的预期匹配数

ORB 神经网络+GMS 5.21 13.65 25.36 72.0 5.7

NN+相互 36.40 50.4 18.8

SuperPoint + NN + 距离阈值 SuperPoint + NN + OANet 超级点 +超级胶

ContextDesc NN + 比率测试 26.09 45.52 63.07 53.00 63.13 73.00 R2D2 [45] 46.9 D2‑Net [19] 66.3 88.8 20k

SuperGlue 推理时间 自我注意力广度 交叉注意力广度

C. 时序和模型参数 定性示例： 我们分析了图16中特定示例的注意力模式。

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

SuperPoint + NN + 距离 SuperPoint + NN + OANet 超级点 +超级胶

困难的只在最后一层匹配。 与图12 类似， 自我注意力和交叉注意力跨度通常会缩小

You might also like

SuperGlue论文译文

SuperGlue论文译文

估计后端，我们的网络直接位于中间 *在 Magic Leap, Inc. 完成硕士学位工作。作者感谢

SuperGlue 推理时间自我注意力广度交叉注意力广度

C. 时序和模型参数定性示例：我们分析了图16中特定示例的注意力模式。

困难的只在最后一层匹配。与图12 类似，自我注意力和交叉注意力跨度通常会缩小