Professional Documents
Culture Documents
SuperGlue论文 译文
SuperGlue论文 译文
SuperGlue:
使用图神经网络学习特征匹配
保罗‑爱德华·萨林 (Paul‑Edouard Sarlin)1*丹尼尔·德通 ( Daniel DeTone)2托马斯·马里谢维奇 (Tomasz Malisiewicz) 2安德鲁·拉比诺维奇 (Andrew Rabinovich )2
1 2
苏黎世联邦理工学院 魔法跳跃公司
抽象的
强力胶 器
化
优
端
后
本文介绍了 SuperGlue,
一种神经网络
通过共同寻找对应点并拒绝不可匹配的点来匹配两组局部特征。
通过求
解可微的最优值来估计分配
运输问题,
其成本由图表预测
神经网络。
我们引入灵活的上下文聚合
基于注意力的机制,
使 SuperGlue 能够推理底层 3D 场景和特征分配
共同。
与传统的、 手工设计的启发式方法相比,
我们的技术通过端到端的 检测器和描述符 强力胶
深度前端 深度中端匹配器
方式学习 3D 世界的几何变换和规律性的先验知识
从图像对进行训练。 SuperGlue 优于其他产品 图 1:
与 SuperGlue 的功能匹配。
我们的方法根据现成的局部特征建立
学习方法并取得最先进的成果 逐点对应关系: 它充当手工制作或学习的前端和后端之间的中间端。
v8
SuperGlue 使用
在室内和室外环境中挑战现实世界的姿态估计任务。 所提出的方法在现
代 GPU 上实时执行表格匹配,
并且可以
图神经网络和注意力来解决作业
可以轻松集成到现代 SfM 或 SLAM 系统中。 优化问题,
并处理部分点可见性
代码和训练过的权重可在以下位置公开获取: 和优雅的遮挡,
产生部分分配。
github.com/magicleap/SuperGluePretrainedNetwork。
在这项工作中,学习特征匹配被视为
arXiv:1911.11763v2
[cs.CV]
2020
28
月
年
日
3
一、
简介 找到两组局部变量之间的部分赋值
特征。我们重新审视经典的基于图的策略
图像中点之间的对应关系至关重要
通过解决线性分配问题来匹配, 其中,
用于估计几何计算机视觉任务中的 3D 结构和相机姿态,
例如同步定位
当放松到最优运输问题时,可以解决
和建图 (SLAM) 以及运动结构
可微分地。此优化的成本函数由图神经网络 (GNN) 预测。
灵感来自于
(SfM)。
这种对应关系通常通过以下方式估计
Transformer [61] 的成功,
它使用自(图像内)
匹配局部特征,这个过程称为数据关联。
大视点和光照变化、
遮挡、
模糊,
和跨(图像间) 注意力以利用空间
和缺乏纹理是 2D 到 2D 数据关联特别具有挑战性的因素。 关键点及其视觉外观的关系。
这个公式强制执行了分配结构
预测, 同时使成本能够学习复杂的先验, 优雅地处理遮挡和不可重复的
在本文中,我们提出了一种新的思考方式
关键点。 我们的方法是从图像对进行端到端训练的
特征匹配问题。我们建议学习匹配过程,而不是学习更好的与任务无关
的局部特征,然后进行简单的匹配启发式和技巧
– 我们从大量带注释的数据中学习姿势估计的先验知识
数据集,
使 SuperGlue 能够推理 3D 场景
使用一种名为 SuperGlue 的新型神经架构从预先存在的局部特征中
和作业。
我们的工作可以应用于各种
提取信息。 在 SLAM 的背景下,
需要高质量的多视图几何问题
通常[8]将问题分解为视觉特征提取前端和捆绑调整或姿势
特征对应关系(见图2)。
1
Machine Translated by Google
图匹配问题通常表述为
二次分配问题是 NP 难题,
需要昂贵、
复杂且不切实际的求解器[30]。
对于局部特征,
计算机视觉文献
2000 年代[5,27,57 ]使用带有许多启发式技巧的手工成本,
使其复
杂且脆弱。 卡埃塔诺等人。 [9]学习
更简单的线性分配的优化成本,
但只使用浅层模型,
而我们的 SuperGlue 学习
使用深度神经网络的灵活成本。
与图表相关
匹配是最优传输问题[63] 它是一个
具有高效而简单的广义线性分配
近似解,
Sinkhorn 算法[55,12,39 ] 。
点云等集合的深度学习旨在通过聚合跨元素的信息来设计排列等值函数或不
变函数。
有些作品对待一切
通过全局池化[70,40,15 ]或实例标准化[60,33,32 ]平等地对待元素,
而其他人
图 2: SuperGlue 对应关系。
对于这两个
则专注于
具有挑战性的室内图像对,
与 SuperGlue 匹配
坐标或特征空间中的局部邻域[41, 66]。
结果是准确的姿势,
而其他姿势是学习或手工制作的
注意力[61,64,62,26 ]可以通过关注特定的元素和属性来执行全局和数据依赖
方法失败(对应关系因极线误差而着色)。
的局部聚合,
因此更加灵活。
通过观察,
自注意力可以被视为完整的消息传递图
神经网络[23, 4]的一个实例
我们展示了 SuperGlue 与两者相比的优越性
手工制作的匹配器和学习的内部分类器。 什么时候
与深层前端SuperPoint [18]相结合,
Super Glue 推进了室内和室外任务的最
先进技术 图,
我们将注意力集中在具有多种类型的图上
边缘,
类似于[28, 72],
并启用 SuperGlue 来学习
室外姿态估计,
为端到端深度 SLAM 铺平道路。
关于两组局部特征的复杂推理。
2、
相关工作 3. SuperGlue 架构
动机:
在图像匹配问题中,
可以利用世界的一些规律:
3D 世界是
局部特征匹配通常通过 i) 检测兴趣点,
ii) 计算视觉描述符来执行,
所有的对应关系大部分是光滑的,
有时是平面的
iii) 将它们与最近邻 (NN) 搜索进行匹配,
对于给定的图像对,
如果场景是静态的,
并且某些姿势更有可能来自单个对极
iv) 过滤不正确的匹配,
最后 v) 估计
变换形式
几何变换。
经典管道开发
在 2000 年代通常基于 SIFT [31],
过滤器匹配 相对于其它的。
此外,
2D 关键点通常是显着 3D 点的投影,
例如角点或斑点,
因
与劳氏比率测试[31]、
相互检查和启发式 此图像之间的对应关系必须遵循特定的物理关系
例如邻里共识[59,10,6,49 ] ,
并找到一个
使用 RANSAC [21, 43] 等强大的求解器进行转换。 约束: i)一个关键点在另一幅图像中最多只能有一个对应; ii )一些关键点将
最近的深度学习匹配工作通常侧重于使用卷积神经网络(CNN)
从数据中
由于探测器的遮挡和故障而无法匹配。
学习更好的稀疏检测器和局部描述器[18,19,37,45,69 ] 。
为了提高他们的辨别
有效的特征匹配模型应该旨在找到相同特征的重投影之间的所有对应关系
能力,
3D 点并识别没有匹配的关键点。
一些作品明确地利用区域性来着眼于更广泛的背景
我们将 SuperGlue(见图3)
表述为解决优化问题,
其成本由深度神经网络预测
特征[32]或对数极坐标补丁[20]。
其他方法
学习通过将匹配分类为内点来过滤匹配
网络。
这减轻了对领域专业知识的需求
异常值[ 33,44,7,71 ] 。
这些对匹配组进行操作,
启发式 我们直接从数据中学习相关先验。
仍然由 NN 搜索估计,
因此忽略分配
结构并丢弃视觉信息。 值得学习的作品 表述:
考虑两个图像 A 和 B,
每个图像都有一个
到目前为止, 执行匹配的方法主要集中在密集匹配[46]或3D点云 关键点位置 p 和相关视觉描述符的集合
[65]上,
并且仍然表现出相同的效果 d – 我们将它们 (p, d) 统称为局部特征。
限制。
相比之下,
我们的可学习中端在单个端到端架构中同时执行上下文聚合、 位置由 x 和 y 图像坐标以及
匹配和过滤。 检测置信度 c, pi := (x, y, c)i 。
视觉描述符
di ∈ RD 可以是由像 SuperPoint 这样的 CNN 提取的
2
Machine Translated by Google
注意力图神经网络 最佳匹配层
地方
特色
注意力聚合 匹配描述 Sinkhorn算法
符 部分的
视觉描述符 自己 叉
+ 分数矩阵
正常化
排 任务
位置
关键 M+1
编码器 柱子
规范。
+ L 垃圾箱得 N+1 时间
分 =1
图 3: SuperGlue 架构。 SuperGlue 由两个主要部分组成: 注意力图神经网络
网络(第3.1 节) 和最佳匹配层(第3.2 节)。 第一个组件使用关键点编码器来映射
将关键点位置 p 及其视觉描述符 d 转化为单个向量, 然后使用交替的自注意力和交叉注意力
f. 层(重复 L 次)
以创建更强大的表示。 最佳匹配层创建 M × N 分数
矩阵, 用垃圾箱对其进行扩充, 然后使用 Sinkhorn 算法(对于 T 次迭代)
找到最佳部分分配。
或传统描述符如 SIFT。
图像 A 和 B 有 关键点编码器:
初始表示(0)xi为
M 和 N 局部特征, 索引为 A := {1, ..., M} 和 每个关键点都结合了其视觉外观和位置。 我们使用多层感知器(MLP)
B := {1, ..., N} 分别。 将关键点位置嵌入到高维向量中, 如下所示:
部分赋值:约束i)和ii)意味着 cor v10
响应源自之间的部分分配
(0)xi = di + MLPenc (pi). (2)
两组关键点。用于整合下游
任务和更好的可解释性, 每个可能的对应都应该有一个置信值。
我们因 该编码器使图网络能够稍后进行推理
此 共同关注外观和位置,
尤其是当
定义部分软分配矩阵 P ∈ [0, 1]M×N为: 与注意力相结合,
是语言处理中流行的“位置编码器”
的一个实例[22,
61]。
P1N ≤ 1M且 P 1M ≤ 1N 。 (1)
多重图神经网络:
我们考虑单个
我们的目标是设计一个神经网络,
根据两组局部特征预测符号 P。 完整图,
其节点是两个图像的关键点。
该图有两种类型的无向边 它是
3.1.注意力图神经网络 多重图[34, 36]。
图像内边缘或自边缘,
Eself,
将关键点 i 连接到范围内的所有其他关键点
除了关键点的位置及其视觉外观之外,整合其他上下文线索可以直 相同的图像。 图像间边缘, 或交叉边缘, Ecross,
将关键点 i
观地增加其独特性。
例如我们可以考虑它的 连接到另一图像中的所有关键点。 我们用
消息传递公式[23, 4]沿着两种类型的边传播信息。
由此产生的多路复用
与其他共同可见的关键点的空间和视觉关系,例如显着的[32]、
自相似的
[54]、 图神经网络从高维状态开始
统计上同时发生[73],
或相邻[58]。
上 对于每个节点,
并通过同时聚合跨节点的消息来在每一层计算更新的
另一方面, 第二幅图像中关键点的知识 表示
可以通过比较候选人来帮助解决歧义 所有节点的所有给定边。
根据全局和明确的线索匹配或估计相对光度或几何变换。 令()x A 是元素的中间表示
我
i 位于图像 A 的层 。 消息mE→i是以下结果
当被要求匹配给定的模糊关键点时, 人类会来回查看这两个图像: 所有关键点 {j : (i, j) ∈ E} 的聚合,
其中
他们会筛选 E ∈ {Eself, Ecross}。
剩余消息传递更新
尝试性匹配关键点, 检查每个关键点并寻找 A 中的所有 i 是:
上下文线索有助于消除真实匹配的歧义
其他自相似性[11]。这暗示了一个迭代过程 (+1)x A 我
= ()x A 我
+ MLP ()x A 我 || mE→i , (3)
可以将注意力集中在特定位置。
因此,
我们将 Super Glue 的第一个主要模块设计为注意力图神经 其中 [· || ·]表示串联。 类似的更新可以
网络(见图3)。给定初始局部特征, 它计算匹配 对图像 B 中的所有关键点同时执行。
具有不同参数的固定数量的层 L 是
D
描述符fi ∈ R 通过让特征进行交流 沿着自身和交叉链状或聚合
与彼此。正如我们将要展示的,
图像内部和图像之间的远程特征聚合对 边缘。 因此, 从 = 1 开始, E = Eself如果是奇数
于稳健匹配至关重要。 如果是偶数, 则 E = Ecross 。
3
Machine Translated by Google
注
关
我
自
FA我
= W· (L)x A 我
+ b, ∀i ∈ A, (6)
对于 B 中的关键点也是如此。
3.2.最优匹配层
SuperGlue 的第二个主要块(见图3)
是
力
意
注
叉
交
最佳匹配层,
产生部分分配矩阵。
正如在标准图匹配公式中一样,
分配 P 可以
通过计算 a 来获得
所有可能的匹配的得分矩阵 S ∈ RM×N并在约束下最大化总得分Si,jPi,j
图 4:
自我注意力和交叉注意力的可视化。
注意力聚合在关键点之间构建动态 我,j
等式1 中。
这相当于解决线性分配问题。
图。
权重αij显示为射线。
自注意力(上)
可以参与同一图像中的任何位置,
例如独特的位置,
因此不限于附近的位置。
交 分数预测:
建立一个单独的表示
叉注意力(底部)
关注另一张图像中的位置, 所有 M × N 种潜在匹配都将被禁止。
相反,
我们将成对得分表示为匹配描述
符的相似度:
例如具有相似外观的潜在匹配项。
A 乙
Si, j =< f 我
,
F j >, ∀(i, j) ∈ A × B, (7)
注意力聚合:
注意力机制执行聚合并计算消息mE→i 。
其中 <·,·> 是内积。
与学到的相反
自边缘基于自注意力[61]和交叉边缘 视觉描述符,
匹配描述符没有标准化,
并且它们的大小可以根据特征和在
是基于交叉注意力的。
类似于数据库检索,
i 的表示,
查询qi ,
检索值vj 训练以反映预测置信度。
一些元素基于它们的属性,
键kj 。 这
遮挡和可见性:
让网络抑制
消息计算为值的加权平均值: 一些关键点,
我们在每组中都增加了一个垃圾箱,
以便
不匹配的关键点被显式分配给它。
这种技术在图形匹配中很常见,
垃圾箱也有
mE→i = αijvj , (4)
j:(i,j)εE SuperPoint [18]使用它来解释图像单元
可能没有检测到。
我们将分数 S 增加到 S´
其中注意力权重αij是关键查询相似度上的 Softmax: αij = Softmaxj q i
通过附加新的行和列,
点到容器和
kj 。
bin‑to‑bin 分数,
填充有单个可学习参数:
键、
查询和值被计算为图神经网络深层特征的线性投影。
考虑到查询关键
点 i 在图像 Q 和所有源中 S ̄
我,N+1 = S´M+1,j = S´M+1,N+1 = z ∈ R。 (8)
2
关键点在图像 S 中,
(Q, S) ∈ {A, B} , 我们可以写: 而 A 中的关键点将被分配给单个关键点
在 B 或垃圾箱中,
每个垃圾箱有尽可能多的火柴
qi = W1()x Q 我
+ b1 另一组有关键点:
N、M 代表垃圾箱
(5) 分别在A、
B中。
我们表示为 a = 1 中号
N 和
千焦 = W2 b2
()x S
j
+ 。
4
Machine Translated by Google
使用 Sinkhorn 算法[55, 12]。
它是一个可微分的 4. 实施细节
匈牙利算法的版本[35], 经典使用
SuperGlue 可以与任何局部特征检测器和描述符结合使用, 但与
对于二分匹配, 包括沿着行和列迭代标准化 exp(S´), 类似于 row 和
Super Point [18]配合使用效果特别好,它可以生成可重复且稀疏的
关键点
Softmax 列。 T 次迭代后, 我们扔掉垃圾箱
并恢复 P = P¯ – 实现非常高效的匹配。 视觉描述符是
1:
M,1:
N 。
从半密集特征图中双线性采样。 为了
3.3.损失 与其他匹配器进行公平比较, 除非明确提及,否则我们不会在以下情况
下训练视觉描述符网络
根据设计,
图神经网络和最佳匹配层都是可微分的 这使得从匹配
训练超级胶。 在测试时, 可以使用置信度
到视觉描述符的反向传播成为可能。
强力胶
阈值(我们选择0.2) 来保留一些匹配
软分配,
或者使用所有这些以及他们对一个任务的信心
从地面实况比赛中以监督方式进行训练
后续步骤,
例如加权姿态估计。
M = {(i, j)} ⊂ A × B。
这些是根据地面估计的
真实相对变换 使用姿势和深度图 架构细节: 所有中间表示
或单应词。 这也让我们可以标记一些关键点 (键、 查询值、 描述符) 具有相同的维度
如果 I ⊆ A 和 J ⊆ B 附近没有任何重投影, 则它们不匹配。
给定这些标 D = 256 作为 SuperPoint 描述符。 我们使用 L=9 层的交替多头自注
签, 我们最小化 意力和交叉注意力
赋值 P 的负对数似然: 每个 4 个头, 并执行 T = 100 Sinkhorn 迭代。
该模型在PyTorch中实现[38], 包含12M
损失=- 对数 P 我,j 参数, 并在 NVIDIA GTX 1080 上实时运行
(i,j)∈M GPU: 前向传递平均需要69毫秒(15 FPS)
(10)
‑
对数 P i,N+1 - 对数 P M+1,j 。 室内图像对(参见附录C)。
i∈I j∈J 训练细节:
为了允许数据增强,超级点检测和描述步骤是动态执行的, 如
这种监督的目的是同时最大限度地 下所示
匹配的精确度和召回率。 训练期间分批进行。
一些随机关键点是
进一步添加以实现高效配料和增强稳健性。附录E提供了更多详细信
3.4.与相关工作的比较 息。
SuperGlue 架构与排列等价
图像中的关键点。 与其他手工制品不同
5. 实验
或学习方法, 它也等价于排列 5.1.单应性估计
的图像, 更好地反映了图像的对称性
问题并提供有益的归纳偏置。 此外,最佳运输方案强制互惠 我们使用真实图像和合成单应性进行大规模单应性估计实验
比赛的过程, 就像相互检查一样,
但是以一种温和的方式, 鲁棒(RANSAC)
和非鲁棒(DLT)
估计器。
类似于[46],
从而将其嵌入到训练过程中。 数据集:我们通过对随机单应性进行采样并应用随机光度畸变来生成
SuperGlue 与实例标准化[60]:
注意, 图像对
SuperGlue 使用的是比实例规范化更灵活、更强大的上下文聚合机 真实图像,遵循类似于[16,18,45,44 ]的配方。
制, 底层图像来自牛津和巴黎数据集中的 1M 分散图像集[42],
分为
正如之前的工作所使用的那样,
它平等地对待所有关键点
关于特征匹配[ 33,71,32,44,7 ] 。 训练、
验证和测试集。
SuperGlue 与 ContextDesc [32]: SuperGlue 可以联合 单应性估计 AUC
当地的
关于外观和位置的原因, 而 ContextDesc 火柴 公关
特征 分布式账本技术
分别处理它们。 此外, ContextDesc 是一个
神经网络 39.47 0.00 21.7 65.4
前端还需要更大的区域提取器, 并且会损失关键点得分。 SuperGlue NN+相互 42.45 0.24 43.8 56.5
只需要 超级点 神经网络+点CN 43.02 45.40 76.2 64.2
本地特征, 学习的或手工制作的, 因此可以成为现有匹配器的简单替代 神经网络+OA网络 44.55 52.29 82.8 64.7
强力胶 53.67 65.85 90.7 98.3
品。
SuperGlue 与 Transformer [61]: SuperGlue 借用了 表 1:
单应性估计。 SuperGlue 恢复几乎所有可能的匹配,同时抑制
来自 Transformer 的自注意力, 但将其嵌入到 大多数异常值。
图神经网络,
并额外引入了对称的交叉注意力。
这简化了架构,
并实现了 由于 SuperGlue 信件的质量很高,
更好的跨层功能重用。 直接线性变换 (DLT) 是一种基于最小二乘的解决方案, 没有鲁棒性机
制, 其性能优于 RANSAC。
5
Machine Translated by Google
基线:
我们将 SuperGlue 与应用于 SuperPoint 局部特征的几个匹配 当地的
姿态估计AUC
火柴 经前MS
特征
器进行比较 ‑ 最近邻 (NN) 匹配器和各种异常值拒绝器: 相互 @5° @10° @20°
线性变换[24] (DLT),
具有直接最小二乘解。
我们计算平均重投影误
表 2:
宽基线室内姿态估计。
我们报告位姿误差的AUC,
匹配分数(MS)
差
图像的四个角并报告下面的面积
和精度 (P),
均以百分比 % 表示。
超级胶水表现优于其他产品
累积误差曲线 (AUC) 最高可达 10 个像素的值。
所有手工制作和学习的匹配器应用于两者时
结果: SuperGlue 具有足够的表达能力来掌握同形异义, 实现 98% SIFT 和 SuperPoint。
的召回率和高精度(参见
表1)。 估计的对应关系非常好 室内的 户外的
51.8
50
64.2
60
不需要强大的估算器 – SuperGlue 甚至可以工作 43.8 50
DLT 比 RANSAC 更好。
像PointCN和OANet这样的异常值拒绝方法无
40
36.4 46.9 49.4
40.3
40
30 28.7
法预测更正确 20
25.9
22.5 30 30.9 35.3
20
比 NN 匹配器本身更匹配, 过度依赖 10 10
AUC@20°
(%)
初始描述符(参见图6和附录A)。 0 0
SIFT + NN + 比率测试 SuperPoint + NN + 相互
5.2.室内姿态估计 SIFT + 神经网络 + OANet SuperPoint + NN + OANet
筛分 +强力胶 超级点 +超级胶
由于室内图像匹配非常具有挑战性
缺乏纹理、丰富的自相似性、
场景的复杂 3D 几何形状以及大的视点变 图 5:
室内和室外姿势估计。 Super Glue 与 SIFT 或 SuperPoint 局
化。 部特征配合使用, 并持续大幅提高姿势精度
如下所示,
SuperGlue 可以有效地
学习先验知识来克服这些挑战。 OANet,
一种最先进的异常值拒绝神经网络。
数据集:
我们使用ScanNet [13],
一个大型室内数据集
由具有真实姿势的单目序列组成
基线: 我们评估 SuperGlue 和各种基线
和深度图像, 以及明确定义的训练、 验证和
使用根归一化 SIFT [31, 2] 和 Su perPoint [18]特征的匹配器。
测试对应不同场景的分割。 以前的作品
SuperGlue 使用源自地面实况的对应和无与伦比的关键点进行训练
根据时间差[37, 17]或 SfM 共视性[33, 71, 7] 选择训练和评估对,
通常
使用 SIFT 计算。我们认为这限制了
姿势和深度。 所有基线均基于最近的基线
邻居(NN) 匹配器和潜在的异常值拒绝方法。 在“手工制作”
类别中,我
对,
并根据重叠分数选择它们
们考虑
计算给定序列中所有可能的图像对
相互检查、 比率测试[31]、
描述符距离阈值以及更复杂的 GMS [6]。
仅使用地面真实姿势和深度。这导致
“Learned”类别中的方法是PointCN [33],
其
显着更宽的基线对,对应于
现实世界室内图像匹配的当前前沿。丢弃重叠太小或太大的梳理对,
我
后续OANet [71]和NG‑RANSAC [7]。
我们重新训练
们选择
ScanNet 上的 PointCN 和 OANet,
适用于 SuperPoint 和
230M 训练和 1500 个测试对。 使用上述定义的 SIFT 和分类损失
指标: 与之前的工作[33,71,7 ]一样,我们报告 正确性标准及其各自的回归损失。
阈值处姿态误差的 AUC (5° , 10° , 20° ), 对于 NG‑RANSAC,
我们使用原始训练的模型。
我们
其中位姿误差是角度误差的最大值 不包括任何图形匹配方法,
因为它们对于关键点的数量来说太慢了
旋转和平移。 相对位姿是从
使用 RANSAC 进行基本矩阵估计。 我们还报道 我们考虑 (>500)。
其他局部特征评估为
匹配精度和匹配分数[18, 69], 其中 参考:
ORB [47]与 GMS、
D2‑Net [19]和 ContextDesc [32]使用公开可
根据极距, 匹配被认为是正确的。 用的训练模型。
6
Machine Translated by Google
结果:
与手工制作和学习的匹配器相比,
SuperGlue 的姿势精度显着提高 火柴
姿势 匹配 匹配
AUC@20° 精确 分数
5.3.户外姿势估计 5.4.了解强力胶
由于户外图像序列呈现出自己的一套 消融研究:
为了评估我们的设计决策,
我们使用 SuperPoint 功能重复室内实
挑战(例如,
照明变化和遮挡),
我们训练 验,
但是
并评估 SuperGlue 在户外的姿势估计 这次重点关注不同的 SuperGlue 变体。
表 4 中列出的这项消融研究表明,
所
环境。
我们使用相同的评估指标和基线 有 SuperGlue
方法与室内姿态估计任务中的方法相同。 块很有用,
可以带来显着的性能提升。
数据集:
我们对 PhotoTourism 数据集进行评估,
该数据集 当我们在训练 SuperGlue 时另外通过 Super Point 描述符网络进行反
是 CVPR 19 图像匹配挑战赛的一部分[1]。
它 向传播时,
我们观察到 AUC@20°从 51.84 提高到 53.38。
是 YFCC100M 数据集[56]的子集,
并且具有地面
从现成的 SfM 工具获得的真实姿势和稀疏 3D 模型[37,52,53 ] 。
所有学到的 这证实了 SuperGlue 适合端到端
方法都经过训练 学习超越匹配。
在更大的 MegaDepth 数据集[29] 上,
该数据集也具有深度 可视化注意力:
自我和自我的广泛多样性
使用多视图立体计算的地图。
中的场景 交叉注意力模式如图7所示,
反映了
PhotoTourism 测试集已从训练集中删除。 习得行为的复杂性。
详细分析
与室内情况类似,
我们使用重叠分数选择具有挑战性的图像对进行训练和评 趋势和内部运作在附录D中进行。
估
根据[19, 37]中的 SfM 共可见性计算。 六,
结论
结果:
如表 3 所示,
SuperGlue 优于所有
本文展示了基于注意力的力量
基线,
在所有相对姿势阈值,
当应用于
用于局部特征匹配的图神经网络。 Super Glue 的架构使用两种注意力:
(i) 自
SuperPoint 和 SIFT。
最值得注意的是,
精度
注意力,
它增强了局部描述符的感受野,
结果匹配度非常高 (84.9%),
强化了
SuperGlue 将局部特征“粘合”
在一起的类比。
(ii) 交叉注意力,
它可以实现跨图像通信,
并受到人类回顾方式的启发 ‑
姿态估计AUC
当地的
火柴 经前MS 匹配图像时来回。
我们的方法优雅
特征 @5° @10° @20°
通过求解来处理部分分配和遮挡点
ContextDesc NN + 比率测试 20.16 31.65 44.05 56.2 3.3
一个最优运输问题。
我们的实验表明
NN+比率检验 15.19 24.72 35.30 43.4 1.7 SuperGlue 比现有产品有了显着改进
NN+NG‑RANSAC 15.61 25.28 35.87 64.4 1.9
筛 方法,
能够对极宽基线室内和室外图像进行高精度相对位姿估计
神经网络+OANet 18.02 28.76 40.31 55.0 3.7
强力胶 23.68 36.44 49.44 74.1 7.2
NN+相互 9.80 18.99 30.88 22.5 4.9 对。
此外,SuperGlue 实时运行并工作
神经网络+GMS 13.96 24.58 36.53 47.1 4.7
超级点 兼具古典和博学的特点。
神经网络+OA网络 21.03 34.08 46.88 52.4 8.4
强力胶 34.18 50.32 64.16 84.9 11.1 总之,
我们的可学习中端用强大的神经模型取代了手工制作的启发式方法,
该模型在单个统一架构中同时执行上下文聚合、
匹配和过滤。
我们相信,
当
表 3:
室外姿势估计。
匹配超级点
和 SIFT 特征与 SuperGlue 的结果显着
更高的姿态准确度 (AUC)、
精度 (P) 和匹配 SuperGlue 与深度前端相结合,
是迈向端到端深度 SLAM 的一个重要里程碑。
与手工或其他学习方法相比,
得分(MS)
更高。
7
Machine Translated by Google
的
内
室
的
外
户
性
应
单
图 6:
定性图像匹配。
我们将 SuperGlue 与具有两个离群值的最近邻 (NN) 匹配器进行比较
在三种环境中手工制作和学习的拒绝者。 SuperGlue 始终如一地估计出更正确的匹配(绿色
线) 和更少的不匹配(红线), 成功应对重复的纹理、 大视点和照明变化。
己
自
图 7:
注意力可视化。
我们展示了各个层和头部的自注意力和交叉注意力权重αij 。 SuperGlue ex 具有多种模式:
它可以关注全球或本地背景、
自相似
性、 独特特征或匹配候选者。
8
Machine Translated by Google
附录 HPatches:
我们使用 HPatches [3]数据集评估 Super Glue 在真实
数据上的泛化能力, 如
在接下来的几页中, 我们将介绍额外的实验细节、
定量结果、Su
以前的作品[18, 45]。
该数据集描绘了平面场景
perGlue 的定性示例、
详细的计时结果,以及所学到的注意力模式的可
具有地面实况单应性并包含 295 个图像
视化和分析。
与视点变化配对和 285 对与照明变化配对。 我们评估在综合数据集上
训练的模型(参见第5.1 节)。 HPatches 实验
A. 详细结果
表 5 总结了这一点。 正如之前在
A.1.单应性估计 合成单应性实验, SuperGlue 的召回率明显高于所有依赖神经网络的
匹配器
定性结果: 整页的定性结果 搜索。 我们将召回率的剩余差距归因于 SuperPoint 无法检测到足够
合成单应性和真实单应性的 SuperGlue 匹配 的可重复关键点的几个具有挑战性的对。 尽管如此,
经过训练的合成数
见图13。 据集 SuperGlue 可以很好地推广到真实数据。
合成数据集:
我们更详细地了解第 5.1 节中的单应性评估。
图8显示了
在几个正确性像素阈值下匹配精度
A2。
室内姿态估计
单应性估计的累积误差曲线。 Su perGlue 在所有像素正确性阈值中
占据主导地位。
定性结果:
图14显示了 SuperGlue 在室内图像上计算的更多匹配可
匹配精度 单应性准确度 视化,
并突出了构成我们评估数据集的宽基线图像对的极端难度。
100 100
80 80
ScanNet:
我们提供有关结果的更多详细信息
(%)
确
精
60 60 ScanNet(第5.2节), 仅分析以下方法
使用 SuperPoint 本地功能。
图9绘制了累积值
40 40
位姿估计误差曲线以及精度和正确匹配数量之间的权衡。 我们根据重
(%)
性
应
单
的
确
正
投影误差计算正确性(使用地面事实
20 20
0 0
深度和 10 像素的阈值), 并且, 对于具有
1 2 3 4 5 0 5 10 15
来自对称极线误差的无效深度。 我们获得
正确性阈值 (px) 估计误差(像素)
通过改变 PointCN 的置信度阈值来绘制曲线,
神经网络+RANSAC NN + 相互 + RANSAC
NN+PointCN+DLT NN+PointCN+RANSAC
OANet 和 SuperGlue。
在评估时, 我们使用原始的
神经网络+OANet+DLT NN + OANet + RANSAC 前两者的值为 0.5, SuperGlue 的值为 0.2。
强力胶+ DLT 强力胶+ RANSAC
图 8:
单应性评估的详细信息。 Super Glue 表现出更高的精度和单应 姿势准确度 匹配精度
100 90
性精度
所有阈值。 与 RANSAC 相比,
DLT 的高精度导致更准确的估计。 80
80
70
60
(%)
确
精
(%)
势
姿
确
正
60
40
当地的 视点照明 50
火柴
特征 富血小板血浆 右
20 40
NN 39.7 81.7 51.1 84.9
NN + 相互 65.6 77.1 74.2 80.7 30
0
超级点 NN+点CN 87.6 80.7 94.5 82.6 0 10 20 30 30 40 50 60 70 80
神经网络+OANet 90.4 81.2 96.3 83.5 估计误差(度) 正确匹配数
强力胶 91.4 95.7 89.1 91.7
NN+相互 神经网络+点CN 神经网络+OA网络
NN+距离+相互 强力胶
表 5: 对实际数据的概括。 我们在 HPatches 数据集的视点和照明子集
上展示了在合成单应性数据集(参见第5.1节) 上训练的方法的精度 图 9: ScanNet 评估的详细信息。
使用 SuperGlue 估计的姿势在所
(P) 和召回率 (R) 。 有错误阈值下都更加准确。 SuperGlue 提供了精度之间的最佳权衡
在接受合成单应性训练时,
SuperGlue 可以很好地泛化为真实数据。 和正确匹配的数量,
这对于
准确且稳健的姿态估计。
9
Machine Translated by Google
精确曲线下面积 大约。
曲线下面积[71] 正确本地化的查询 (%)
当地的
‧ ‧
火柴 方法 # 特征
特征 5 10° 20° 5 10° 20° .5m/2° 1m/5° 5m/10°
NN+相互 16.94 30.39 45.72 35.00 43.12 54.05
表 7:
亚琛昼夜的视觉定位。 Super Glue 显着提高了 SuperPoint 的性能
超级点 神经网络+OANet 26.82 45.04 62.17 50.94 61.41 71.77
强力胶 38.72 59.13 75.81 67.75 77.41 85.70
进行本地化,
达到新的最先进的结果
表 6: YFCC100M 对的室外姿态估计。 关键点相对较少。
评估是在相同的图像对上进行的
在 OANet [71]中使用他们的近似值和我们的精确值 B. 用于视觉定位的 SuperGlue
曲线下面积。 SuperGlue 持续改进基线
当使用 SIFT 和 SuperPoint 时。 视觉定位:
虽然双视图相对位姿估计是一个重要的基本问题,
但在
A.3.户外姿势估计 图像匹配可以直接有益于视觉定位等实际任务[50, 48],
其目的是估计查询图
像相对于 3D 模型的绝对姿态。
定性结果:
图15显示了关于
Phototourism 测试集和 MegaDepth 验证集。
此外,
现实世界的定位场景表现出明显更高的场景多样性和更具挑战性的条
YFCC100M:
而PhotoTourism [1]和Zhang等人 件,
例如更大的视点和照明变化,
al.的[71]测试集都是基于YFCC100M [56],
他们
使用不同的场景和配对。
为了便于比较,
我们也对SuperGlue进行了同样的评 比热门地标的旅游摄影数据集。
测
评估:
亚琛日夜基准[51, 50]
像 OANet [71]中一样,
使用它们的评估指标。
我们
评估昼夜定位的局部特征匹配。
包括在其训练集上重新训练的 OANet 模型 (*)
我们使用 Super Point 每张图像提取多达 4096 个关键点,
使用
(而不是 MegaDepth)
使用根归一化 SIFT。
这
结果如表6所示。 SuperGlue 进行匹配, 对 SfM 进行三角测量
从白天数据库图像中建立模型,
并使用 2D‑2D 匹配和注册夜间查询图像
正如第5.3节中在对 Pho toTourism 数据集进行评估时所观察到的,
SuperGlue 持续改进
科尔地图[52]。
评估服务器1计算位于多个距离内的查询的百分比,
并
SIFT 和 SuperPoint 的所有基线。
对于 SIFT 而言,
相对于 OANet 的改进有所下降,
我们将其归因于
方向阈值。
如表 7 所示,
尽管使用的关键点少得多,
但 Super Point+SuperGlue
显着更高的重叠和更低的难度
的性能与所有现有方法类似或更好。
[71]使用的对。
虽然近似 AUC 趋于
高估了准确性, 会导致相同的排名
图10显示了具有挑战性的昼夜图像对。
的方法。 OANet 与 SIFT 和 Su perPoint 的数据与他们论文中报告的数据
一致。 1https://www.visuallocalization.net/
图 10:
使用 SuperGlue 匹配具有挑战性的昼夜配对。
我们显示了亚琛昼夜数据集的夜间查询和白天数据库图像之间的预测对应关系。
对应关系的颜色为 RANSAC
绿色的内部值或红色的异常值。
尽管户外训练集很少有夜间图像,
但 SuperGlue 很好地概括了此类情况
极端的光照变化。
此外,
它可以精确匹配窗户等重复图案的建筑立面。
10
Machine Translated by Google
100 (素)
离
距
均
平 像
100
100
50 50 50
0 0 0
256 第512章 1024 2048
0 5 10 15 1 6 11 16
每张图像的关键点数量 层数索引 层数索引
全图神经网络 最佳匹配层
图 12:
整个 SuperGlue 的注意力范围。
我们绘制了注意力跨度(注意力
图 11: SuperGlue 详细的推理时间。 Super Glue 的两个主要模块, 空间分散的度量) 与层指数的关系。 对于这两种类型的注意力,随着
图神经网络和最佳匹配层, 具有相似的计算成本。 SuperGlue 专注于特定位置, 跨度往往会在网络深处减小。请参见图 16
中的示例。
对于每个图像 512 和 1024 个关键点,
SuperGlue 的运行速度分别
为 14.5 和 11.5 FPS。
单应性估计 – 第5.1 节:测试集包含 1024 对 640×480 图像。单应性是
通过对原始全尺寸图像应用随机透视、 缩放、旋转和平移来生成的, 以避
自注意力和交叉注意力的跨度往往会在整个层中减小, 第一层和最 免边界伪影。 我们使用 SuperPoint 检测到的 512 个得分最高的关键
后一层之间的幅度超过 10 倍。 SuperGlue 最初关注覆盖图像大面积 点(非最大抑制 (NMS) 半径为 4 像素) 进行评估。 如果重投影误差低于
的关键点,然后关注特定位置 自注意力关注关键点周围的小邻域, 而交 3 个像素,则对应被视为正确。 我们使用 OpenCV 函数 findHomography
叉注意力将搜索范围缩小到真正匹配的附近。 进行 3000 次迭代,RANSAC 内点阈值为 3 像素。
中间层具有振荡跨度,
暗示着一个更复杂的过程。
11
Machine Translated by Google
室内姿态估计 – 第5.2 节:
重叠分数 关键点通过最大维度进行归一化
两幅图像 A 和 B 之间的平均像素比 图像。
在考虑了缺失的深度值和遮挡(通过检查 地面真值对应 M 和不匹配集
I 和 J 是通过首先使用以下公式计算所有检测到的关键点之
以保证深度的一致性)。
我们训练和评估 间的 M × N 重新投影矩阵来生成的:
重叠分数在 [0.4, 0.8] 之间的对。
对于训练,
我们在每个时期对每个场景采样 地面实况单应性或姿势和深度。
对应项是具有重投影误差的条目,
该误差是沿
200 对,
与[19]中类似。
测试集是通过对序列进行 15 次子采样并随后对 300 行和列的最小值,
并且低于
个序列中的每一个序列随机采样 15 对来生成的。
我们调整大小
给定阈值:
单应性的 3、
5 和 3 像素,
分别进行室内、
室外匹配。
对于同应性,
不匹配的关键点就是那些不匹配的关键
所有 ScanNet 图像和深度图均为 640×480。
我们检测到多达 1024 点。
个 SuperPoint 关键点(使用公开的 出现在M中。
对于室内外搭配来说,
因为
可用的训练模型2 ,
NMS 半径为 4) 和 2048 位姿和深度的错误,
不匹配的关键点必须
SIFT 关键点(使用 OpenCV 的实现)。
姿势 此外,
最小重投影误差大于
通过首先估计基本矩阵来计算 分别为 15 和 5 像素。
这使我们可以忽略标签
OpenCV 的 findEssentialMat 和 RANSAC 对于对应关系不明确的关键点,
而
1 像素的内部阈值除以焦距, 仍然通过常态化提供一些监督
接下来是恢复姿势。
与之前相比 由Sinkhorn算法引起。
工作[33,71,7 ] ,
我们使用显式积分而不是粗直方图来计算更准确的 AUC。
这
消融研究 – 第5.4 节: “无图神经网络”
基线用单个替代图神经网络
精度(P)
是正确数量的平均比例
线性投影,
但保留关键点编码器和
匹配数超过估计匹配总数。
这
最佳匹配层。 “无交叉注意力”
基线
匹配分数(MS)
是匹配数量的平均比例
用自注意力替换所有交叉注意力层:
它具有
在检测到的关键点总数上进行正确匹配。
参数数量与完整模型相同,
其作用类似于
它没有考虑到该对的重叠和减少
连体网络。 “无位置编码”
基线
共同可见的关键点的数量。
如果对极距离小于 5 · 10-4 ,
则认为匹配是正确
只需删除关键点编码器并仅使用视觉描述符作为输入。
的。
户外姿势估计 – 第5.3 节:
用于培训 端到端训练 – 第5.4 节: Super Point 的两个副本,
用于检测和描述,
使用
Megadepth,
重叠分数是三角剖分的比率
两个图像中可见的关键点,
如[19]中所示。 原始重量。
检测网络被冻结,
梯度仅通过描述符网络传播,
我们对每个重叠分数在 [0.1, 0.7] 之间的对进行采样
时代。
我们对摄影旅游的所有 11 个场景进行评估 从 SuperGlue 流出 ‑ 不使用额外损失。
数据集并重用基于边界的重叠分数
由 Ono 等人计算的框。 [37],
具有选择范围
[0.1,
0.4]。
调整图像大小,
使其最长尺寸等于 1600 像素,
并使用它们的垂直旋
转
EXIF 数据。
我们为 SIFT 和 Su perPoint 检测到 2048 个关键点(NMS 半径
为 3)。
这里的极线正确性阈值是10-4 。
其他评价参数
与室内评估所用的相同。
SuperGlue 的训练:
对于同应/室内/室外数据的训练,
我们使用 Adam 优化
器[25]
第一个的恒定倾斜率为10-4
200k/100k/50k 迭代,
然后是 0.999998/0.999992/0.999992 的指数衰减,
直到迭代 900k。
当使用 SuperPoint 功能时,
我们使用批处理
32/64/16图像对和固定数量512/400/1024
每张图像的关键点。
对于 SIFT 特征,
我们使用 1024 个关键点和 24 对。
由于
培训人数有限
场景中,
室外模型权重初始化为
单应性模型权重。
在关键点编码器之前,
2github.com/magicleap/SuperPointPretrainedNetwork
12
Machine Translated by Google
的
成
合
HP
丁
补
头
像
摄
图 13:
更多单应性示例。 我们在合成数据集(参见第5.1 节)、
来自 HPatches 的真实图像对(参见附录A.1)
以及网络摄像头捕获的棋盘图像上显示
点对应关系。 SuperGlue 始终如一地估计更正确的匹配(绿线)和更少的不匹配(红线), 成功应对重复的纹理、 大视点和照明变化。
13
Machine Translated by Google
的
难
难
困
常
非
了
难
太
图 14:
更多室内示例。我们展示了超级胶水效果良好的困难和非常困难的ScanNet 室内示例,
以及由于不可能的运动或缺乏可重复
的关键点而失败的三个太困难的示例
(最后两行)。 正确的匹配是绿线,不匹配是红线。
详细信息请参见第 5.2 节。
14
Machine Translated by Google
图 15:
更多户外示例。我们展示了 MegaDepth 验证和 PhotoTourism 测试集的结果。 正确的
匹配的是绿线, 不匹配的是红线。最后一行显示了一个失败案例, 其中 SuperGlue 重点关注
错误的自相似性。 详细信息请参见第 5.3 节。
15
Machine Translated by Google
估计的对应关系 关键点
自我关注 交叉注意力
图 16:
跨层的注意力模式。 对于此图像对(由 SuperGlue 正确匹配),我们查看三个特定的
可搭配不同难度的要点: 简单要点、中等要点、
困难要点
关键。 我们可视化所选对象的自注意力和交叉注意力权重(分别在图像 A 和 B 内, 以及从 A 到 B)
层和头, 用αij改变边缘不透明度。 自注意力最初关注整个图像(第 1 行),
并逐渐关注每个关键点周围的一个小邻域
(最后一行)。 类似地,一些交叉注意力头专注于候选日期匹配, 并逐渐减少检查的集合。简单的关键点早在第9层就匹配了, 而更多
16
Machine Translated by Google
参考 [18] 丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。 SuperPoint:
自监督兴趣
点检测
[1] 摄影旅游挑战赛,
CVPR 2019 图像匹配 和描述。
在 CVPR 深度学习研讨会上
作坊。 https://image‑matching‑workshop。 视觉SLAM , 2018.2,4,5,6,9 _ _
github.io。
访问日期:
2019 年 11 月 8 日。 7, 10
´ [19] Mihai Dusmanu、 Ignatius Rocco、 Thomas Pajdla、 Marc Polle Feys、
[2] 雷利亚·阿兰杰洛维奇和安德鲁·齐瑟曼。 为了改进对象检索, 每个人都应该知道三件事。 Joseph Sivic、
Akihiko Torii 和 Torsten Sattler。 D2‑网络:
在CVPR中, 一种可训练的 CNN,
用于联合检测和描述局部
2012年6月
特征。 CVPR , 2019.2,6,7,10,12 _ _ _
[3] Vassileios Balntas、
Karel Lenc、
Andrea Vedaldi 和 Krystian Mikolajczyk。 [20] 帕特里克·埃贝尔、
阿纳斯塔西娅·米什楚克、
光武义、
帕斯卡
Hpatches:
基准和评估 富阿和爱德华·特鲁尔斯。
超越笛卡尔表示
手工制作和学习的本地描述符。
在 CVPR,
2017 年。 9 局部描述符。
在ICCV,
2019年。
2
[4] 彼得·W·巴塔利亚、
杰西卡·B·哈姆里克、维克多·巴普斯特、阿尔瓦罗 [21] 马丁·A·菲施勒和罗伯特·C·博尔斯。
随机抽样
·桑切斯‑冈萨雷斯、维尼修斯·赞巴尔迪、马特乌斯·马林诺夫斯基、安 共识:
模型与应用程序拟合的范式
德里亚·塔切蒂、大卫·拉波索、亚当·桑托罗、 图像分析和自动制图。
通讯
瑞安·福克纳等人。
关系归纳偏差、
深度学习和图网络。 arXiv:1806.01261, 2018. 2, ACM,
24(6):381–395, 1981. 2
3
[22] 乔纳斯·格林、
迈克尔·奥利、
大卫·格兰吉尔、
丹尼斯·亚拉茨、
[5] 亚历山大·C·伯格、
塔玛拉·L·伯格和吉腾德拉·马利克。 和扬·N·道芬 (Yann N Dauphin)。
卷积序列到序列
使用低失真的形状匹配和物体识别 学习。 ICML,
2017 年。
3
信件往来。 CVPR,
2005 年。
2 [23] 贾斯汀·吉尔默、
塞缪尔·S·舍恩霍尔茨、
帕特里克·F·莱利、
奥里奥尔
[6] JiaWang Bian, Wen‑Yan Lin, Yasuyuki Matsushita, Sai‑Kit 黑胶唱片和乔治·E·达尔。
神经消息传递
杨丹达阮和郑明明。
全球管理系统: 量子化学。
在 ICML,
2017. 2, 3
基于网格的运动统计可实现快速、
超鲁棒的特征对应。 CVPR , 2017.2,6
[24] 理查德·哈特利和安德鲁·齐瑟曼。
计算机视觉中的多视图几何。
剑桥大学出版社,
[7] 埃里克·布拉赫曼和卡斯滕·罗瑟。
神经引导 2003年6月11日
RANSAC:
学习在哪里对模型假设进行采样。
在 [25] 迪德里克·P·金马和吉米·巴。
亚当:
一种方法
ICCV, 2019. 2, 5, 6, 11, 12
随机优化。 arXiv:1412.6980, 2014. 12
[8] 塞萨尔·卡德纳、
卢卡·卡隆、
亨利·卡里略、亚西尔·拉蒂夫、 [26] Juho Lee、
Yoonho Lee、
Jungtaek Kim、
Adam Kosiorek、
Se ungjin Choi 和 Yee
´
大卫·斯卡拉穆扎、
何塞·内拉、
伊恩·里德和约翰·J·伦纳德。
同时定位和绘图的过去、
现 Whye Teh。 Set Transformer:
基于注意力的排列不变神经网络的框架。
在 ICML,
在和未来:
迈向稳健感知时代。 IEEE 2019 年。
2
机器人学报, 32(6):1309–1332, 2016. 1
´ [27] 马吕斯·莱奥尔代努和马夏尔·赫伯特。
光谱技术
[9] Tiberio S Caetano、 Julian J McAuley、
Li Cheng、
Quoc V Le 和 Alex J Smola。
学习 对于使用成对约束的对应问题。
在
图匹配。 IEEE TPAMI, ICCV, 2005. 2
31(6):1048–1058, 2009. 2
[28] Yujia Li, Chenjie Gu, Thomas Dullien, Oriol Vinyals, and
[10]扬·切赫、
吉里·麦塔斯和米哈尔·佩尔多克。
通过协同分割进行高效的顺序对应选择。 普什梅特·科利。
用于学习的图匹配网络
IEEE 图结构对象的相似性。
在 ICML,
2019 年。
2
TPAMI, 32(9):1568–1581, 2010. 2
[29] 李正奇和诺亚·斯内夫利。 MegaDepth:
从互联网照片中学习单视图深度预测。
在
[11]马文·M·春。
视觉注意力的上下文提示。 CVPR,
2018 年。
认知科学趋势,
4(5):170–178, 2000. 3 7
[12] 马可·库图里。 Sinkhorn 距离:
光速计算 [30] Eliane Maria Loiola、
Nair Maria Maia de Abreu、
Paulo Oswaldo
的最佳运输。
于 NIPS,
2013. 2, 5 Boaventura‑Netto、 Peter Hahn 和 Tania Querido。 A
[13] Angela Dai、
Angel X Chang、
Manolis Savva、
Maciej Halber、
Thomas Funkhouser 二次分配问题的调查。
欧洲运筹学杂志,
176(2):657–690, 2007. 2
和 Matthias Nießner。
扫描网:
带有丰富注释的室内场景 3D 重建。
在 [31] 大卫·G·洛。
来自尺度不变关键点的独特图像特征。
国际计算机视觉杂志, 60(2):91–
CVPR, 2017. 6 110, 2004. 2, 6
[14] Angela Dai、
Matthias Nießner、
Michael Zollhofer、
Shahram ¡
伊扎迪和克里斯蒂安·西奥巴尔特。
捆绑融合:
实时 [32] Zixin Luo, Tianwei Shen, Lei Zhou, Jiahui Zhang, Yao Yao,
使用动态表面重新整合进行全局一致的 3D 重建。 ACM 图形交易 (ToG), 李世伟,
田芳,
⻰泉。 ContextDesc:
具有跨模态上下文的本地描述符增强。
在
36(3):24, 2017. 11 CVPR, 2019. 2, 3, 5, 6
[15] 邓浩文,
托尔加·伯达尔,
斯洛博丹·伊利奇。 PPF网: [33] Kwang Moo Yi、
Eduard Trulls、
Yuki Ono、
Vincent Lepetit、
用于稳健 3D 点的全局上下文感知局部特征 马蒂厄·萨尔兹曼和帕斯卡·福阿。
学习寻找美好
匹配。 CVPR,
2018. 2 信件往来。 CVPR , 2018.2,5,6,11,12 _ _ _
[16] 丹尼尔·德托恩、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
深度图像单应性估计。
在 [34] 彼得·J·穆查、
托马斯·理查森、
凯文·梅肯、
梅森·A
RSS 研讨会:
机器人深度学习的局限性和潜力中, 波特和尤卡‑佩卡·翁内拉。
社区结构
时间相关的、
多尺度的、
多重的网络。
科学, 328(5980):876–878, 2010. 3
2016年5月
[17] 丹尼尔·德托内、
托马斯·马里谢维奇和安德鲁·拉比·诺维奇。
自我改进的视觉里程计。 [35] 詹姆斯·芒克斯。
分配和运输问题的算法。
工业和社会学会杂志
arXiv:1812.03245,
2018年6月 应用数学,
5(1):32–38, 1957. 5
17 号
Machine Translated by Google
[36]文森佐·尼科西亚、
吉内斯特拉·比安科尼、
维托·拉托拉和马克 [55] 理查德·辛克霍恩和保罗·诺普。
关于非负数
巴泰勒米。
不断发展的多路复用网络。
体检 矩阵和双随机矩阵。
太平洋杂志
信件, 111(5):058701, 2013. 3 数学, 1967. 2, 5
[37] Yuki Ono、
Eduard Trulls、
Pascal Fua 和 Kwang Moo Yi。 [56] Bart Thomee、
David A Shamma、
Gerald Friedland、
Ben Jamin Elizalde、
Karl
LF‑Net:
从图像中学习局部特征。
在 NeurIPS 中, Ni、
Douglas Polish、
Damian Borth 和
2018年2、 6、 7、 12日 李丽佳. YFCC100M: 多媒体研究的新数据。
[38] 亚当·帕斯克、
萨姆·格罗斯、
苏米特·钦塔拉、
格雷戈里 ACM 通讯,
59(2):64–73, 2016. 7, 10
查南、
爱德华·杨、
扎卡里·德维托、
林泽明、
阿尔·班·德梅森、
卢卡·安蒂加和亚当·勒勒。 [57] 洛伦佐·托雷萨尼、
弗拉基米尔·科尔莫哥洛夫和卡斯滕
自动的 罗瑟。
通过图形匹配进行特征对应:
模型
PyTorch 中的差异化。在 NIPS 研讨会上,
2017 年。 5 和全局优化。
在 ECCV,
2008 年。
2
´ [58] Tomasz Trzcinski、
Jacek Komorowski、
Lukasz Dabala、
Konrad Czarnota、
[39] 加布里埃尔·佩尔和马可·库图里。 计算最优传输。 机器学习的基础和趋势,
Grzegorz Kurzejamski 和 Simon Lynen。
SConE:
用于图像匹配的连体星座嵌入描述符。 ECCV 研讨会,
2018 年。 3
11(5‑6):355–607, 2019. 2, 4
[40] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.
[59]Tinne Tuytelaars 和 Luc J Van Gool。
宽基线立体声
PointNet:
针对 3D 分类的点集深度学习
基于局部仿射不变区域的匹配。
在
和细分。 CVPR,
2017 年。
2
BMVC,
2000年。
2
[41] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J
[60] 德米特里·乌里扬诺夫、
安德里亚·维达尔迪和维克多·伦皮茨基。
实例标准化:
快速风格
吉巴斯。 Pointnet++:
深度分层特征学习
化所缺少的要素。 arXiv:1607.08022, 2016. 2, 5
度量空间中的点集。 在 NIPS,2017 年。2
´
[42] Philip Radenovic、
Ahmet Iscen、Giorgos Tolias、
Yannis Avrithis 和 Ondˇrej [61] Ashish Vaswani、Noam Shazeer、Niki Parmar、 Jakob Uszko reit、
Chum。
重访牛津和巴黎: Llion Jones、
Aidan N Gomez、
Lukasz Kaiser 和 Illia
大规模图像检索基准测试。
在 CVPR,
2018 年。 波洛苏欣。
您所需要的就是关注。
在 NIPS,
2017 年1 月2 日,
5 3, 4, 5
[43] 拉胡尔·拉古拉姆、
扬·迈克尔·弗拉姆和马克·波勒菲斯。 [62] Petar Velikovi、
Guillem Cucurull、
Arantxa Casanova、
Adriana Romero、
Pietro
RANSAC技术的比较分析 Li 和 Yoshua Bengio。
图注意力
自适应实时随机样本共识。 在ECCV中, 网络。 ICLR,
2018 年。
2
´
2008年2月 [63]塞德里克·维拉尼。 最佳运输: 新旧,
第 338 卷。
´
[44] 雷内·兰福特和弗拉德伦·科尔通。深层基础矩阵 施普林格科学与商业媒体,
2008. 2
估计。
在 ECCV 中,
2018. 2, 5 [64] 王小⻰,
Ross Girshick,
Abhinav Gupta,
Kaim ing He。
非局部神经网络。 CVPR,
´
[45] Jerome Revaud、
Philippe Weinzaepfel、
Cesar De Souza、Noe Pion、
Gabriela 2018. 2
Csurka、
Yohann Cabon 和 Martin Humen berger。 R2D2:
可重复且可靠的检 [65] 王悦和贾斯汀·M·所罗门。
深度最近点:
测器和描述器。
在NeurIPS , 2019.2,5,9,10 _ 学习点云配准的表示。
在
ICCV, 2019. 2
´
[46] Ignatius Rocco、
Mircea Cimpoi、
Relja Arandjelovic、
Akihiko Torii、
Thomas [66] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma,
Pajdla 和 Joseph Sivic。
有传感器网络的社区。
在 NeurIPS,
2018.2中, 迈克尔·M·布朗斯坦和贾斯汀·M·所罗门。
动态的
用于点云学习的图 CNN。 ACM交易
关于图形,
2019. 2
[47] 伊森·卢布利 (Ethan Rublee)、
文森特·拉博 (Vincent Rabaud)、
库尔特·科诺利格 (Kurt Konolige) 和加里·R (Gary R)
布拉德斯基。 ORB:
SIFT 或 SURF 的有效替代方案。
在 [67] 肖建雄,
安德鲁·欧文斯,
安东尼奥·托拉尔巴。
SUN3D:
使用 SfM 重建的大空间数据库
ICCV, 2011. 6
和对象标签。
在 ICCV 中,
2013 年。 11
[48] 保罗·爱德华·萨林、
塞萨尔·卡德纳、
罗兰·西格沃特和
[68] Tsun‑Yi Yang、
Duy‑Kien Nguyen、
Huub Heijnen 和 Vas sileios Balntas。
马尔辛·戴姆奇克.从粗到细:
稳健的分层
UR2KiD:
统一检索、
关键点检测和关键点描述,
无需本地对应
大规模本地化。
在 CVPR,
2019 年。 10
[49] 托斯顿·萨特勒、
巴斯蒂安·莱贝和莱夫·科贝尔特。 SCRAM SAC:
通过空间一致性过滤
监督。 arXiv:2001.07252, 2020. 10
器提高 RANSAC 的效率。
在ICCV,
2009年。
2
[69] Kwang Moo Yi、
Eduard Trulls、
Vincent Lepetit 和 Pascal
福阿。 LIFT:
学习不变特征变换。
在ECCV中,
[50] 托斯顿·萨特勒、
威尔·马德恩、
卡尔·托夫特、
鸟井明彦、 2016年2月6日
拉尔斯·哈马斯特兰德、
埃里克·斯滕伯格、
丹尼尔·萨法里、
正俊 [70]Manzil Zaheer、
Satwik Kottur、
Siamak Ravanbakhsh、
Barnabas Poczos、
Ruslan
奥富美、
Marc Pollefeys、
Joseph Sivic 等。
标杆管理 R Salakhutdinov 和 Alexander J
变化条件下的 6dof 户外视觉定位。
在 斯莫拉。
深套。
在 NIPS,
2017 年。
2
CVPR, 2018. 10 [71] Jiahui Zhang, Dawei Sun, Zixin Luo, Anbang Yao, Lei
[51] 托斯顿·萨特勒、
托比亚斯·韦安德、
巴斯蒂安·莱贝和莱夫 Zhou, Tianwei Shen, Yurong Chen, Long Quan, and Hongen
科贝尔特。
修订基于图像的定位的图像检索。 BMVC,
2012年。
10 辽。
使用顺序感知网络学习二视图对应和几何。 ICCV , 2019.2,5,6,10,11 , _ _
12
¡
[52] 约翰内斯·卢茨·舍恩伯格和简·迈克尔·弗拉姆。
重新审视运动结构。 CVPR,
2016年7月10日 [72] Li Zhang, Xiangtai Li, Anurag Arnab, Kuiyuan Yang, Yun hai Tong, and Philip
¡
[53] Johannes Lutz Schonberger、
Enliang Cheng、
Marc Pollefeys 和 Jan‑Michael HS Torr. Dual graph convolutional net work for semantic segmentation.
Frahm。非结构化多视图立体的像素级视图选择。 在 ECCV 中, 2016 年。 7 In BMVC, 2019. 2
[73] 张一萌,
贾兆银,
陈祖涵。
使用保留几何形状的视觉短语进行图像检索。
在CVPR中,
[54] 伊莱·谢赫特曼和米哈尔·伊拉尼。
匹配图像和视频之间的局部自相似性。 CVPR,
2007
2011年3月
年。
3
18