Welcome to Scribd!

Vlocnet: Nguyen Anh Minh - IVSR - 2021

Uploaded by

0% found this document useful (0 votes)

14 views14 pages

VLocNet is an end-to-end trainable CNN architecture that performs both visual odometry estimation and 6-DoF pose regression from monocular images. It uses a multi-task learning approach, with two sub-networks: one for visual odometry that predicts relative pose between image pairs, and one for global pose regression that incorporates geometric consistency feedback. The architecture is based on ResNet-50 and uses auxiliary learning to improve global pose estimation by also learning visual odometry as a secondary task.

Original Description:

Original Title

VLOCNET

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

0% found this document useful (0 votes)

14 views14 pages

Vlocnet: Nguyen Anh Minh - IVSR - 2021

Uploaded by

Nguyễn Anh Minh

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

Jump to Page

You are on page 1of 14

Search inside document

VLOCNET

Nguyen Anh Minh – IVSR - 2021

What is VLocNet?

- Pose Regression and Visual Odometry Estimation

- End-to-end trainable CNN architecture

- Supervised Learning:
- Input: 2 consecutive monocular images
- Output: 6-DoF global pose and odometry (x, y, z, φ, ϴ, Ѱ)

- Auxilarry Learning: Improve global localization by learning

visual
Idea
PoseNet: Use CNN for end-to-end global localization (global pose),
minimize translational and rotational L2- loss.

DeepVO: Use 2 consecutive images as input to learn temporal

features for relative pose estimation (odometry)
Idea
PoseNet: Use CNN for end-to-end global localization (global pose), Auxiliary learning:
minimize translational and rotational L2- loss. improve global pose
estimation by
learning VO as a
secondary task

DeepVO: Use 2 consecutive images as input to learn temporal

features for relative pose estimation (odometry)
Multitask learning:
Learning unified
models for tasks
across different
domains
Architecture
Backbone: 3 ResNet-50, ELU non-linear activation

VO sub-net: Use Siamese architecture to

learn temporal correlation between two
consecutive motions.

Output: Relative poses and quaternions

GlobalPose sub-net: CNN with feed-back output

for geometric consistency

Output: Global poses and quaternions

GlobalPose subnet

Input: Current image and previous predicted pose

Output: predicted global pose (3x1 and 4x1)

=> Use feed-back output from previous frame to ensure

consistency of current prediction
GlobalPose subnet

Geometric Consistency loss: Learnable Weighting hyperparameters

GlobalPose subnet

Geometric Consistency loss: Learnable Weighting hyperparameters

Relative motion between 2

consecutive predictions

Ensure the difference between 2

consecutive outputs be as close as
ground truth odometry as possible
GlobalPose subnet

Geometric Consistency loss:

VO subnet

Input: Current image and previous image

Output: predicted relative pose between 2 images (3x1 and 4x1)

Shared weights: Current stream ( ) shares weights with GlobalPose subnet, updated the same way in back prop
Geometric Consistency loss:
Benchmarking
Benchmarking
#Todo

1. Continue survey for learning-based localization and mapping

2. Training plan for Team AI

JSA Carpentry
Document2 pages
JSA Carpentry
subhanmusadiq
92% (12)
Hard Rock Cafe Case Study
Document2 pages
Hard Rock Cafe Case Study
Ankit Pahuja
25% (4)
Genentech Work Culture &amp Practice
Document20 pages
Genentech Work Culture &amp Practice
Mayank Basra
No ratings yet
Convolutional Neural Networks: Computer Vision CS 543 / ECE 549 University of Illinois Jia-Bin Huang
Document76 pages
Convolutional Neural Networks: Computer Vision CS 543 / ECE 549 University of Illinois Jia-Bin Huang
Vũ Mạnh Cường
No ratings yet
SVM Kermel Refpics
Document11 pages
SVM Kermel Refpics
mscdatascience3
No ratings yet
Fast Visual Object Counting Via Example Based Density Estimation 2
Document5 pages
Fast Visual Object Counting Via Example Based Density Estimation 2
Minh Đinh Nhật
No ratings yet
Aneja Convolutional Image Captioning CVPR 2018 Paper
Document10 pages
Aneja Convolutional Image Captioning CVPR 2018 Paper
ajsocool
No ratings yet
Show Attend and Tell
Document10 pages
Show Attend and Tell
bhavishya mittal
No ratings yet
Anderson Bottom-Up and Top-Down CVPR 2018 Paper
Document10 pages
Anderson Bottom-Up and Top-Down CVPR 2018 Paper
ajsocool
No ratings yet
VLP: A Survey On Vision-Language Pre-Training
Document19 pages
VLP: A Survey On Vision-Language Pre-Training
Mintesnot Fikir
No ratings yet
Bidirectional Attention Network For Monocular Depth Estimation
Document7 pages
Bidirectional Attention Network For Monocular Depth Estimation
徐啸宇
No ratings yet
1005660.deep Image Captioning MIPRO2019 Final
Document6 pages
1005660.deep Image Captioning MIPRO2019 Final
ABD BEST
No ratings yet
Deep Fishernet For Object Classification
Document9 pages
Deep Fishernet For Object Classification
Nina Mouhoub
No ratings yet
Two-Stream Convolutional Networks For Action Recognition in Videos
Document9 pages
Two-Stream Convolutional Networks For Action Recognition in Videos
Venkata Praneeth
No ratings yet
Context Encoders: Feature Learning by Inpainting
Document12 pages
Context Encoders: Feature Learning by Inpainting
MHSou
No ratings yet
Context Encoders Feature Learning by Inpainting
Document9 pages
Context Encoders Feature Learning by Inpainting
tthod37
No ratings yet
Deep Image Captioning: An Overview: MIPRO 2019, May 20-24, 2019, Opatija Croatia
Document6 pages
Deep Image Captioning: An Overview: MIPRO 2019, May 20-24, 2019, Opatija Croatia
Pallavi Bharti
No ratings yet
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
Document14 pages
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
NguyễnHuyHùng
No ratings yet
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
Document13 pages
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
Education VietCo
No ratings yet
Deep Convolutional Neural Networks For Image Classification: Many Slides From Rob Fergus (NYU and Facebook)
Document55 pages
Deep Convolutional Neural Networks For Image Classification: Many Slides From Rob Fergus (NYU and Facebook)
DoThuThuy
No ratings yet
Understanding Deep Image Representations by Inverting Them PDF
Document9 pages
Understanding Deep Image Representations by Inverting Them PDF
gousesyed
No ratings yet
Image Captioning Using Deep Stacked LSTMS, Contextual Word Embeddings and Data Augmentation
Document18 pages
Image Captioning Using Deep Stacked LSTMS, Contextual Word Embeddings and Data Augmentation
Insta
No ratings yet
Huang Seeing Out of The Box End-to-End Pre-Training For Vision-Language Representation CVPR 2021 Paper
Document10 pages
Huang Seeing Out of The Box End-to-End Pre-Training For Vision-Language Representation CVPR 2021 Paper
rajagopal.motivate4
No ratings yet
Example-Based Visual Object Counting With A Sparsity Constraint
Document6 pages
Example-Based Visual Object Counting With A Sparsity Constraint
Minh Đinh Nhật
No ratings yet
Litrature Review On Improving Method of Image Reconstruction
Document25 pages
Litrature Review On Improving Method of Image Reconstruction
Unnati Patel
No ratings yet
Pixel Nerf
Document10 pages
Pixel Nerf
liudiyang1998.a
No ratings yet
Deeppose Estimation in Wild
Document10 pages
Deeppose Estimation in Wild
Nikita
No ratings yet
Structure From Motion - Revisited
Document10 pages
Structure From Motion - Revisited
mrzofkhdibuvcvpesq
No ratings yet
Pathak Context Encoders Feature CVPR 2016 Paper
Document9 pages
Pathak Context Encoders Feature CVPR 2016 Paper
Mubarik Hanif20
No ratings yet
New Wavelet Based Multi-Focus Image Fusion Application: A Scheme and Its Optical Micros
Document5 pages
New Wavelet Based Multi-Focus Image Fusion Application: A Scheme and Its Optical Micros
mukulmanohar
No ratings yet
Devnet: Self-Supervised Monocular Depth Learning Via Density Volume Construction
Document17 pages
Devnet: Self-Supervised Monocular Depth Learning Via Density Volume Construction
PengZai Zhong
No ratings yet
Modelling and Designing of CNN For Feature Abstraction.: Presented By:-Krusha Sandip Joshi
Document13 pages
Modelling and Designing of CNN For Feature Abstraction.: Presented By:-Krusha Sandip Joshi
Krusha Joshi
No ratings yet
A Deep CNN Method For Underwater Image Enhancement
Document5 pages
A Deep CNN Method For Underwater Image Enhancement
Septa Cahyani
No ratings yet
Stable Diffusion A Tutorial
Document66 pages
Stable Diffusion A Tutorial
markus.aurelius
100% (1)
Image-to-Image Translation With Conditional Adversarial Networks
Document17 pages
Image-to-Image Translation With Conditional Adversarial Networks
ajsocool
No ratings yet
A Distributed Approach For Supervised Som and Application To Facies Classification
Document6 pages
A Distributed Approach For Supervised Som and Application To Facies Classification
kaiodrgon
No ratings yet
BMM 2018 - Deep Learning Tutorial
Document47 pages
BMM 2018 - Deep Learning Tutorial
araghunathreddyraghunath
No ratings yet
FTML - Learning Deep Architectures For AI - Slidesbengio - 2009 PDF
Document87 pages
FTML - Learning Deep Architectures For AI - Slidesbengio - 2009 PDF
ajgallego
No ratings yet
Imagedecomp 1
Document14 pages
Imagedecomp 1
Aakrit Dongol
No ratings yet
Summary of Progress
Document9 pages
Summary of Progress
J SANDHYA
No ratings yet
Under Water Image Enhancement Using Discrete Cosine Transform
Document4 pages
Under Water Image Enhancement Using Discrete Cosine Transform
anil kasot
No ratings yet
Convolutional Neural Networks For Sentence Classification: Yoon Kim New York University Yhk255@nyu - Edu
Document6 pages
Convolutional Neural Networks For Sentence Classification: Yoon Kim New York University Yhk255@nyu - Edu
Ahmad Karlam
No ratings yet
Li Depth and Surface 2015 CVPR Paper
Document9 pages
Li Depth and Surface 2015 CVPR Paper
M
No ratings yet
2020 CS182 Section 7 Notes
Document5 pages
2020 CS182 Section 7 Notes
Hasim
No ratings yet
Spatial Pyramid Pooling in Deep Convolutional Networks For Visual Recognition
Document14 pages
Spatial Pyramid Pooling in Deep Convolutional Networks For Visual Recognition
Ashraf Haroon Rashid
No ratings yet
DenseCap - Fully Convolutional Localization Networks For Dense Captioning
Document10 pages
DenseCap - Fully Convolutional Localization Networks For Dense Captioning
Insta
No ratings yet
Featup - A Model-Agnostic Framework For Features at Any Resolution
Document27 pages
Featup - A Model-Agnostic Framework For Features at Any Resolution
bicim22808
No ratings yet
Gupta Synthetic Data For CVPR 2016 Paper
Document10 pages
Gupta Synthetic Data For CVPR 2016 Paper
harizi
No ratings yet
Image Captioning Using CNN & RNN
Document4 pages
Image Captioning Using CNN & RNN
Ganesh
No ratings yet
A Survey On Deep Network PDF
Document24 pages
A Survey On Deep Network PDF
Mateus Meireles
No ratings yet
Region-Based Convolutional Networks For Accurate Object Detection and Segmentation
Document21 pages
Region-Based Convolutional Networks For Accurate Object Detection and Segmentation
wdwd
No ratings yet
Frame-Skip Convolutional Neural Networks For Action Recognition
Document6 pages
Frame-Skip Convolutional Neural Networks For Action Recognition
Mitchell Angel Gomez Ortega
No ratings yet
IET Electronics Letters Template
Document3 pages
IET Electronics Letters Template
Verdi bob
No ratings yet
INFO AI Ch4
Document90 pages
INFO AI Ch4
rojen003
No ratings yet
KBNET
Document15 pages
KBNET
zwu1913
No ratings yet
Production - Derieux - Cedric - Advances in Automatic Image Restoration and Upscaling
Document4 pages
Production - Derieux - Cedric - Advances in Automatic Image Restoration and Upscaling
derieux.cedric
No ratings yet
Fusion of Two Images Using DWT and PCA Methodology
Document4 pages
Fusion of Two Images Using DWT and PCA Methodology
Editor IJRITCC
No ratings yet
10 1109@tip 2020 3008396
Document12 pages
10 1109@tip 2020 3008396
murshid zaman bhuiyan
No ratings yet
D V2D: V D D S M: EEP Ideo To Epth With Ifferentiable Tructure From Otion
Document20 pages
D V2D: V D D S M: EEP Ideo To Epth With Ifferentiable Tructure From Otion
docjag
No ratings yet
Dahua Icip05 Localnet SR
Document4 pages
Dahua Icip05 Localnet SR
anon_45914
No ratings yet
Sequential Simulation Drawing Structures From Training Images
Document28 pages
Sequential Simulation Drawing Structures From Training Images
Mario Perez
No ratings yet
Essay 6
Document15 pages
Essay 6
noemailokisaidno
No ratings yet
Machine Learning - Advanced Concepts
From Everand
Machine Learning - Advanced Concepts
Derrick Mwiti
No ratings yet
Commercial Kitchen Ventilation
Document46 pages
Commercial Kitchen Ventilation
jeremie white
No ratings yet
2004 Toyota Sienna 2018
Document2 pages
2004 Toyota Sienna 2018
marioeduardocp
No ratings yet
Saint Mary FINAL
Document63 pages
Saint Mary FINAL
Leoul Zewelde
No ratings yet
Digital Booklet - Animal
Document0 pages
Digital Booklet - Animal
Rasul AP
100% (1)
2024 - PointInfinity Resolution-Invariant Point Diffusion Models - Huang Et Al
Document11 pages
2024 - PointInfinity Resolution-Invariant Point Diffusion Models - Huang Et Al
linkzd
No ratings yet
13.1 H-Plane Sectoral Horn: 13.1.1 Aperture Fields
Document17 pages
13.1 H-Plane Sectoral Horn: 13.1.1 Aperture Fields
Erick Morocho Carrion
No ratings yet
Geck Eri-2g Catalogue
Document2 pages
Geck Eri-2g Catalogue
Ian Kent Bescoro
No ratings yet
2021-EO Reorganization CIC EOC
Document5 pages
2021-EO Reorganization CIC EOC
Dennis Cosmod
No ratings yet
TSW
Document23 pages
TSW
Kiran Kagitapu
100% (1)
Vvvfgghytrdd
Document40 pages
Vvvfgghytrdd
Monther Al-kalbani
No ratings yet
Aoc 18.5
Document46 pages
Aoc 18.5
Sanskar Panda
No ratings yet
20 CSR Social Impact El PDF
Document23 pages
20 CSR Social Impact El PDF
suggestionbox
No ratings yet
Bank Challan Form PDF
Document1 page
Bank Challan Form PDF
Nekib Ali
No ratings yet
DRT450 Reach Stacker Spec
Document4 pages
DRT450 Reach Stacker Spec
Nuñez Jesus
100% (4)
Nielsen Case Competition 2019
Document5 pages
Nielsen Case Competition 2019
Ang Song Gee
No ratings yet
3D Face Tracking and Reconstruction Using Modern C++ - Patrik Huber - CppCon 2015
Document42 pages
3D Face Tracking and Reconstruction Using Modern C++ - Patrik Huber - CppCon 2015
Guillaume Vermeille Sanchez
No ratings yet
Palm Oil Facility List Refiner Oleochemical KCP Tcm244 530098 en
Document2 pages
Palm Oil Facility List Refiner Oleochemical KCP Tcm244 530098 en
raito_01
0% (1)
Complications of Myocardial Infarction
Document50 pages
Complications of Myocardial Infarction
Ali Baker Algelane
50% (2)
Working Drawing
Document21 pages
Working Drawing
Belachew Dosegnaw
100% (1)
Jaguar S Type R Manual - Climate Control 5-1
Document14 pages
Jaguar S Type R Manual - Climate Control 5-1
Michael Kay
No ratings yet
Hanging Scaffolding Rev B-Layout1
Document1 page
Hanging Scaffolding Rev B-Layout1
grant
No ratings yet
Derval Energy GB Low
Document6 pages
Derval Energy GB Low
Tahasinor Tabraz
No ratings yet
CSS Assignment 1 Q and A
Document9 pages
CSS Assignment 1 Q and A
Chinmay Joshi
No ratings yet
CPPG 10 As Avr+Itr: Spare Parts List
Document21 pages
CPPG 10 As Avr+Itr: Spare Parts List
Md. Fahmid Islam
No ratings yet
Chp10. Strategic Presenting
Document33 pages
Chp10. Strategic Presenting
Achmad Fathullah
No ratings yet
Nasir Et Al. 2019 - Forecasting Cryptocurrency Returns and Volume Using Search Engines
Document13 pages
Nasir Et Al. 2019 - Forecasting Cryptocurrency Returns and Volume Using Search Engines
daniel.finn24
No ratings yet
SAPUI5 and Fiori Interview Questions1
Document5 pages
SAPUI5 and Fiori Interview Questions1
Karthik Ks
No ratings yet