Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

Machine Translated by Google

NeRF: Biểu diễn các cảnh dưới dạng


Trường bức xạ thần kinh để tổng hợp chế độ xem

Ben Mildenhall1 Pratul P. Srinivasan1 Matthew Tancik1 Jonathan T.

Barron2 Ravi Ramamoorthi3 Ren Ng1

1UC Berkeley 2Nghiên cứu của Google 3UC San Diego

Trừu tượng. Chúng tôi trình bày một phương pháp đạt được kết quả tiên tiến để tổng
hợp các chế độ xem mới của các cảnh phức tạp bằng cách tối ưu hóa chức năng cảnh thể
tích liên tục nằm bên dưới bằng cách sử dụng một tập hợp các chế độ xem đầu vào thưa
arXiv:2003.08934v2

thớt. Thuật toán của chúng tôi biểu thị một cảnh sử dụng mạng sâu được kết nối đầy
[cs.CV]
tháng
2020
năm
8
3

đủ (không tích chập), có đầu vào là tọa độ 5D liên tục duy nhất (vị trí không gian
(x, y, z) và hướng xem (θ, φ)) và đầu ra của nó là mật độ âm lượng và độ bức xạ phát
ra phụ thuộc vào chế độ xem tại vị trí không gian đó. Chúng tôi tổng hợp các chế độ
xem bằng cách truy vấn tọa độ 5D dọc theo tia camera và sử dụng các kỹ thuật kết xuất
khối cổ điển để chiếu màu sắc và mật độ đầu ra vào hình ảnh. Bởi vì kết xuất khối có
khả năng phân biệt một cách tự nhiên nên đầu vào duy nhất cần thiết để tối ưu hóa bản
trình bày của chúng tôi là một tập hợp các hình ảnh với các tư thế máy ảnh đã biết.
Chúng tôi mô tả cách tối ưu hóa hiệu quả các trường bức xạ thần kinh để hiển thị các
chế độ xem mới lạ như ảnh chân thực của các cảnh có hình dạng và diện mạo phức tạp,
đồng thời chứng minh các kết quả vượt trội so với công việc trước đây về kết xuất
thần kinh và tổng hợp chế độ xem. Xem kết quả tổng hợp tốt nhất nên xem dưới dạng
video, vì vậy chúng tôi khuyến khích độc giả xem video bổ sung của chúng tôi để có
những so sánh thuyết phục.

Từ khóa: biểu diễn cảnh, tổng hợp khung nhìn, kết xuất dựa trên hình ảnh, kết xuất
khối, học sâu 3D

1. Giới thiệu

Trong công việc này, chúng tôi giải quyết vấn đề tồn tại lâu dài về tổng hợp chế độ
xem theo cách mới bằng cách tối ưu hóa trực tiếp các tham số của biểu diễn cảnh 5D
liên tục để giảm thiểu lỗi hiển thị một tập hợp ảnh đã chụp.
Chúng tôi biểu diễn cảnh tĩnh dưới dạng hàm 5D liên tục tạo ra ánh sáng phát ra
theo từng hướng (θ, φ) tại mỗi điểm (x, y, z) trong không gian và mật độ tại mỗi
điểm hoạt động giống như độ mờ vi phân kiểm soát mức độ phần lớn ánh sáng được
tích lũy khi tia đi qua (x, y, z). Phương pháp của chúng tôi tối ưu hóa mạng lưới
thần kinh được kết nối đầy đủ sâu mà không có bất kỳ lớp tích chập nào (thường
được gọi là perceptron đa lớp hoặc MLP) để biểu diễn chức năng này bằng cách hồi
quy từ một tọa độ 5D duy nhất (x, y, z, θ, φ) thành một tọa độ duy nhất mật độ âm
lượng và màu RGB phụ thuộc vào chế độ xem. Để hiển thị trường bức xạ thần kinh (NeRF) này

Các tác giả đã đóng góp như nhau cho tác phẩm này.
Machine Translated by Google
2 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Nhập hình ảnh Tối ưu hóa NeRF Hiển thị chế độ xem mới

Hình 1: Chúng tôi trình bày một phương pháp tối ưu hóa biểu diễn trường bức xạ thần kinh
5D liên tục (mật độ âm lượng và màu sắc phụ thuộc vào chế độ xem tại bất kỳ vị trí liên
tục nào) của một cảnh từ một tập hợp các hình ảnh đầu vào. Chúng tôi sử dụng các kỹ thuật
từ kết xuất khối để tích lũy các mẫu biểu diễn cảnh này dọc theo các tia để hiển thị cảnh
từ bất kỳ góc nhìn nào. Ở đây, chúng tôi trực quan hóa tập hợp 100 chế độ xem đầu vào của
cảnh Trống tổng hợp được chụp ngẫu nhiên trên một bán cầu xung quanh và chúng tôi hiển thị
hai chế độ xem mới được hiển thị từ biểu diễn NeRF được tối ưu hóa của chúng tôi.

từ một quan điểm cụ thể, chúng tôi: 1) di chuyển các tia camera qua cảnh để tạo ra một tập
hợp các điểm 3D được lấy mẫu, 2) sử dụng các điểm đó và hướng xem 2D tương ứng của chúng
làm đầu vào cho mạng thần kinh để tạo ra tập hợp màu sắc và mật độ đầu ra, và 3) sử dụng
các kỹ thuật kết xuất khối cổ điển để tích lũy các màu sắc và mật độ đó thành hình ảnh 2D.
Bởi vì quá trình này có khả năng phân biệt một cách tự nhiên nên chúng ta có thể sử dụng
phương pháp giảm độ dốc để tối ưu hóa mô hình này bằng cách giảm thiểu lỗi giữa mỗi hình
ảnh được quan sát và các chế độ xem tương ứng được hiển thị từ biểu diễn của chúng ta.
Việc giảm thiểu lỗi này trên nhiều chế độ xem sẽ khuyến khích mạng dự đoán một mô hình cảnh
nhất quán bằng cách chỉ định mật độ âm lượng cao và màu sắc chính xác cho các vị trí chứa
nội dung cảnh cơ bản thực sự. Hình 2 trực quan hóa đường ống tổng thể này.

Chúng tôi nhận thấy rằng việc triển khai cơ bản để tối ưu hóa biểu diễn trường bức xạ
thần kinh cho một cảnh phức tạp không hội tụ về biểu diễn có độ phân giải đủ cao và không
hiệu quả về số lượng mẫu cần thiết trên mỗi tia camera. Chúng tôi giải quyết các vấn đề
này bằng cách chuyển đổi tọa độ 5D đầu vào bằng mã hóa vị trí cho phép MLP biểu diễn các
chức năng tần số cao hơn và chúng tôi đề xuất quy trình lấy mẫu phân cấp để giảm số lượng
truy vấn cần thiết để lấy mẫu đầy đủ biểu diễn cảnh tần số cao này.

Cách tiếp cận của chúng tôi kế thừa những lợi ích của biểu diễn thể tích: cả hai đều có
thể biểu diễn hình dạng và hình dạng phức tạp trong thế giới thực và rất phù hợp để tối ưu
hóa dựa trên độ dốc bằng cách sử dụng hình ảnh được chiếu. Điều quan trọng là phương
pháp của chúng tôi đã khắc phục được chi phí lưu trữ quá cao của lưới voxel rời rạc khi
lập mô hình các cảnh phức tạp ở độ phân giải cao. Tóm lại, những đóng góp về mặt kỹ thuật

của chúng tôi là: – Một cách tiếp cận để biểu diễn các cảnh liên tục với hình học và vật
liệu phức tạp dưới dạng trường bức xạ thần kinh 5D, được tham số hóa dưới dạng mạng MLP cơ bản.
– Một quy trình kết xuất có thể phân biệt dựa trên các kỹ thuật kết xuất khối cổ điển mà
chúng tôi sử dụng để tối ưu hóa các biểu diễn này từ các hình ảnh RGB tiêu chuẩn. Điều
này bao gồm chiến lược lấy mẫu phân cấp để phân bổ công suất của MLP đối với không gian
có nội dung cảnh nhìn thấy được.
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 3

– Mã hóa vị trí để ánh xạ từng tọa độ 5D đầu vào vào không gian có chiều cao hơn, cho
phép chúng tôi tối ưu hóa thành công các trường bức xạ thần kinh để thể hiện nội dung
cảnh tần số cao.
Chúng tôi chứng minh rằng phương pháp trường bức xạ thần kinh thu được của chúng tôi
vượt trội về mặt định lượng và chất lượng so với các phương pháp tổng hợp khung nhìn
hiện đại, bao gồm các công trình phù hợp với biểu diễn 3D thần kinh cho các cảnh cũng như
các công trình đào tạo mạng tích chập sâu để dự đoán các biểu diễn thể tích được lấy mẫu.
Theo những gì chúng tôi biết, bài viết này trình bày cách biểu diễn cảnh thần kinh liên
tục đầu tiên có khả năng hiển thị các chế độ xem mới lạ quang học có độ phân giải cao về
các vật thể và cảnh thực từ hình ảnh RGB được chụp trong cài đặt tự nhiên.

2 công việc liên quan

Một hướng đầy hứa hẹn gần đây trong thị giác máy tính là mã hóa các đối tượng và cảnh
theo trọng số của MLP ánh xạ trực tiếp từ vị trí không gian 3D sang biểu diễn ngầm định
của hình dạng, chẳng hạn như khoảng cách đã ký [6] tại vị trí đó. Tuy nhiên, các phương
pháp này cho đến nay vẫn chưa thể tái tạo các cảnh thực tế với hình học phức tạp với độ
trung thực giống như các kỹ thuật biểu diễn cảnh bằng cách sử dụng các biểu diễn rời rạc
như lưới tam giác hoặc lưới voxel. Trong phần này, chúng tôi xem xét hai dòng công việc
này và đối chiếu chúng với cách tiếp cận của chúng tôi, giúp nâng cao khả năng biểu diễn
cảnh thần kinh để tạo ra các kết quả hiện đại nhằm hiển thị các cảnh thực tế phức tạp.

Một cách tiếp cận tương tự là sử dụng MLP để ánh xạ từ tọa độ chiều thấp sang màu sắc
cũng đã được sử dụng để thể hiện các chức năng đồ họa khác như độ tuổi hình ảnh [44],
vật liệu kết cấu [12,31,36,37] và các giá trị chiếu sáng gián tiếp [ 38].

Biểu diễn hình dạng 3D thần kinh Công việc gần đây đã nghiên cứu cách biểu diễn ngầm định
của các hình dạng 3D liên tục dưới dạng tập hợp mức bằng cách tối ưu hóa các mạng sâu
ánh xạ tọa độ xyz tới các hàm khoảng cách đã ký [15,32] hoặc trường chiếm chỗ [11,27].
Tuy nhiên, các mô hình này bị hạn chế bởi yêu cầu truy cập vào hình học 3D thực tế, thường
thu được từ các bộ dữ liệu hình dạng 3D tổng hợp như ShapeNet [3]. Công việc tiếp theo
đã nới lỏng yêu cầu này về hình dạng 3D thực tế bằng cách xây dựng các hàm kết xuất có thể
phân biệt được cho phép tối ưu hóa các biểu diễn hình dạng tiềm ẩn thần kinh chỉ bằng
cách sử dụng hình ảnh 2D. Niemeyer và cộng sự. [29] biểu diễn các bề mặt dưới dạng
trường chiếm chỗ 3D và sử dụng phương pháp số để tìm giao điểm bề mặt cho mỗi tia, sau
đó tính toán đạo hàm chính xác bằng cách sử dụng đạo hàm ẩn. Mỗi vị trí giao điểm tia
được cung cấp làm đầu vào cho trường kết cấu thần kinh 3D dự đoán màu khuếch tán cho điểm
đó. Sitzmann và cộng sự. [42] sử dụng biểu diễn 3D thần kinh ít trực tiếp hơn, chỉ đơn
giản là tạo ra một vectơ đặc trưng và màu RGB ở mỗi tọa độ 3D liên tục và đề xuất một
hàm kết xuất có thể phân biệt được bao gồm một mạng thần kinh hồi quy di chuyển dọc theo
mỗi tia để quyết định vị trí của bề mặt.

Mặc dù các kỹ thuật này có khả năng biểu diễn hình học phức tạp và có độ phân giải
cao, nhưng cho đến nay chúng vẫn bị giới hạn ở các hình dạng đơn giản với độ phức tạp
hình học thấp, dẫn đến kết xuất quá mượt. Chúng tôi cho thấy rằng một chiến lược thay
thế nhằm tối ưu hóa mạng để mã hóa các trường bức xạ 5D (khối 3D
Machine Translated by Google
4 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

với hình thức phụ thuộc vào chế độ xem 2D) có thể biểu thị hình học và hình thức có độ phân giải cao hơn

để hiển thị các chế độ xem mới lạ như ảnh thực của các cảnh phức tạp.

Tổng hợp khung nhìn và hiển thị dựa trên hình ảnh Với việc lấy mẫu dày đặc các khung nhìn, các khung nhìn

mới lạ như ảnh thực tế có thể được xây dựng lại bằng các kỹ thuật nội suy mẫu trường ánh sáng đơn giản

[21,5,7]. Để tổng hợp chế độ xem mới với lấy mẫu chế độ xem thưa thớt hơn, cộng đồng đồ họa và thị giác

máy tính đã đạt được tiến bộ đáng kể bằng cách dự đoán các biểu diễn hình học và hình thức truyền thống

từ các hình ảnh được quan sát. Một loại phương pháp tiếp cận phổ biến sử dụng các biểu diễn cảnh dựa

trên lưới với hình thức khuếch tán [48] hoặc phụ thuộc vào chế độ xem [2,8,49].

Các trình rasterizer có thể phân biệt [4,10,23,25] hoặc các pathtracer [22,30] có thể trực tiếp tối ưu

hóa các biểu diễn lưới để tái tạo một tập hợp các hình ảnh đầu vào bằng cách sử dụng độ dốc giảm dần.

Tuy nhiên, việc tối ưu hóa lưới dựa trên độ dốc dựa trên phép chiếu lại hình ảnh thường khó khăn, có

thể là do cực tiểu cục bộ hoặc điều kiện kém của cảnh quan bị mất. Hơn nữa, chiến lược này yêu cầu cung

cấp một lưới mẫu với cấu trúc liên kết cố định dưới dạng khởi tạo trước khi tối ưu hóa [22], thường

không có sẵn cho các cảnh trong thế giới thực không bị ràng buộc.

Một loại phương pháp khác sử dụng biểu diễn thể tích để giải quyết nhiệm vụ tổng hợp chế độ xem

quang học chất lượng cao từ một tập hợp các hình ảnh RGB đầu vào.

Các phương pháp tiếp cận thể tích có thể thể hiện một cách thực tế các hình dạng và vật liệu phức tạp,

rất phù hợp để tối ưu hóa dựa trên độ dốc và có xu hướng tạo ra các tạo tác ít gây mất tập trung về mặt

thị giác hơn so với các phương pháp dựa trên lưới. Các phương pháp đo thể tích ban đầu sử dụng các

hình ảnh được quan sát để tô màu trực tiếp các lưới voxel [19,40,45]. Gần đây hơn, một số phương pháp

[9,13,17,28,33,43,46,52] đã sử dụng bộ dữ liệu lớn gồm nhiều cảnh để huấn luyện các mạng sâu dự đoán

biểu diễn thể tích được lấy mẫu từ một tập hợp các hình ảnh đầu vào, và sau đó sử dụng tính năng tổng

hợp alpha [34] hoặc tính năng tổng hợp đã học dọc theo các tia để hiển thị các chế độ xem mới tại thời

điểm thử nghiệm. Các công trình khác đã tối ưu hóa sự kết hợp giữa mạng tích chập (CNN) và lưới voxel

được lấy mẫu cho từng cảnh cụ thể, sao cho CNN có thể bù đắp cho các tạo tác không rõ ràng từ lưới voxel

có độ phân giải thấp [41] hoặc cho phép lưới voxel dự đoán thay đổi dựa trên điều khiển thời gian đầu

vào hoặc hoạt ảnh [24]. Mặc dù các kỹ thuật đo thể tích này đã đạt được kết quả ấn tượng cho việc tổng

hợp chế độ xem mới, nhưng khả năng mở rộng quy mô sang hình ảnh có độ phân giải cao hơn về cơ bản bị

hạn chế bởi độ phức tạp về không gian và thời gian kém do lấy mẫu rời rạc - việc hiển thị hình ảnh có độ

phân giải cao hơn yêu cầu lấy mẫu không gian 3D tốt hơn. Thay vào đó, chúng tôi khắc phục vấn đề này

bằng cách mã hóa một khối liên tục trong các tham số của mạng thần kinh được kết nối đầy đủ sâu, mạng

này không chỉ tạo ra các kết xuất có chất lượng cao hơn đáng kể so với các phương pháp đo thể tích

trước đó mà còn chỉ yêu cầu một phần chi phí lưu trữ của các biểu diễn thể tích được lấy mẫu đó .

3 Biểu diễn cảnh trường bức xạ thần kinh

Chúng tôi biểu thị một cảnh liên tục dưới dạng hàm có giá trị vectơ 5D có đầu vào là vị trí 3D x = (x,

y, z) và hướng xem 2D (θ, φ) và đầu ra của nó là màu phát ra c = (r, g , b) và mật độ thể tích σ. Trong

thực tế, chúng tôi thể hiện


Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 5

Đầu vào 5D đầu ra Âm lượng Kết xuất


Vị trí + Hướng Màu sắc + Mật độ Kết xuất Sự mất mát

(x,y,z,θ,ϕ) (RGBσ)
Tia 1 σ 2

FΘ Tia 2 Tia 1
gt
2

σ 2
Tia 2
gt
2
Khoảng cách tia

(Một) (b) (c) (d)

Hình 2: Tổng quan về cách trình bày cảnh trường bức xạ thần kinh của chúng tôi và quy
trình kết xuất có thể kích hoạt khác nhau. Chúng tôi tổng hợp hình ảnh bằng cách lấy mẫu
tọa độ 5D (vị trí và hướng xem) dọc theo tia camera (a), đưa các vị trí đó vào MLP để
tạo ra mật độ màu và âm lượng (b) và sử dụng kỹ thuật hiển thị âm lượng để tổng hợp
các giá trị này thành một hình ảnh (c). Chức năng kết xuất này có thể phân biệt được,
vì vậy chúng tôi có thể tối ưu hóa việc trình bày cảnh bằng cách giảm thiểu phần dư
giữa các hình ảnh được quan sát thực tế tổng hợp và thực tế (d).

hướng như một vectơ đơn vị Descartes 3D d. Chúng tôi ước tính biểu diễn cảnh 5D liên
tục này với mạng MLP FΘ : (x, d) (c, σ) và tối ưu hóa trọng số của nó để ánh xạ từ
mỗi tọa độ 5D đầu vào tới mật độ âm lượng tương ứng và màu phát ra theo hướng.

Chúng tôi khuyến khích việc biểu diễn nhất quán với nhiều chế độ xem bằng cách hạn
chế mạng dự đoán mật độ âm lượng σ chỉ là hàm của vị trí x, đồng thời cho phép dự đoán
màu RGB c là hàm của cả vị trí và hướng xem. Để thực hiện điều này, trước tiên MLP FΘ
xử lý tọa độ 3D đầu vào x với 8 lớp được kết nối đầy đủ (sử dụng kích hoạt ReLU và 256
kênh trên mỗi lớp), đồng thời xuất ra σ và vectơ đặc trưng 256 chiều. Sau đó, vectơ
đặc trưng này được nối với hướng xem của tia camera và được chuyển đến một lớp được
kết nối đầy đủ bổ sung (sử dụng kích hoạt ReLU và 128 kênh) để tạo ra màu RGB phụ thuộc
vào chế độ xem.

Xem Hình 3 để biết ví dụ về cách phương pháp của chúng tôi sử dụng hướng xem đầu vào để thể

hiện các hiệu ứng không phải Lambertian. Như được hiển thị trong Hình 4, một mô hình được đào tạo

mà không phụ thuộc vào khung nhìn (chỉ x làm đầu vào) gặp khó khăn trong việc biểu diễn các đặc điểm.

4 Kết xuất khối với trường Radiance

Trường bức xạ thần kinh 5D của chúng tôi biểu thị một cảnh dưới dạng mật độ âm lượng
và bức xạ phát ra phản xạ tại bất kỳ điểm nào trong không gian. Chúng tôi kết xuất màu
của bất kỳ tia nào đi qua cảnh bằng cách sử dụng các nguyên tắc kết xuất khối cổ điển [16].
Mật độ thể tích σ(x) có thể được hiểu là xác suất vi phân của một tia kết thúc tại một
hạt cực nhỏ ở vị trí x. Màu dự kiến C(r) của tia camera r(t) = o + td với các giới hạn
gần và xa tn và tf là:

tf t

C(r) = T(t)σ(r(t))c(r(t), d)dt , trong đó T(t) = exp σ(r(s))ds . (1)


tn tn
Machine Translated by Google
6 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

(a) Xem 1 (b) Quan điểm 2 (c) Phân bố bức xạ

Hình 3: Hình ảnh trực quan về ánh sáng phát ra phụ thuộc vào chế độ xem. Biểu diễn
trường bức xạ thần kinh của chúng tôi tạo ra màu RGB dưới dạng hàm 5D của cả vị trí
không gian x và hướng nhìn d. Ở đây, chúng tôi hình dung ví dụ về sự phân bổ màu
theo hướng cho hai vị trí không gian trong biểu diễn thần kinh của chúng tôi về cảnh Con tàu.
Trong (a) và (b), chúng tôi hiển thị diện mạo của hai điểm 3D cố định từ hai vị
trí camera khác nhau: một ở mạn tàu (các phần nhỏ màu cam) và một trên mặt nước
(các phần nhỏ màu xanh lam). Phương pháp của chúng tôi dự đoán sự thay đổi diện
mạo cụ thể của hai điểm 3D này và trong (c) chúng tôi chỉ ra cách thức hoạt động
này khái quát hóa liên tục trên toàn bộ bán cầu của các hướng xem.

Hàm T(t) biểu thị độ truyền qua tích lũy dọc theo tia từ tn đến t, tức là xác suất để tia truyền từ tn

đến t mà không chạm vào bất kỳ hạt nào khác. Việc hiển thị chế độ xem từ trường bức xạ thần kinh liên

tục của chúng tôi yêu cầu ước tính tích phân C(r) này cho tia camera được dò qua từng pixel của camera

ảo mong muốn.

Chúng tôi ước tính bằng số tích phân liên tục này bằng phương pháp cầu phương.
Cầu phương xác định, thường được sử dụng để hiển thị các lưới voxel rời rạc, sẽ
hạn chế hiệu quả độ phân giải của biểu diễn của chúng tôi vì MLP sẽ chỉ được truy
vấn tại một tập hợp các vị trí riêng biệt cố định. Thay vào đó, chúng tôi sử dụng
phương pháp lấy mẫu phân tầng trong đó chúng tôi phân chia [tn, tf ] thành N thùng
cách đều nhau và sau đó lấy ngẫu nhiên một mẫu thống nhất từ bên trong mỗi thùng:

tôi – 1 Tôi

ti Utn + (tf tn), tn + (tf tn) . (2)


N N

Mặc dù chúng tôi sử dụng một bộ mẫu riêng biệt để ước tính số nguyên, việc lấy mẫu
phân tầng cho phép chúng tôi biểu diễn một cảnh liên tục vì nó dẫn đến MLP được
đánh giá ở các vị trí liên tục trong quá trình tối ưu hóa. Chúng tôi sử dụng các
mẫu này để ước tính C(r) với quy tắc cầu phương được thảo luận trong bài đánh giá
kết xuất khối của Max [26]:

N tôi 1

Cˆ(r) = Ti(1 exp( σiδi))ci , trong đó Ti = exp σj δj


(3)
tôi=1 j=1 ,

trong đó δi = ti+1 ti là khoảng cách giữa các mẫu liền kề. Hàm tính toán Cˆ(r)
từ tập hợp các giá trị (ci , σi) này có khả năng vi phân không đáng kể và quy giản
thành phép tổng hợp alpha truyền thống với các giá trị alpha αi = 1 exp( σiδi).
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 7

Thực địa Mô hình hoàn chỉnh Không có sự phụ thuộc vào chế độ xem Không có mã hóa vị trí

Hình 4: Ở đây, chúng tôi hình dung mô hình đầy đủ của chúng tôi được hưởng lợi
như thế nào từ việc biểu thị bức xạ phát ra phụ thuộc vào chế độ xem và từ việc
truyền tọa độ đầu vào của chúng tôi thông qua mã hóa vị trí tần số cao. Việc loại bỏ
sự phụ thuộc vào chế độ xem sẽ ngăn mô hình tạo lại sự phản chiếu gương trên mặt
lốp của máy ủi. Việc loại bỏ mã hóa vị trí sẽ làm giảm đáng kể khả năng biểu diễn
kết cấu và hình học tần số cao của mô hình, dẫn đến hình thức quá mịn.

5 Tối ưu hóa trường bức xạ thần kinh

Trong phần trước, chúng tôi đã mô tả các thành phần cốt lõi cần thiết để mô hình
hóa một cảnh dưới dạng trường bức xạ thần kinh và hiển thị các chế độ xem mới từ
cách biểu diễn này. Tuy nhiên, chúng tôi nhận thấy rằng các thành phần này không đủ
để đạt được chất lượng hiện đại, như được trình bày trong Phần 6.4). Chúng tôi
giới thiệu hai cải tiến để cho phép thể hiện các cảnh phức tạp có độ phân giải cao.
Đầu tiên là mã hóa vị trí của tọa độ đầu vào hỗ trợ MLP biểu diễn các hàm tần số cao
và thứ hai là quy trình lấy mẫu phân cấp cho phép chúng tôi lấy mẫu biểu diễn tần số
cao này một cách hiệu quả.

5.1 Mã hóa vị trí

Mặc dù thực tế là mạng nơ-ron là các công cụ xấp xỉ hàm phổ quát [14], chúng tôi
nhận thấy rằng việc mạng FΘ hoạt động trực tiếp trên tọa độ đầu vào xyzθφ dẫn đến
kết quả hiển thị hoạt động kém trong việc thể hiện sự biến đổi tần số cao về màu sắc
và hình học. Điều này phù hợp với công việc gần đây của Rahaman et al. [35], điều
này cho thấy các mạng sâu thiên về việc học các hàm tần số thấp hơn. Ngoài ra, họ
còn chỉ ra rằng việc ánh xạ các đầu vào tới không gian nhiều chiều hơn bằng cách sử
dụng các hàm tần số cao trước khi truyền chúng vào mạng sẽ cho phép điều chỉnh dữ
liệu có chứa biến thể tần số cao phù hợp hơn.
Chúng tôi tận dụng những phát hiện này trong bối cảnh biểu diễn cảnh thần kinh và
chứng tỏ rằng việc tái cấu trúc FΘ như một tổ hợp của hai hàm FΘ = F đã γ, một Θ

học và một hàm chưa học, cải thiện đáng kể hiệu suất (xem Hình 4 và Bảng 2).
Ở đây γ là ánh xạ từ R vào không gian có chiều cao hơn R 2L, và F vẫn đơn giản là một MLP thông
Θ

thường. Chính thức, chức năng mã hóa chúng tôi sử dụng là:

γ(p) = sin 2 0πp , cos 2 0πp , , sin 2 L 1πp , cos 2 L 1πp . (4)
· · ·

Hàm γ(·) này được áp dụng riêng cho từng giá trị trong số ba giá trị tọa độ trong x
(được chuẩn hóa để nằm trong [ 1, 1]) và cho ba thành phần của
Machine Translated by Google
số 8
B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Vectơ đơn vị hướng nhìn Descartes d (theo cấu trúc nằm trong [ 1, 1]).
Trong các thử nghiệm của chúng tôi, chúng tôi đặt L = 10 cho γ(x) và L = 4 cho γ(d).

Một ánh xạ tương tự được sử dụng trong kiến trúc Transformer phổ biến [47], trong đó
nó được gọi là mã hóa vị trí. Tuy nhiên, Transformers sử dụng nó cho một mục tiêu khác là
cung cấp các vị trí riêng biệt của các mã thông báo trong một chuỗi làm đầu vào cho một
kiến trúc không chứa bất kỳ khái niệm nào về trật tự. Ngược lại, chúng tôi sử dụng các hàm
này để ánh xạ tọa độ đầu vào liên tục vào không gian có chiều cao hơn nhằm cho phép MLP
của chúng tôi gần đúng hàm tần số cao hơn dễ dàng hơn.
Công việc đồng thời về vấn đề liên quan đến mô hình hóa cấu trúc protein 3D từ các phép
chiếu [51] cũng sử dụng ánh xạ tọa độ đầu vào tương tự.

5.2 Lấy mẫu khối lượng theo cấp bậc

Chiến lược kết xuất của chúng tôi nhằm đánh giá mật độ mạng trường bức xạ thần kinh tại N
điểm truy vấn dọc theo mỗi tia camera là không hiệu quả: không gian trống và các vùng bị
che khuất không đóng góp vào hình ảnh được hiển thị vẫn được lấy mẫu lặp lại. Chúng tôi
lấy cảm hứng từ công việc ban đầu về kết xuất khối [20] và đề xuất cách biểu diễn phân cấp
giúp tăng hiệu quả kết xuất bằng cách phân bổ các mẫu tương ứng với hiệu quả mong đợi của
chúng đối với kết xuất cuối cùng.
Thay vì chỉ sử dụng một mạng duy nhất để thể hiện cảnh, chúng tôi đồng thời tối ưu
hóa hai mạng: một mạng “thô” và một mạng “tinh”. Trước tiên, chúng tôi lấy mẫu một tập hợp
các vị trí Nc bằng cách sử dụng lấy mẫu phân tầng và đánh giá mạng “thô” tại các vị trí này
như được mô tả trong Eqns. 2 và 3. Với đầu ra của mạng “thô” này, sau đó chúng tôi tạo ra
một mẫu lấy mẫu chính xác hơn về các điểm dọc theo mỗi tia trong đó các mẫu được thiên về
các phần có liên quan của tập. Để làm điều này, trước tiên chúng ta viết lại màu tổng hợp
alpha từ mạng thô Cˆ c(r) trong biểu thức. 3 là tổng có trọng số của tất cả các màu được
lấy mẫu ci dọc theo tia:

Nc
Cˆ c(r) = wici , wi = Ti(1 exp( σiδi)). (5)
tôi=1

Chuẩn hóa các trọng số này thành ˆwi = wi/ Nc j=1wj tạo ra một tệp PDF không đổi từng đoạn
dọc theo tia. Chúng tôi lấy mẫu tập hợp vị trí Nf thứ hai từ phân phối này bằng cách sử
dụng lấy mẫu biến đổi nghịch đảo, đánh giá mạng “tinh tế” của chúng tôi ở sự kết hợp của
tập hợp mẫu thứ nhất và thứ hai, đồng thời tính toán màu hiển thị cuối cùng của tia Cˆ f

(r) bằng Eqn . 3 nhưng sử dụng tất cả các mẫu Nc+Nf . Quy trình này phân bổ nhiều mẫu hơn
cho các vùng mà chúng tôi dự kiến sẽ chứa nội dung hiển thị. Điều này giải quyết một mục
tiêu tương tự như lấy mẫu tầm quan trọng, nhưng chúng tôi sử dụng các giá trị được lấy
mẫu dưới dạng rời rạc không đồng nhất của toàn bộ miền tích phân thay vì coi mỗi mẫu là
ước tính xác suất độc lập của toàn bộ tích phân.

5.3 Chi tiết triển khai

Chúng tôi tối ưu hóa mạng biểu diễn khối lượng thần kinh liên tục riêng biệt cho từng
cảnh. Điều này chỉ yêu cầu một tập dữ liệu về hình ảnh RGB được chụp của cảnh,
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 9

các tư thế, thông số nội tại và giới hạn cảnh tương ứng của máy ảnh (chúng tôi sử
dụng các tư thế, nội tại và giới hạn của máy ảnh thực tế cho dữ liệu tổng hợp và
sử dụng gói cấu trúc từ chuyển động COLMAP [39] để ước tính các tham số này cho dữ
liệu thực). Ở mỗi lần lặp lại tối ưu hóa, chúng tôi lấy mẫu ngẫu nhiên một loạt tia
camera từ tập hợp tất cả các pixel trong tập dữ liệu, sau đó thực hiện lấy mẫu theo
cấp bậc được mô tả trong Phần. 5.2 để truy vấn các mẫu Nc từ mạng thô và các mẫu Nc
+ Nf từ mạng mịn. Sau đó, chúng tôi sử dụng quy trình kết xuất khối được mô tả
trong Phần. 4 để hiển thị màu của từng tia từ cả hai bộ mẫu. Sự mất mát của chúng
tôi chỉ đơn giản là tổng sai số bình phương giữa màu pixel được hiển thị và màu
pixel thực cho cả kết xuất thô và hiển thị mịn:
2 2
L = Cˆ c(r) C(r) + Cˆf ( r) C(r) (6)
2 2
r R

Trong đó R là tập hợp các tia trong mỗi lô và C(r), Cˆ c(r) và Cˆ f (r) lần lượt là
giá trị thực cơ bản, khối lượng thô dự đoán và khối lượng mịn dự đoán màu RGB cho
tia r. Lưu ý rằng mặc dù kết quả hiển thị cuối cùng đến từ Cˆ f (r), chúng tôi cũng
giảm thiểu việc mất Cˆ c(r) để có thể sử dụng phân bổ trọng số từ mạng thô để phân
bổ các mẫu trong mạng mịn.
Trong các thử nghiệm của mình, chúng tôi sử dụng kích thước lô gồm 4096 tia, mỗi tia

được lấy mẫu ở tọa độ Nc = 64 trong thể tích thô và Nf = 128 tọa độ bổ sung trong thể
tích mịn. Chúng tôi sử dụng trình tối ưu hóa Adam [18] với tốc độ học bắt đầu ở 5 × 10 4
và giảm dần theo cấp số nhân thành 5 × 10 5 trong quá trình tối ưu hóa (các siêu tham số
Adam khác được giữ ở giá trị mặc định là β1 = 0,9, β2 = 0,999 và = 10 7 ). Quá trình tối
ưu hóa cho một cảnh thường mất khoảng 100–300 nghìn lần lặp để hội tụ trên một GPU NVIDIA
V100 (khoảng 1–2 ngày).

6 kết quả

Chúng tôi về mặt định lượng (Bảng 1) và định tính (Hình 8 và 6) cho thấy rằng phương pháp của chúng

tôi vượt trội hơn công việc trước đó và cung cấp các nghiên cứu cắt bỏ rộng rãi để xác nhận các

lựa chọn thiết kế của chúng tôi (Bảng 2). Chúng tôi khuyến khích người đọc xem video bổ sung của

chúng tôi để đánh giá cao hơn sự cải thiện đáng kể của phương pháp của chúng tôi so với các phương

pháp cơ bản khi hiển thị các đường dẫn mượt mà của các chế độ xem mới.

6.1 Bộ dữ liệu

Kết xuất tổng hợp các đối tượng Trước tiên, chúng tôi hiển thị kết quả thử nghiệm trên
hai tập dữ liệu về kết xuất tổng hợp các đối tượng (Bảng 1, “Tổng hợp khuếch tán 360 ”
và “Tổng hợp thực tế 360 ”). Bộ dữ liệu DeepVoxels [41] chứa bốn vật thể Lamber-tian
có hình học đơn giản. Mỗi đối tượng được hiển thị ở độ phân giải 512 × 512 pixel từ
các góc nhìn được lấy mẫu ở bán cầu trên (479 làm đầu vào và 1000 để thử nghiệm). Ngoài
ra, chúng tôi còn tạo tập dữ liệu của riêng mình chứa các hình ảnh được dò đường của
tám vật thể thể hiện hình học phức tạp và các vật liệu phi Lambertian thực tế. Sáu được
hiển thị từ các góc nhìn được lấy mẫu ở bán cầu trên và hai được hiển thị từ các góc
nhìn được lấy mẫu trên một hình cầu đầy đủ. Chúng tôi hiển thị 100 lượt xem của mỗi
cảnh làm đầu vào và 200 lượt xem để thử nghiệm, tất cả đều ở độ phân giải 800 × 800 pixel.
Machine Translated by Google
10 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Tổng hợp khuếch tán 360 [41] Tổng hợp thực tế 360 Hướng về phía trước thực tế [28]
Phương pháp PSNR SSIM LPIPS PSNR SSIM LPIPS PSNR SSIM LPIPS

SRN [42] 33,20 0,963 NV [24] 0,073 22,26 0,846 0,170 26,05 22,84 0,668 0,378
0,099 0,893 0,160 24,88 0,911 - - -
29,62 0,929 LLFF [28] 34,38
0,985 Của chúng tôi 0,048 0,114 24,13 0,798 0,212
40,15 0,991 0,023 31,01 0,947 0,081 26,50 0,811 0,250

Bảng 1: Phương pháp của chúng tôi vượt trội về mặt định lượng so với nghiên cứu trước đây trên các tập dữ liệu của

cả hình ảnh tổng hợp và hình ảnh thực. Chúng tôi báo cáo PSNR/SSIM (càng cao càng tốt) và

LPIPS [50] (càng thấp càng tốt). Bộ dữ liệu DeepVoxels [41] bao gồm 4 đối tượng khuếch tán có
hình học đơn giản. Tập dữ liệu tổng hợp thực tế của chúng tôi bao gồm pathtraced

kết xuất của 8 đối tượng phức tạp về mặt hình học bằng vật liệu phi Lambertian phức tạp. Tập dữ

liệu thực bao gồm các ảnh chụp cầm tay hướng về phía trước của 8 cảnh trong thế giới thực (NV

không thể được đánh giá trên dữ liệu này vì nó chỉ tái tạo lại

các đối tượng bên trong một khối giới hạn). Mặc dù LLFF đạt được LPIPS tốt hơn một chút,
chúng tôi kêu gọi độc giả xem video bổ sung nơi phương pháp của chúng tôi đạt được

tính nhất quán của nhiều chế độ xem tốt hơn và tạo ra ít tạo tác hơn tất cả các đường cơ sở.

Hình ảnh thực của các cảnh phức tạp Chúng tôi hiển thị kết quả trên thế giới thực phức tạp

cảnh được chụp với hình ảnh gần như hướng về phía trước (Bảng 1, “Hướng thực về phía trước”).

Tập dữ liệu này bao gồm 8 cảnh được quay bằng điện thoại di động cầm tay

(5 lấy từ giấy LLFF và 3 mà chúng tôi chụp), chụp với tốc độ 20 đến 62

hình ảnh và giữ lại 1/8 trong số này cho bộ thử nghiệm. Tất cả hình ảnh đều có kích thước 1008×756 pixel.

6.2 So sánh

Để đánh giá mô hình của chúng tôi, chúng tôi so sánh với các kỹ thuật hoạt động tốt nhất hiện tại

để xem tổng hợp, chi tiết dưới đây. Tất cả các phương thức đều sử dụng cùng một bộ chế độ xem đầu vào

để huấn luyện một mạng riêng cho từng cảnh ngoại trừ Local Light Field Fusion [28],
huấn luyện một mạng tích chập 3D duy nhất trên một tập dữ liệu lớn, sau đó sử dụng

cùng một mạng được đào tạo để xử lý hình ảnh đầu vào của các cảnh mới tại thời điểm thử nghiệm.

Các khối thần kinh (NV) [24] tổng hợp các góc nhìn mới về các đối tượng nằm hoàn toàn trong một

khối giới hạn phía trước một nền riêng biệt (phải

được chụp riêng mà không có đối tượng quan tâm). Nó tối ưu hóa 3D sâu
mạng tích chập để dự đoán lưới voxel RGBα rời rạc với 1283 mẫu cũng như lưới dọc 3D với 323

mẫu. Thuật toán hiển thị mới lạ

các góc nhìn bằng cách di chuyển các tia camera qua lưới voxel bị cong vênh.

Mạng biểu diễn cảnh (SRN) [42] thể hiện một cảnh liên tục

dưới dạng một bề mặt mờ đục, được xác định ngầm định bởi MLP ánh xạ từng tọa độ (x, y, z) thành
một vectơ đặc trưng. Họ huấn luyện một mạng lưới thần kinh tái diễn để tiến hành

dọc theo một tia xuyên qua biểu diễn cảnh bằng cách sử dụng vectơ đặc trưng ở bất kỳ điểm nào

Tọa độ 3D để dự đoán kích thước bước tiếp theo dọc theo tia. Vectơ đặc trưng

từ bước cuối cùng được giải mã thành một màu duy nhất cho điểm đó trên bề mặt.

Lưu ý rằng SRN là phiên bản tiếp theo có hiệu suất tốt hơn DeepVoxels [41]
tác giả, đó là lý do tại sao chúng tôi không đưa ra các so sánh với DeepVoxels.
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 11

Tàu thủy

Lego

Cái mic cờ rô

Nguyên vật liệu

Ground Truth NeRF (của chúng tôi) LLFF [28] SRN [42] NV [24]

Hình 5: So sánh về các chế độ xem trong tập thử nghiệm cho các cảnh từ tập dữ liệu tổng hợp mới của chúng tôi

được tạo bằng trình kết xuất dựa trên vật lý. Phương pháp của chúng tôi có thể phục hồi tốt

các chi tiết cả về hình học và hình thức, chẳng hạn như dây buộc của tàu, thiết bị của Lego

và mặt bậc, chân đế sáng bóng và lưới tản nhiệt của Micrô cũng như khả năng phản xạ không phải Lambertian

của Material. LLFF trưng bày các hiện vật tạo dải trên Micrô

chân đế và các cạnh vật thể của Material và các tạo tác bóng mờ trên cột buồm của Tàu và

bên trong đồ vật Lego. SRN tạo ra các kết xuất mờ và méo mó trong mọi

trường hợp. Khối thần kinh không thể ghi lại các chi tiết trên lưới của Micrô hoặc

các bánh răng của Lego và nó hoàn toàn không thể khôi phục được hình dạng gian lận của Ship.
Machine Translated by Google
12 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

dương xỉ

T-Rex

phong lan

Ground Truth NeRF (của chúng tôi) LLFF [28] SRN [42]

Hình 6: So sánh các chế độ xem thử nghiệm của cảnh trong thế giới thực. LLFF được thiết kế đặc

biệt cho trường hợp sử dụng này (chụp cảnh thực từ phía trước). Phương pháp của chúng tôi có
thể biểu diễn hình học mịn một cách nhất quán hơn trên các chế độ xem được hiển thị so với
LLFF, như được thể hiện trong những chiếc lá của Fern cũng như khung xương và lan can của T-rex.
Phương pháp của chúng tôi cũng tái tạo chính xác các vùng bị che khuất một phần mà LLFF cố
gắng hiển thị một cách rõ ràng, chẳng hạn như các kệ màu vàng phía sau những chiếc lá ở cây
Dương xỉ phía dưới và những chiếc lá xanh ở nền của cây Phong lan phía dưới.
Việc trộn lẫn giữa các kết xuất hiển thị bội số cũng có thể gây ra các cạnh lặp lại trong LLFF,
như đã thấy trong phần Orchid crop trên cùng. SRN ghi lại hình dạng tần số thấp và sự biến đổi
màu sắc trong mỗi cảnh nhưng không thể tái tạo bất kỳ chi tiết đẹp nào.
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 13

Phản ứng tổng hợp trường ánh sáng cục bộ (LLFF) [28] LLFF được thiết kế để tạo ra các chế độ xem mới

lạ mang tính chất quang học cho các cảnh hướng về phía trước được lấy mẫu tốt. Nó sử dụng 3D được đào tạo

mạng tích chập để dự đoán trực tiếp RGBα được lấy mẫu thất vọng rời rạc

lưới (hình ảnh đa mặt phẳng hoặc MPI [52]) cho mỗi chế độ xem đầu vào, sau đó hiển thị mới

các chế độ xem bằng cách tổng hợp alpha và trộn các MPI gần đó vào chế độ xem mới.

6.3 Thảo luận

Chúng tôi hoàn toàn vượt trội so với cả hai đường cơ sở đồng thời tối ưu hóa một mạng riêng biệt

mỗi cảnh (NV và SRN) trong mọi tình huống. Hơn nữa, chúng tôi sản xuất chất lượng

và kết xuất vượt trội về mặt định lượng so với LLFF (trên tất cả ngoại trừ một

số liệu) trong khi chỉ sử dụng hình ảnh đầu vào của họ làm toàn bộ tập huấn luyện của chúng tôi.

Phương pháp SRN tạo ra hình học và kết cấu được làm mịn rất nhiều, và

sức mạnh biểu diễn để tổng hợp khung nhìn bị giới hạn bằng cách chỉ chọn một

độ sâu và màu sắc trên mỗi tia camera. Đường cơ sở NV có thể nắm bắt một cách hợp lý

hình học và hình dạng thể tích chi tiết, nhưng việc sử dụng lưới voxel 1283 rõ ràng bên dưới ngăn

không cho nó chia tỷ lệ để thể hiện các chi tiết nhỏ ở mức cao

nghị quyết. LLFF đặc biệt cung cấp “hướng dẫn lấy mẫu” không vượt quá 64

các pixel có sự chênh lệch giữa các chế độ xem đầu vào, do đó, thường không ước tính được hình

học chính xác trong các bộ dữ liệu tổng hợp chứa tới 400-500 pixel

sự chênh lệch giữa các quan điểm. Ngoài ra, LLFF kết hợp giữa các lần tái hiện cảnh khác nhau để

hiển thị các chế độ xem khác nhau, dẫn đến gây mất tập trung về mặt cảm nhận.

sự không nhất quán như được thấy rõ trong video bổ sung của chúng tôi.

Sự cân bằng thực tế lớn nhất giữa các phương pháp này là thời gian và không gian.

Tất cả các phương pháp một cảnh được so sánh đều mất ít nhất 12 giờ để huấn luyện cho mỗi cảnh. TRONG

Ngược lại, LLFF có thể xử lý một tập dữ liệu đầu vào nhỏ trong vòng chưa đầy 10 phút. Tuy nhiên,

LLFF tạo ra lưới voxel 3D lớn cho mọi hình ảnh đầu vào, dẫn đến yêu cầu lưu trữ rất lớn (trên 15

GB cho một cảnh “Tổng hợp thực tế”). Của chúng tôi

phương pháp chỉ yêu cầu 5 MB cho trọng lượng mạng (nén tương đối

3000× so với LLFF), thậm chí còn ít bộ nhớ hơn so với hình ảnh đầu vào

một mình cho một cảnh từ bất kỳ tập dữ liệu nào của chúng tôi.

6.4 Nghiên cứu cắt bỏ

Chúng tôi xác thực các lựa chọn và thông số thiết kế của thuật toán bằng một phạm vi rộng

nghiên cứu cắt bỏ trong Bảng 2. Chúng tôi trình bày kết quả trên “Tổng hợp thực tế 360 ” của chúng tôi

cảnh. Hàng 9 hiển thị mô hình hoàn chỉnh của chúng tôi làm điểm tham khảo. Hàng 1 thể hiện

một phiên bản tối giản của mô hình của chúng tôi không có mã hóa vị trí (PE), phụ thuộc vào chế độ

xem (VD) hoặc lấy mẫu phân cấp (H). Ở hàng 2–4, chúng tôi loại bỏ những thứ này

ba thành phần một lần từ mô hình đầy đủ, quan sát vị trí đó

mã hóa (hàng 2) và phụ thuộc chế độ xem (hàng 3) cung cấp số lượng lớn nhất

lợi ích theo sau là lấy mẫu theo thứ bậc (hàng 4). Hàng 5–6 cho thấy hiệu suất của chúng tôi giảm

như thế nào khi số lượng hình ảnh đầu vào giảm. Lưu ý rằng của chúng tôi

hiệu suất của phương pháp chỉ sử dụng 25 hình ảnh đầu vào vẫn vượt NV, SRN và

LLFF trên tất cả các số liệu khi chúng được cung cấp 100 hình ảnh (xem tài liệu bổ sung). Ở hàng 7–

8, chúng tôi xác nhận lựa chọn tần số tối đa của mình
Machine Translated by Google
14 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Nhập #Im. L ( Nc , Nf ) PSNR SSIM LPIPS


-
1) Không có PE, VD, H xyz 100 (256, - ) 26,67 0,906 0,136
-
2) Không có vị trí. Mã hóa xyzθφ 100 (64, 128) 28,77 0,924 0,108
3) Không có sự phụ thuộc chế độ xem xyz 100 10 (64, 128) 27,66 0,925 0,117
4) Không Phân cấp xyzθφ 100 10 (256, - ) 30,06 0,938 0,109
5) Ít hình ảnh hơn xyzθφ 25 10 (64, 128) 27,78 0,925 0,107
6) Ít hình ảnh hơn xyzθφ 50 10 (64, 128) 29,79 0,940 0,096
7) Ít tần số hơn xyzθφ 100 5 (64, 128) 30,59 0,944 0,088
8) Tần số khác xyzθφ 100 15 (64, 128) 30,81 0,946 0,096

9) Mô hình hoàn chỉnh xyzθφ 100 10 (64, 128) 31,01 0,947 0,081

Bảng 2: Một nghiên cứu cắt bỏ mô hình của chúng tôi. Số liệu được tính trung bình trên 8 cảnh

từ tập dữ liệu tổng hợp thực tế của chúng tôi. Xem phần. 6.4 để biết mô tả chi tiết.

L được sử dụng trong mã hóa vị trí của chúng tôi cho x (tần số tối đa được sử dụng cho d là

được chia tỷ lệ theo tỷ lệ). Chỉ sử dụng 5 tần số sẽ làm giảm hiệu suất nhưng việc tăng số lượng

tần số từ 10 lên 15 không cải thiện hiệu suất.

Chúng tôi tin rằng lợi ích của việc tăng L sẽ bị hạn chế khi 2L vượt quá mức tối đa

tần số hiện diện trong các hình ảnh đầu vào được lấy mẫu (khoảng 1024 trong dữ liệu của chúng tôi).

7. Kết luận

Công việc của chúng tôi trực tiếp giải quyết những thiếu sót của công việc trước đó sử dụng MLP để

thể hiện các đối tượng và cảnh được gửi dưới dạng các chức năng liên tục. Chúng tôi chứng minh

rằng các cảnh được thể hiện dưới dạng trường bức xạ thần kinh 5D (MLP tạo ra mật độ âm lượng và

Ánh sáng phát ra phụ thuộc vào chế độ xem dưới dạng chức năng của vị trí 3D và chế độ xem 2D

hướng) tạo ra kết xuất tốt hơn so với cách tiếp cận chiếm ưu thế trước đây của

đào tạo các mạng tích chập sâu để tạo ra các biểu diễn voxel rời rạc.

Mặc dù chúng tôi đã đề xuất chiến lược lấy mẫu theo cấp bậc để làm cho việc hiển thị mẫu hiệu

quả hơn (cho cả đào tạo và kiểm tra), vẫn còn nhiều hơn thế nữa.

cần đạt được tiến bộ trong việc nghiên cứu các kỹ thuật để tối ưu hóa và hiển thị các trường bức

xạ thần kinh một cách hiệu quả. Một hướng khác cho công việc trong tương lai là khả năng diễn giải:

các biểu diễn được lấy mẫu như lưới voxel và mắt lưới thừa nhận lý luận về

chất lượng mong đợi của các lượt xem được hiển thị và các chế độ lỗi nhưng không rõ bằng cách nào

để phân tích những vấn đề này khi chúng tôi mã hóa các cảnh theo trọng số của hệ thống thần kinh sâu

mạng. Chúng tôi tin rằng công việc này sẽ đạt được tiến bộ trong quá trình phát triển đồ họa

dựa trên hình ảnh thế giới thực, nơi các cảnh phức tạp có thể được tạo thành từ các nơ-ron thần kinh

trường bức xạ được tối ưu hóa từ hình ảnh của vật thể và cảnh thực tế.

Lời cảm ơn Chúng tôi xin cảm ơn Kevin Cao, Guowei Frank Yang và Nithin

Raghavan cho ý kiến và thảo luận. RR thừa nhận nguồn tài trợ từ ONR

cấp N000141712687 và N000142012529 và Chủ tịch Ronald L. Graham.

BM được tài trợ bởi Quỹ học bổng Hertz và MT được tài trợ bởi một

Học bổng sau đại học của NSF. Google đã quyên góp một khoản lớn tín dụng điện toán đám mây thông qua

chương trình BAIR Commons. Chúng tôi cảm ơn những người sau đây
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 15

Người dùng Blend Swap cho các mô hình được sử dụng trong tập dữ liệu tổng hợp thực tế
của chúng tôi: gregzaal (tàu), 1DInc (ghế), bryanajones (trống), Herberhold (ficus),
erickfree (hot-dog), Heinzelnisse (lego), elbrujodelatribu (vật liệu), và up3d.de (mic).

Người giới thiệu

1. Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, GS, Davis, A., Dean,

J., Devin, M. , Ghemawat, S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz,

R., Kaiser, L., Kudlur, M., Levenberg, J. , Man'e, D., Monga, R., Moore, S., Murray, D., Olah, C.,

Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V.,

Vasudevan, V., Vi'egas, F., Vinyals, O., Warden, P., Wattenberg, M., Wicke, M., Yu, Y., Zheng, X.:

TensorFlow: Học máy quy mô lớn trên các hệ thống không đồng nhất (2015)

2. Buehler, C., Bosse, M., McMillan, L., Gortler, S., Cohen, M.: Kết xuất đồ thị phát quang không có

cấu trúc. Trong: SIGGRAPH (2001)


3. Chang, AX, Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S., Savva, M., Song,

S., Su, H. , et al.: Shapenet: Kho lưu trữ mô hình 3d giàu thông tin. arXiv:1512.03012 (2015)

4. Chen, W., Gao, J., Ling, H., Smith, EJ, Lehtinen, J., Jacobson, A., Fidler, S.: Học cách dự đoán các

vật thể 3D bằng trình kết xuất có thể phân biệt dựa trên nội suy.

Trong: NeurIPS (2019)


5. Cohen, M., Gortler, SJ, Szeliski, R., Grzeszczuk, R., Szeliski, R.: Máy chụp ảnh lumigraph.

Trong: SIGGRAPH (1996)


6. Curless, B., Levoy, M.: Một phương pháp thể tích để xây dựng các mô hình phức tạp từ các hình ảnh

phạm vi. Trong: SIGGRAPH (1996)

7. Davis, A., Levoy, M., Durand, F.: Trường ánh sáng phi cấu trúc. Trong: Eurographics (2012)
8. Debevec, P., Taylor, CJ, Malik, J.: Lập mô hình và kết xuất kiến trúc từ ảnh chụp: Một cách tiếp cận

dựa trên hình học và hình ảnh kết hợp. Trong: SIGGRAPH (1996)
9. Flynn, J., Broxton, M., Debevec, P., DuVall, M., Fyffe, G., Overbeck, R., Snavely, N., Tucker, R.:

DeepView: xem tổng hợp với độ dốc giảm dần đã học . Trong: CVPR (2019)

10. Genova, K., Cole, F., Maschinot, A., Sarna, A., Vlasic, D., , Freeman, WT: Đào tạo không có giám sát

về hồi quy mô hình có thể biến hình 3D. Trong: CVPR (2018)
11. Genova, K., Cole, F., Sud, A., Sarna, A., Funkhouser, T.: Tiềm ẩn sâu sắc cục bộ

chức năng cho hình dạng 3d. Trong: CVPR (2020)


12. Henzler, P., Mitra, NJ, Ritschel, T.: Học không gian kết cấu 3d thần kinh từ 2d

những ví dụ. Trong: CVPR (2020)


13. Henzler, P., Rasche, V., Ropinski, T., Ritschel, T.: Chụp cắt lớp một ảnh: 3d

khối lượng từ X-quang sọ 2d. Trong: Eurographics (2018)


14. Hornik, K., Stinchcombe, M., White, H.: Mạng chuyển tiếp đa lớp là mạng đơn nhất

các phép tính gần đúng ngược. Mạng lưới thần kinh (1989)
15. Jiang, C., Sud, A., Makadia, A., Huang, J., Nießner, M., Funkhouser, T.: Biểu diễn lưới tiềm ẩn cục

bộ cho cảnh 3d. Trong: CVPR (2020)


16. Kajiya, JT, Herzen, BPV: Mật độ khối dò tia. Đồ họa máy tính (SIGGRAPH) (1984)

17. Kar, A., H¨ane, C., Malik, J.: Học máy âm thanh nổi đa khung nhìn. Trong: NeurIPS

(2017)
18. Kingma, DP, Ba, J.: Adam: Một phương pháp tối ưu hóa ngẫu nhiên. Trong: ICLR

(2015)
Machine Translated by Google
16 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

19. Kutulakos, KN, Seitz, SM: Lý thuyết về hình dạng bằng cách chạm khắc không gian. Quốc tế
Tạp chí Thị giác Máy tính (2000)
20. Levoy, M.: dò tia hiệu quả cho dữ liệu khối. Giao dịch ACM trên đồ họa
(1990)
21. Levoy, M., Hanrahan, P.: Kết xuất trường ánh sáng. Trong: SIGGRAPH (1996)
22. Li, TM, Aittala, M., Durand, F., Lehtinen, J.: Monte Carlo ray khả vi
truy tìm thông qua việc lấy mẫu cạnh. Giao dịch ACM trên đồ họa (SIGGRAPH Châu Á)
(2018)
23. Liu, S., Li, T., Chen, W., Li, H.: Rasterizer mềm: Một trình kết xuất có thể phân biệt để suy
luận 3D dựa trên hình ảnh. Trong: ICCV (2019)
24. Lombardi, S., Simon, T., Saragih, J., Schwartz, G., Lehrmann, A., Sheikh, Y.:
Khối lượng thần kinh: Học khối lượng có thể kết xuất động từ hình ảnh. Giao dịch ACM trên đồ
họa (SIGGRAPH) (2019)
25. Loper, MM, Black, MJ: OpenDR: Trình kết xuất có thể phân biệt gần đúng. TRONG:
ECCV (2014)
26. Max, N.: Các mô hình quang học để hiển thị khối trực tiếp. Giao dịch của IEEE trên Visu-
Alization và Đồ họa máy tính (1995)
27. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Công suất sử dụng
mạng: Học tái tạo 3D trong không gian chức năng. Trong: CVPR (2019)
28. Mildenhall, B., Srinivasan, PP, Ortiz-Cayon, R., Kalantari, NK, Ramamoorthi,
R., Ng, R., Kar, A.: Phản ứng tổng hợp trường ánh sáng cục bộ: Tổng hợp quan điểm thực tế với
các hướng dẫn lấy mẫu theo quy định. Giao dịch ACM trên đồ họa (SIGGRAPH) (2019)
29. Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A.: Thể tích khả vi
kết xuất: Học các biểu diễn 3D tiềm ẩn mà không cần sự giám sát 3D. Trong: CVPR
(2019)
30. Nimier-David, M., Vicini, D., Zeltner, T., Jakob, W.: Mitsuba 2: Có thể nhắm mục tiêu lại
trình kết xuất tiến và nghịch đảo. Giao dịch ACM trên đồ họa (SIGGRAPH Châu Á)
(2019)
31. Oechsle, M., Mescheder, L., Niemeyer, M., Strauss, T., Geiger, A.: Các trường kết cấu:
Học cách biểu diễn kết cấu trong không gian hàm. Trong: ICCV (2019)
32. Park, JJ, Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: DeepSDF: Học các hàm khoảng
cách có dấu liên tục để biểu diễn hình dạng. Trong: CVPR (2019)
33. Penner, E., Zhang, L.: Tái tạo 3D mềm để tổng hợp khung nhìn. Giao dịch ACM
về Đồ họa (SIGGRAPH Châu Á) (2017)
34. Porter, T., Duff, T.: Kết hợp các hình ảnh kỹ thuật số. Đồ họa máy tính (SIG-GRAPH) (1984)

35. Rahaman, N., Baratin, A., Arpit, D., Dr¨axler, F., Lin, M., Hamprecht, FA, Ben-gio, Y.,
Courville, AC: Về sai lệch quang phổ của thần kinh mạng. Trong: ICML (2018)
36. Rainer, G., Ghosh, A., Jakob, W., Weyrich, T.: Mã hóa thần kinh thống nhất của BTF.
Diễn đàn đồ họa máy tính (Eurographics) (2020)
37. Rainer, G., Jakob, W., Ghosh, A., Weyrich, T.: Nén BTF thần kinh và
nội suy. Diễn đàn đồ họa máy tính (Eurographics) (2019)
38. Ren, P., Wang, J., Gong, M., Lin, S., Tong, X., Guo, B.: Chiếu sáng toàn cầu với
hàm hồi quy bức xạ. Giao dịch ACM trên đồ họa (2013)
39. Sch¨onberger, JL, Frahm, JM: Xem lại cấu trúc từ chuyển động. Trong: CVPR (2016)
40. Seitz, SM, Dyer, CR: Tái tạo cảnh quang học bằng cách tô màu voxel. TRONG-
Tạp chí Quốc tế về Thị giác Máy tính (1999)
41. Sitzmann, V., Thies, J., Heide, F., Nießner, M., Wetzstein, G., Zollh¨ofer, M.: Deep-voxels:
Học cách nhúng tính năng 3D liên tục. Trong: CVPR (2019)
42. Sitzmann, V., Zollhoefer, M., Wetzstein, G.: Mạng biểu diễn cảnh: Biểu diễn cảnh thần kinh nhận
biết cấu trúc 3D liên tục. Trong: NeurIPS (2019)
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 17

43. Srinivasan, PP, Tucker, R., Barron, JT, Ramamoorthi, R., Ng, R., Snavely, N.: Đẩy lùi ranh
giới của phép ngoại suy khung nhìn bằng hình ảnh đa mặt phẳng. Trong: CVPR (2019)

44. Stanley, KO: Mạng lưới tạo ra mô hình tổng hợp: Một sự trừu tượng mới về phát triển. Lập
trình di truyền và máy móc có thể tiến hóa (2007)
45. Szeliski, R., Golland, P.: Kết hợp âm thanh nổi với độ trong suốt và mờ. Trong: ICCV
(1998)
46. Tulsiani, S., Zhou, T., Efros, AA, Malik, J.: Giám sát nhiều góc nhìn để tái tạo một góc
nhìn thông qua tính nhất quán của tia khác biệt. Trong: CVPR (2017)
47. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, Kaiser, L.,
Polosukhin, I.: Tất cả những gì bạn cần là chú ý. Trong: NeurIPS (2017)
48. Waechter, M., Moehrle, N., Goesele, M.: Hãy để có màu sắc! Kết cấu quy mô lớn của việc tái
tạo 3D. Trong: ECCV (2014)
49. Wood, DN, Azuma, DI, Aldinger, K., Curless, B., Duchamp, T., Salesin, DH, Stuetzle, W.: Các
trường ánh sáng bề mặt để chụp ảnh 3D. Trong: SIGGRAPH (2000)
50. Zhang, R., Isola, P., Efros, AA, Shechtman, E., Wang, O.: Hiệu quả phi lý của các đặc điểm
sâu sắc như một thước đo nhận thức. Trong: CVPR (2018)
51. Zhong, ED, Bepler, T., Davis, JH, Berger, B.: Tái tạo sự phân bố liên tục của cấu trúc
protein 3D từ ảnh cryo-EM. Trong: ICLR (2020)
52. Chu, T., Tucker, R., Flynn, J., Fyffe, G., Snavely, N.: Phóng đại âm thanh nổi: Tổng hợp
khung nhìn học tập bằng cách sử dụng hình ảnh đa mặt phẳng. Giao dịch ACM trên đồ họa (SIG-
GRAPH) (2018)

Chi tiết triển khai bổ sung

Kiến trúc mạng Hình 7 mô tả chi tiết kiến trúc kết nối đầy đủ đơn giản của chúng tôi.

Giới hạn âm lượng Phương pháp của chúng tôi hiển thị các chế độ xem bằng cách truy vấn biểu
diễn trường bức xạ thần kinh ở tọa độ 5D liên tục dọc theo tia camera. Đối với các thử nghiệm
với hình ảnh tổng hợp, chúng tôi chia tỷ lệ khung cảnh sao cho nó nằm trong một khối có cạnh
dài 2 có tâm ở điểm gốc và chỉ truy vấn biểu diễn trong khối giới hạn này. Tập dữ liệu hình
ảnh thực của chúng tôi chứa nội dung có thể tồn tại ở bất kỳ đâu giữa điểm gần nhất và vô cực,
vì vậy chúng tôi sử dụng tọa độ thiết bị chuẩn hóa để ánh xạ phạm vi độ sâu của các điểm này

vào [ 1, 1]. Điều này sẽ dịch chuyển tất cả nguồn gốc tia sang mặt phẳng gần của cảnh, ánh xạ
các tia phối cảnh của máy ảnh thành các tia song song trong thể tích được chuyển đổi và sử

dụng độ chênh lệch (độ sâu nghịch đảo) thay vì độ sâu hệ mét, vì vậy tất cả các tọa độ hiện
đều bị giới hạn.

Chi tiết đào tạo Đối với dữ liệu cảnh thực, chúng tôi chuẩn hóa mạng của mình bằng cách thêm
nhiễu Gaussian ngẫu nhiên với giá trị trung bình bằng 0 và phương sai đơn vị cho các giá trị

σ đầu ra (trước khi chuyển chúng qua ReLU) trong quá trình tối ưu hóa, nhận thấy rằng điều
này cải thiện đôi chút hiệu suất hình ảnh để hiển thị các chế độ xem mới. Chúng tôi triển khai

mô hình của mình trong Tensorflow [1].

Chi tiết kết xuất Để hiển thị các chế độ xem mới tại thời điểm thử nghiệm, chúng tôi lấy mẫu
64 điểm mỗi tia thông qua mạng thô và 64 + 128 = 192 điểm mỗi tia thông qua mạng mịn, với tổng
số 256 truy vấn mạng trên mỗi tia. Tổng hợp thực tế của chúng tôi
Machine Translated by Google
18 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

(x)

60

(x)
256 256 256 256 256 256 256 256 256 128 RGB
60

+
(d)
24

Hình 7: Hình dung về kiến trúc mạng được kết nối đầy đủ của chúng tôi. Vectơ đầu vào
được hiển thị bằng màu xanh lá cây, các lớp ẩn trung gian được hiển thị bằng màu xanh lam, các vectơ đầu ra

được hiển thị bằng màu đỏ và số bên trong mỗi khối biểu thị thứ nguyên của vectơ. Tất
cả các lớp là các lớp được kết nối đầy đủ tiêu chuẩn, mũi tên màu đen biểu thị các lớp
với kích hoạt ReLU, mũi tên màu cam biểu thị các lớp không kích hoạt, nét đứt
mũi tên màu đen biểu thị các lớp có kích hoạt sigmoid và “+” biểu thị vectơ
nối. Mã hóa vị trí của vị trí đầu vào (γ(x)) được chuyển
thông qua 8 lớp ReLU được kết nối đầy đủ, mỗi lớp có 256 kênh. Chúng tôi làm theo
Kiến trúc DeepSDF [32] và bao gồm kết nối bỏ qua nối kết này
đầu vào để kích hoạt lớp thứ năm. Một lớp bổ sung xuất ra mật độ âm lượng σ (được hiệu
chỉnh bằng ReLU để đảm bảo rằng mật độ âm lượng đầu ra
là không âm) và vectơ đặc trưng 256 chiều. Vectơ đặc trưng này được nối với mã hóa vị
trí của hướng xem đầu vào (γ(d)),
và được xử lý bởi lớp ReLU được kết nối đầy đủ bổ sung với 128 kênh.
Lớp cuối cùng (có kích hoạt sigmoid) tạo ra ánh sáng RGB phát ra ở mức
vị trí x, được nhìn bởi một tia có hướng d.

tập dữ liệu yêu cầu 640k tia cho mỗi hình ảnh và cảnh thực của chúng tôi yêu cầu 762k tia cho mỗi hình ảnh.

hình ảnh, dẫn đến từ 150 đến 200 triệu truy vấn mạng cho mỗi lần hiển thị
hình ảnh. Trên NVIDIA V100, quá trình này mất khoảng 30 giây cho mỗi khung hình.

B Chi tiết về phương pháp đường cơ sở bổ sung

Neural Volumes (NV) [24] Chúng tôi sử dụng mã NV có nguồn mở của tác giả
tại https://github.com/facebookresearch/neuralvolumes và làm theo
thủ tục huấn luyện trên một cảnh duy nhất mà không phụ thuộc vào thời gian.

Mạng biểu diễn cảnh (SRN) [42] Chúng tôi sử dụng mã SRN có nguồn mở của các tác giả tại
https://github.com/vsitzmann/scene-repftimeation-n
và làm theo quy trình đào tạo của họ trên một cảnh duy nhất.

Phản ứng tổng hợp trường ánh sáng cục bộ (LLFF) [28] Chúng tôi sử dụng mô hình LLFF đã được huấn luyện trước

nguồn mở của các tác giả tại https://github.com/Fyusion/LLFF.


Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 19

So sánh định lượng Việc triển khai SRN do các tác giả xuất bản yêu cầu một lượng
bộ nhớ GPU đáng kể và bị giới hạn ở độ phân giải hình ảnh 512 × 512 pixel ngay cả
khi được song song trên 4 GPU NVIDIA V100. Chúng tôi tính toán số liệu định lượng
cho SRN ở mức 512 × 512 pixel cho bộ dữ liệu tổng hợp của chúng tôi và 504 × 376
pixel cho bộ dữ liệu thực, so với 800 × 800 và 1008 × 752 tương ứng cho các phương
pháp khác có thể chạy ở độ phân giải cao hơn.

Dẫn xuất không gian tia C NDC

Chúng tôi tái tạo lại các cảnh thực bằng các ảnh chụp “hướng về phía trước” trong
không gian tọa độ thiết bị chuẩn hóa (NDC) thường được sử dụng như một phần của quy
trình rasterization tam giác. Không gian này thuận tiện vì nó bảo toàn các đường song
song trong khi chuyển đổi trục z (trục camera) thành tuyến tính chênh lệch.
Ở đây chúng tôi rút ra phép biến đổi được áp dụng cho các tia để ánh xạ chúng
từ không gian máy ảnh sang không gian NDC. Ma trận chiếu phối cảnh 3D tiêu chuẩn
cho tọa độ đồng nhất là:

N
r 0
N
0 t
M = 0 0 (7)
0 0 0 0 (f+n)
f n
2fn f n 0 0 1 0

trong đó n, f là các mặt phẳng cắt gần và xa và r và t là các giới hạn bên phải và
trên cùng của cảnh tại mặt phẳng cắt gần. (Lưu ý rằng đây là quy ước trong đó máy
ảnh nhìn theo hướng z.) Để chiếu một điểm đồng nhất (x, y, z, 1), chúng ta nhân
trái với M rồi chia cho tọa độ thứ tư:

N
r 0 0 x n x
N rn
0 t y y
0 0 0 (f+n)
0 0 z t (f+n)
z
2fn (số 8)

f n f n f n

2fn f n 0 0 1 0 1 = z
N x
zy
rn
dự án t z (9)
(f+n) 2fn 1
f n f n z

Điểm được chiếu hiện nằm trong không gian tọa độ thiết bị chuẩn hóa (NDC),
trong đó điểm nhìn ban đầu đã được ánh xạ tới khối [ 1, 1]3 .
Mục tiêu của chúng ta là lấy một tia o+td và tính gốc tia o và hướng d trong
không gian NDC sao cho với mỗi t, tồn tại một t mới mà π(o + td) = o + td (trong
đó π là hình chiếu sử dụng ma trận trên). Nói cách khác, hình chiếu của tia gốc và
tia không gian NDC vạch ra những điểm giống nhau (nhưng không nhất thiết phải ở
cùng một tốc độ).
Machine Translated by Google
20 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Chúng ta hãy viết lại điểm dự kiến từ phương trình. 9 là (axx/z, ayy/z, az +bz/z) .
Các thành phần gốc o và hướng d mới phải thỏa mãn:

ox+tdx
ax
oz+tdz
con
bò đực
+ tdx
oy+tdy
ay oz+tdz ồ , ồ
+ tdy (10)

z
+ tdz .
bz az
+ oz+tdz =

Để loại bỏ bậc tự do, chúng ta quyết định rằng t = 0 và t = 0 sẽ ánh xạ tới cùng một
điểm. Thay thế t = 0 và t = 0 Eqn. 10 trực tiếp cho biết gốc không gian NDC của chúng
ta o :

con

rìu oz
ồ x

o = = ôi ôi (11)
ồ , ồ oz

az +
z

bz oz = π(o).

Đây chính xác là hình chiếu π(o) của gốc tia gốc. Bằng cách thay thế điều này
trở lại vào Eqn. 10 với t tùy ý, ta xác định được giá trị của t và d :

ox+tdx ox
ax ax
oz+tdz
td x oz

td y = ay
oy+tdy
ay oz+tdz
ôi
(12)
oz
td z bz
bz az
+ oz+tdz az oz

oz(ox+tdx) ox(oz+tdz) ax
(oz+tdz)oz

= oz(oy+tdy) oy(oz+tdz) ay
(13)
(oz+tdz)oz oz(oz+tdz)

bz (oz+tdz)oz

tdz dx ox
rìu oz+tdz dz oz

= dy ôi
(14)
tdz ay oz+tdz dz ôi
1
tdz
bz oz+tdzoz

Việc phân tích một biểu thức chung chỉ phụ thuộc vào t sẽ cho chúng ta:

tdz oz
t = = 1 (15)
oz + tdz oz + tdz

dx ox
cây rìu
dz oz

d = ừ
dy ôi . (16)
dz ôi

bz 1 oz
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 21

Lưu ý rằng, như mong muốn, t = 0 khi t = 0. Ngoài ra, chúng ta thấy rằng t 1
là t ∞. Quay trở lại ma trận chiếu ban đầu, các hằng số của chúng ta là:

n
ax = rn (17)
ay
= t (18)

f +
az = (19)
nf
n
2fn (20)
bz = f n

Sử dụng mẫu máy ảnh pinhole tiêu chuẩn, chúng ta có thể tham số hóa lại như sau:

fcam
rìu = (21)
W/2
fcam
ay = (22)
H/2

trong đó W và H là chiều rộng và chiều cao của hình ảnh tính bằng pixel và fcam
là tiêu cự của máy ảnh.
Trong các ảnh chụp thực sự hướng về phía trước, chúng tôi giả định rằng giới hạn cảnh ở xa

là vô cực (điều này khiến chúng tôi tốn rất ít chi phí vì NDC sử dụng chiều z để biểu thị độ sâu

nghịch đảo, tức là độ chênh lệch). Trong giới hạn này, hằng số z đơn giản hóa thành:

az = 1 (23)

bz = 2n . (24)

Kết hợp mọi thứ lại với nhau:

fcam con bò đực

có/2 oz

o = fcam ôi
(25)
H/2 oz
2n
1 + oz

fcam dx ox
có/2 dz oz

d = fcam dy ôi . (26)
H/2 dz ôi
1
2n
oz

Một chi tiết cuối cùng trong quá trình triển khai của chúng tôi: chúng tôi dịch chuyển o
đến giao điểm của tia với mặt phẳng gần tại z = n (trước chuyển đổi NDC này) bằng cách
lấy = o + tnd với tn = (n+oz)/dz. Khi chúng tôi chuyển đổi sang tia NDC, điều này cho phép
chúng tôi chỉ cần lấy mẫu t tuyến tính từ 0 đến 1 để lấy mẫu tuyến tính có độ chênh lệch
từ n đến ∞ trong không gian ban đầu.
Machine Translated by Google
22 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

Bệ đỡ

khối lập phương

Ground Truth NeRF (của chúng tôi) LLFF [28] SRN [42] NV [24]

Hình 8: So sánh về các chế độ xem trong tập hợp thử nghiệm đối với các cảnh từ tập dữ liệu tổng
hợp DeepVoxels [41]. Các đối tượng trong tập dữ liệu này có hình học đơn giản và hoàn hảo

phản xạ khuếch tán. Vì số lượng ảnh đầu vào lớn (479 lượt xem)

và tính đơn giản của các đối tượng được hiển thị, cả phương pháp của chúng tôi và LLFF [28] đều thực hiện

gần như hoàn hảo trên dữ liệu này. LLFF thỉnh thoảng vẫn hiển thị các tạo phẩm khi nội suy giữa

các khối 3D của nó, như ở phần trên cùng của từng đối tượng. SRN [42]

và NV [24] không có khả năng biểu diễn để thể hiện các chi tiết đẹp.

D Kết quả bổ sung

Phân tích theo từng cảnh Bảng 3, 4, 5 và 6 bao gồm phân tích các kết quả định lượng được trình

bày trong bài viết chính thành các số liệu theo từng cảnh. Mỗi cảnh

bảng phân tích phù hợp với các số liệu định lượng tổng hợp được trình bày trong

bài báo, trong đó phương pháp của chúng tôi vượt trội về mặt định lượng so với tất cả các đường cơ sở. Mặc dù

LLFF đạt được số liệu LPIPS tốt hơn một chút, chúng tôi khuyên người đọc nên xem video bổ sung

của chúng tôi trong đó phương pháp của chúng tôi đạt được tính nhất quán nhiều lượt xem tốt hơn và

tạo ra ít tạo tác hơn tất cả các đường cơ sở.


Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 23

PSNR SSIM LPIPS


Ghế Bệ Bình Cube Ghế Bệ Bình Cube Ghế Bệ Bình Cube

DeepVoxels [41] 33,45 SRN 32,35 28,42 27,99 0,99 0,97 28,74 0,97 0,96
[42] 36,67 NV [24] 35,15 35,91 31,46 0,982 0,957 0,944 0,969 0,093 26,48 20,39 0,081 0,074 0,044
LLFF [28] 36,47 0,980 0,963 0,916 0,857 0,096 0,069 0,113 0,117
35,87
36,11 0,039 0,064 32,58
0,039 32,97 0,992 0,983 0,983 0,983 0,051
Của chúng tôi 42,65 41,44 39,19 37,32 0,991 0,986 0,996 0,992 0,047 0,024 0,006 0,017

Bảng 3: Kết quả định lượng theo từng cảnh từ bộ dữ liệu DeepVoxels [41]. Các

“cảnh” trong tập dữ liệu này đều là các đối tượng khuếch tán có hình học đơn giản, được hiển thị

từ các mắt lưới được ánh xạ kết cấu được chụp bằng máy quét 3D. Các thước đo cho

Phương pháp DeepVoxels được lấy trực tiếp từ bài báo của họ, không báo cáo

LPIPS và chỉ báo cáo hai con số quan trọng đối với SSIM.

PSNR
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
SRN [42] 26,96 17,18 20,73 26,81 20,85 18,09 26,85 20,60

NV [24] 28,33 22,58 24,79 30,71 26,08 24.22 27,78 23,93

LLFF [28] 28,72 21,13 21,79 31,41 24,54 Của chúng tôi 33,00 20,72 27,48 23,22
25,01 30,13 36,18 32,54 29,62 32,91 28,65

SSIM
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
SRN [42] 0,910 0,766 0,849 0,923 0,809 0,808 0,947 0,757

NV [24] 0,916 0,873 0,910 0,944 0,880 LLFF [28] 0,948 0,890 0,888 0,946 0,784

0,896 0,965 0,911 Của chúng tôi 0,967 0,925 0,964 0,974 0,890 0,964 0,823
0,961 0,949 0,980 0,856

LPIPS
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
SRN [42] 0,106 0,267 0,149 0,100 0,200 0,174 0,063 0,299
NV [24] 0,109 0,214 0,162 0,109 0,175 0,107 0,276 0,130

LLFF [28] 0,064 0,126 0,130 0,061 0,110 Của chúng tôi 0,046 0,117 0,084 0,218
0,091 0,044 0,121 0,050 0,063 0,028 0,206

Bảng 4: Kết quả định lượng theo từng cảnh từ tập dữ liệu tổng hợp thực tế của chúng tôi. Các

“Cảnh” trong tập dữ liệu này là tất cả các đối tượng có hình học phức tạp hơn và vật liệu không

phải Lambertian, được hiển thị bằng cách sử dụng công cụ dò đường Cycles của Blender.
Machine Translated by Google
24 B. Mildenhall, PP Srinivasan, M. Tancik và cộng sự.

PSNR
Phòng Lá Dương Xỉ Pháo Đài Hoa Lan Sừng T-Rex

SRN [42] 27,29 21,37 18,24 26,63 17:37 24,63 22,87 24,33
LLFF [28] 28,42 22,85 19,52 Của chúng 29:40 18,52 25,46 24,15 24,70
tôi 32,70 25,17 20,92 31,16 20,36 27,40 26,80 27,45

SSIM
Phòng Lá Dương Xỉ Pháo Đài Hoa Lan Sừng T-Rex

SRN [42] 0,883 0,611 0,520 0,641 0,449 0,738 0,761 0,742
LLFF [28] 0,932 0,753 0,697 0,872 Của chúng tôi 0,588 0,844 0,857 0,840
0,948 0,792 0,690 0,881 0,641 0,827 0,880 0,828

LPIPS
Phòng Lá Dương Xỉ Pháo Đài Hoa Lan Sừng T-Rex

SRN [42] 0,240 0,459 0,440 0,453 0,467 0,288 0,298 0,376
LLFF [28] 0,155 0,247 0,216 0,173 0,313 0,174 0,222 0,193
0,178 0,280 0,316 0,171
Của chúng tôi 0,321 0,219 0,249 0,268

Bảng 5: Kết quả định lượng theo từng cảnh từ tập dữ liệu hình ảnh thực của chúng tôi. Những cảnh

trong tập dữ liệu này đều được chụp bằng điện thoại di động cầm tay hướng về phía trước.
Machine Translated by Google
NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần kinh để tổng hợp chế độ xem 25

PSNR
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
1) Không có PE, 28,44 23,11 25,17 32,24 26,38 24,69 28,16 25,12

VD, H 2) Không có Pos. 30,33 24,54 29,32 33,16 27,75 27,79 30,76 26,55

Mã hóa 3) Không phụ thuộc vào chế độ xem 30,06 23,41 25,91 32,65 24,96 28,62 25,72

29,93 4) Không có 31,32 24,55 29,25 35,24 31,42 29,22 31,74 27,73

thứ bậc 5) Ít hình 30,92 22,62 24,39 32,77 27,97 26,55 30,47 26,57

ảnh hơn 6) Ít 32,19 23,70 27,45 34,91 31,53 28,54 32,33 27,67

hình ảnh hơn 7) Ít 32,19 25,29 30,73 36,06 30,77 29,77 31,66 28,26

tần số hơn 8) Nhiều 32,87 24,65 29,92 35,78 32,50 32,86 28,34 29,54
33,00 25,01 30,13 36,18 32,54 29,62 32,91 28,65
tần số hơn 9) Mô hình hoàn chỉnh

SSIM
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
1) Không có PE, VD, H 0,919 0,896 0,926 0,955 0,882 0,905 0,955 0,810
2) Không có vị trí. Mã hóa 0,938 0,918 0,953 0,956 0,903 0,933 0,968 0,824
3) Không có quan điểm phụ thuộc 0,948 0,906 0,938 0,961 0,947 0,912 0,962 0,828

4) Không có thứ bậc 0,951 0,914 0,956 0,969 0,951 0,944 0,973 0,844
5) Ít hình ảnh hơn nhiều 0,956 0,895 0,922 0,966 0,930 0,925 0,972 0,832

6) Ít hình ảnh hơn 0,963 0,911 0,948 0,971 0,957 0,941 0,979 0,847

7) Ít tần số hơn 8) 0,959 0,928 0,965 0,972 0,947 0,952 0,973 0,853

Nhiều tần số hơn 9) Mô 0,967 0,921 0,962 0,973 0,961 0,948 0,980 0,853

hình hoàn chỉnh 0,967 0,925 0,964 0,974 0,961 0,949 0,980 0,856

LPIPS
Ghế Trống Ficus Hotdog Lego Chất liệu Mic Ship
1) Không có PE, VD, H 2) 0,095 0,168 0,084 0,104 0,178 0,111 0,084 0,261

Không có Pos. Mã hóa 3) Không 0,076 0,104 0,050 0,124 0,128 0,079 0,041 0,261

phụ thuộc chế độ xem 0,075 0,148 0,113 0,112 0,088 4) Không phân cấp 0,065 0,177 0,056 0,102 0,073 0,220

0,130 0,072 5) Ít hình ảnh hơn 0,058 0,173 0,082 0,123 0,081 6) Ít hình ảnh hơn 0. 051 0,080 0,039 0,249

0,166 0,057 0,121 0,055 7) Ít tần số hơn 8) Nhiều tần số hơn 9) Hoàn thành Người mẫu 0,079 0,035 0,229
0,068 0,029 0,223
0,055 0,143 0,038 0,087 0,071 0,060 0,029 0,219
0,047 0,158 0,045 0,116 0,050 0,046 0,091 0,064 0,027 0,261
0,044 0,121 0,050 0,063 0,028 0,206

Bảng 6: Kết quả định lượng theo từng cảnh từ nghiên cứu cắt bỏ của chúng tôi. Những cảnh được sử dụng
đây giống như trong Bảng 4.

You might also like