Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

Machine Translated by Google

Nguyên thủy đồ họa thần kinh tức thì với mã hóa băm đa độ phân giải

THOMAS MÜLLER, NVIDIA, Thụy Sĩ


ALEX EVANS, NVIDIA, Vương quốc Anh
CHRISTOPH SHIED, NVIDIA, Hoa Kỳ
ALEXANDER KELLER, NVIDIA, Đức

https://nvlabs.github.io/instant-ngp

Được đào tạo trong 1 giây 15 giây 1 giây 15 giây 60 giây thẩm quyền giải quyết
gigapixel
Hình
ảnh
SDF
NRC
NeRF

Hình 1. Chúng tôi trình diễn việc đào tạo tức thời các nguyên thủy đồ họa thần kinh trên một GPU duy nhất cho nhiều tác vụ. Trong hình ảnh Gigapixel, chúng tôi biểu thị hình ảnh gigapixel bằng cách

một mạng lưới thần kinh. SDF học hàm khoảng cách có dấu trong không gian 3D có mức 0 được đặt đại diện cho bề mặt 2D. Bộ nhớ đệm rạng rỡ thần kinh (NRC) [Müller et al.

2021] sử dụng mạng nơ-ron được đào tạo theo thời gian thực để lưu vào bộ nhớ đệm các phép tính chiếu sáng tốn kém. Cuối cùng, NeRF [Mildenhall et al. 2020] sử dụng hình ảnh 2D và
arXiv:2201.05989v2

máy ảnh của họ đặt ra để tái tạo lại trường độ sáng và mật độ thể tích được hiển thị bằng cách di chuyển tia. Trong tất cả các tác vụ, mã hóa của chúng tôi và tính hiệu quả của nó

Việc triển khai mang lại lợi ích rõ ràng: đào tạo nhanh, chất lượng cao và đơn giản. Mã hóa của chúng tôi không phụ thuộc vào nhiệm vụ: chúng tôi sử dụng cùng cách triển khai và
siêu tham số trên tất cả các tác vụ và chỉ thay đổi kích thước bảng băm để đánh đổi chất lượng và hiệu suất. Ảnh © Trevor Dobson (CC BY-NC-ND 2.0)
[cs.CV]

Đồ họa thần kinh nguyên thủy, được tham số hóa bởi các mạng thần kinh được kết nối đầy đủ , kiến trúc đơn giản để song song hóa trên các GPU hiện đại. Chúng tôi tận dụng điều này
tháng

có thể tốn kém để đào tạo và đánh giá. Chúng tôi giảm chi phí này bằng một giải pháp linh hoạt song song bằng cách triển khai toàn bộ hệ thống bằng cách sử dụng các nhân CUDA được hợp nhất
2022
Ngày
năm

mã hóa đầu vào mới cho phép sử dụng mạng nhỏ hơn mà không ảnh hưởng hoàn toàn với trọng tâm là giảm thiểu lãng phí băng thông và các hoạt động tính toán.
5
4

đến chất lượng, do đó giảm đáng kể số lượng dấu phẩy động Chúng tôi đạt được tốc độ kết hợp ở nhiều cấp độ lớn, cho phép
và hoạt động truy cập bộ nhớ: một mạng lưới thần kinh nhỏ được tăng cường bởi một đào tạo các nguyên thủy đồ họa thần kinh chất lượng cao chỉ trong vài giây,
bảng băm đa độ phân giải của các vectơ đặc trưng có thể huấn luyện có giá trị được tối và hiển thị trong hàng chục mili giây ở độ phân giải 1920×1080.

ưu hóa thông qua việc giảm độ dốc ngẫu nhiên. Cấu trúc đa độ phân giải

cho phép mạng phân biệt các xung đột băm, tạo nên một sự đơn giản Các khái niệm CCS: • Các phương pháp tính toán Các thuật toán song song trên

diện rộng ; Thuật toán vectơ/truyền trực tuyến; Mạng lưới thần kinh.
Địa chỉ của tác giả: Thomas Müller, NVIDIA, Zürich, Thụy Sĩ, tmueller@nvidia.
com; Alex Evans, NVIDIA, Luân Đôn, Vương quốc Anh, alexe@nvidia.com; Christoph Các từ và cụm từ chính bổ sung: Tổng hợp hình ảnh, Mạng thần kinh, Mã hóa , Băm, GPU,
Schied, NVIDIA, Seattle, Hoa Kỳ, cschied@nvidia.com; Alexander Keller, NVIDIA, Berlin,
Tính toán song song, Xấp xỉ hàm.
Đức, akeller@nvidia.com.

Định dạng tham chiếu ACM:

© 2022 Bản quyền thuộc về chủ sở hữu/tác giả. Quyền xuất bản được cấp phép cho ACM. Thomas Müller, Alex Evans, Christoph Schied và Alexander Keller. 2022.
Đây là phiên bản tác phẩm của tác giả. Nó được đăng ở đây để bạn sử dụng cá nhân. Không dành cho
Nguyên thủy đồ họa thần kinh tức thì với mã hóa băm đa độ phân giải.
phân phối lại. Phiên bản chính thức của Bản ghi đã được xuất bản trong Giao dịch ACM vào ngày
ACM Trans. Đồ thị. 41, 4, Điều 102 (tháng 7/2022), 15 trang. https://doi.org/10.
Đồ họa, https://doi.org/10.1145/3528223.3530127.
1145/3528223.3530127

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:2 • Müller và cộng sự.

1. GIỚI THIỆU Trong phần sau đây, trước tiên chúng tôi xem xét các mã hóa mạng thần

kinh trước đó (Phần 2), sau đó chúng tôi mô tả mã hóa của chúng tôi (Phần
Nguyên thủy của đồ họa máy tính về cơ bản được biểu diễn bằng các
3) và cách triển khai nó (Phần 4), cuối cùng là các thử nghiệm của chúng
hàm toán học tham số hóa hình thức. Các đặc tính chất lượng và hiệu
tôi (Phần 5) và thảo luận về chúng (Phần 6) ).
suất của biểu diễn toán học rất quan trọng đối với độ trung thực về
mặt hình ảnh: chúng tôi mong muốn các biểu diễn vẫn nhanh và gọn
2 NỀN TẢNG VÀ CÔNG TRÌNH LIÊN QUAN
trong khi thu được chi tiết cục bộ, tần số cao. Các chức năng được
biểu thị bằng các tri giác nhiều lớp (MLP), được sử dụng làm đồ họa Các ví dụ ban đầu về mã hóa đầu vào của mô hình học máy vào không gian

thần kinh nguyên thủy, đã được chứng minh là phù hợp với các tiêu nhiều chiều hơn bao gồm mã hóa một lần [Har-ris và Harris 2013] và thủ

chí này (ở mức độ khác nhau), ví dụ như biểu diễn hình dạng [Martel thuật hạt nhân [Theodoridis 2008] mà nhờ đó việc sắp xếp dữ liệu phức

et al. 2021; Park và cộng sự. 2019] và trường bức xạ [Liu et al. tạp có thể được phân tách tuyến tính .

2020; Mildenhall và cộng sự. 2020; Müller và cộng sự. 2020, 2021]. Đối với mạng lưới thần kinh, mã hóa đầu vào đã được chứng minh là hữu ích

Điểm chung quan trọng của các phương pháp này là mã hóa ánh xạ các trong các thành phần chú ý của kiến trúc lặp lại [Gehring et al. 2017] và sau

đầu vào của mạng thần kinh tới một không gian có chiều cao hơn, đây là đó là máy biến áp [Vaswani et al. 2017], nơi chúng giúp mạng lưới thần kinh

chìa khóa để trích xuất chất lượng gần đúng cao từ các mô hình nhỏ gọn. xác định vị trí mà nó hiện đang xử lý . Vaswani và cộng sự. [2017] mã hóa

Thành công nhất trong số các mã hóa này là các cấu trúc dữ liệu dành các vị trí vô hướng R dưới dạng chuỗi đa phân giải của các hàm sin và cos

riêng cho nhiệm vụ, có thể huấn luyện được [Liu et al. 2020; Takikawa N

và cộng sự. 2021] đảm nhận phần lớn nhiệm vụ học tập. Điều này cho phép 0 1 1
enc( ) = sin(2 ),tội(2 ), . . . ,tội lỗi(2 ),
sử dụng MLP nhỏ hơn, hiệu quả hơn. Tuy nhiên, các cấu trúc dữ liệu như
0 1 1
cos(2 ), cos(2 ), . . . , cos(2 ) . (1)
vậy dựa vào phương pháp phỏng đoán và sửa đổi cấu trúc (chẳng hạn như
cắt bớt, tách hoặc hợp nhất) có thể làm phức tạp quá trình huấn luyện, Điều này đã được áp dụng trong đồ họa máy tính để mã hóa mật độ âm
giới hạn phương pháp ở một tác vụ cụ thể hoặc hạn chế hiệu suất trên GPU lượng và trường ánh sáng thay đổi theo hướng không gian trong thuật
trong đó luồng điều khiển và truy đuổi con trỏ bị hạn chế. đắt. toán NeRF [Mildenhall et al. 2020]. Năm chiều của trường ánh sáng này
Chúng tôi giải quyết những mối lo ngại này bằng mã hóa băm đa độ phân giải của chúng tôi.
được mã hóa độc lập bằng công thức trên; điều này sau đó được mở rộng
ing, có tính thích ứng và hiệu quả, độc lập với nhiệm vụ. Nó sang các mặt sóng song song được định hướng ngẫu nhiên [Tancik et al.
được cấu hình chỉ bằng hai giá trị—số lượng tham số và độ phân 2020] và lọc mức độ chi tiết [Barron et al. 2021a]. Chúng ta sẽ gọi họ
giải tối đa tốt nhất mong muốn —mang lại chất lượng hiện đại mã hóa này là mã hóa tần số. Đáng chú ý, mã hóa tần số theo sau là phép
cho nhiều tác vụ khác nhau (Hình 1) sau vài giây huấn luyện. biến đổi tuyến tính đã được sử dụng trong các tác vụ đồ họa máy tính
Chìa khóa cho cả khả năng thích ứng và tính hiệu quả không phụ thuộc vào nhiệm vụ là
khác, chẳng hạn như xấp xỉ hàm hiển thị [Annen et al. 2007; Jansen và
hệ thống phân cấp đa độ phân giải của bảng Bavoil 2010].

băm: • Khả năng thích ứng: chúng tôi ánh xạ một tầng lưới tới các mảng Müller và cộng sự. [2019; 2020] đã đề xuất một biến thể liên tục của mã

vectơ đặc trưng có kích thước cố định tương ứng. Ở độ phân giải thô, hóa một điểm nóng dựa trên việc rasterizing một hạt nhân, mã hóa một đốm màu,

có ánh xạ 1:1 từ các điểm lưới đến các mục trong mảng. Ở độ phân có thể đạt được kết quả chính xác hơn so với mã hóa tần số trong các miền bị

giải cao, mảng được coi là bảng băm và được lập chỉ mục bằng hàm băm giới hạn với chi phí là quy mô đơn.

không gian , trong đó có nhiều điểm lưới bí danh cho mỗi mục nhập
Mã hóa tham số. Gần đây, các kết quả tiên tiến nhất đã đạt được nhờ
mảng. Những va chạm băm như vậy làm cho các gradient huấn luyện va
mã hóa tham số làm mờ ranh giới giữa cấu trúc dữ liệu cổ điển và các
chạm đạt mức trung bình, nghĩa là các gradient lớn nhất—những
phương pháp tiếp cận thần kinh. Ý tưởng là sắp xếp các tham số có thể
gradient phù hợp nhất với hàm mất mát—sẽ chiếm ưu thế. Do đó, các
huấn luyện bổ sung (ngoài trọng số và độ lệch) trong cấu trúc dữ liệu
bảng băm sẽ tự động ưu tiên các khu vực thưa thớt với chi tiết tỷ lệ quan trọng nhất.
phụ trợ, chẳng hạn như lưới [Chabra et al. 2020; Giang và cộng sự.
Không giống như công việc trước đây, không cần cập nhật cấu trúc cho cấu trúc dữ liệu
2020; Lưu và cộng sự. 2020; Mehta và cộng sự. 2021; Bành và cộng sự.
tại bất kỳ thời điểm nào trong quá trình đào tạo.
2020a; Sun và cộng sự. 2021; Tăng và cộng sự. 2018; Yu và cộng sự.
• Hiệu quả: tra cứu bảng băm của chúng tôi là O (1) và không yêu cầu luồng
2021a] hoặc một cái cây [Takikawa et al. 2021], đồng thời tra cứu và
điều khiển. Điều này ánh xạ tốt tới các GPU hiện đại, tránh hiện tượng
(tùy chọn) nội suy các tham số này tùy thuộc vào vectơ đầu vào x R .
phân kỳ thực thi và truy đuổi con trỏ nối tiếp vốn có trong quá trình duyệt cây.
Sự sắp xếp này đánh đổi dung lượng bộ nhớ lớn hơn để có chi phí tính
Các bảng băm cho tất cả các độ phân giải có thể được truy vấn song song.
toán nhỏ hơn: trong khi đối với mỗi gradient được truyền ngược qua
Chúng tôi xác thực mã hóa băm đa độ phân giải của mình trong bốn tác vụ đại
mạng, mọi trọng số trong mạng MLP được kết nối đầy đủ phải được cập
diện (xem Hình 1): (1) Hình
nhật, đối với các tham số mã hóa đầu vào có thể huấn luyện (“vectơ đặc
ảnh Gigapixel: MLP tìm hiểu ánh xạ từ tọa độ 2D sang màu RGB của hình ảnh có trưng”), chỉ một số lượng rất nhỏ bị ảnh hưởng. Ví dụ: với lưới vectơ
độ phân giải cao. đặc trưng 3D được nội suy ba chiều, chỉ cần cập nhật 8 điểm lưới như
(2) Hàm khoảng cách được ký hiệu thần kinh (SDF): MLP học cách ánh xạ từ tọa vậy cho mỗi mẫu được truyền ngược sang mã hóa. Theo cách này, mặc dù
độ 3D đến khoảng cách tới một bề mặt. tổng số tham số của mã hóa tham số cao hơn nhiều so với mã hóa đầu vào
(3) Bộ nhớ đệm bức xạ thần kinh (NRC): MLP tìm hiểu trường ánh sáng 5D của cố định, nhưng số lượng FLOP và quyền truy cập bộ nhớ cần thiết để cập
một cảnh nhất định từ thiết bị theo dõi đường dẫn Monte Carlo. nhật trong quá trình huấn luyện không tăng đáng kể. Bằng cách giảm
(4) Trường mật độ và bức xạ thần kinh (NeRF): MLP tìm hiểu mật độ 3D và kích thước của MLP, các mô hình tham số như vậy thường có thể được huấn
trường ánh sáng 5D của một cảnh nhất định từ các quan sát hình ảnh và các luyện để hội tụ nhanh hơn nhiều mà không làm giảm chất lượng gần đúng.
biến đổi phối cảnh tương ứng.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thời nguyên thủy với mã hóa băm đa độ phân giải • 102:3

(b) Tần số (c) Lưới dày đặc (d) Lưới dày đặc (e) Bảng băm (của chúng tôi) (f) Bảng băm (của chúng tôi)
(a) Không mã hóa
[Mildenhall và cộng sự. 2020] Độ phân giải đơn Đa độ phân giải = 2 14 = 2 19

411 k + 0 tham số 11:28 438k + 0 10k + 33,6M 10k + 16,3M 10k + 494k 10k + 12,6M

(mm:ss) / PSNR 18.56 12:45 / PSNR 22,90 1:09 / PSNR 22.35 1:26 / PSNR 23,62 1:48 / PSNR 22,61 1:47 / PSNR 24,58

Hình 2. Minh họa chất lượng tái thiết của các cấu trúc dữ liệu tham số và mã hóa khác nhau để lưu trữ các phần nhúng tính năng có thể đào tạo. Mỗi
cấu hình đã được đào tạo trong 11 000 bước bằng cách sử dụng triển khai NeRF nhanh của chúng tôi (Phần 5.4), chỉ thay đổi mã hóa đầu vào và kích thước MLP. Số lượng
các tham số có thể huấn luyện (trọng số MLP + tham số mã hóa), thời gian huấn luyện và độ chính xác tái tạo (PSNR) được hiển thị bên dưới mỗi hình ảnh. Mã hóa của chúng tôi (e)

với tổng số tham số có thể huấn luyện tương tự như cấu hình mã hóa tần số (b) huấn luyện nhanh hơn 8× , do có ít bản cập nhật cho
tham số và MLP nhỏ hơn. Việc tăng số lượng tham số (f) sẽ cải thiện hơn nữa độ chính xác của việc tái thiết mà không làm tăng đáng kể thời gian đào tạo.

Một cách tiếp cận tham số khác sử dụng phân mục cây của phần trong đó có mạng vectơ. Chúng được nối với nhau để tạo thành một không gian 16 chiều (giống như
R chính , lưới thần kinh bộ mã hóa tọa độ phụ trợ lớn (ACORN) [Martel et al. 2021] (c)) đầu vào mạng. Mặc dù có ít hơn một nửa số lượng

được đào tạo để xuất ra tính năng dày đặc của các tham số như (c), chất lượng tái tạo là tương tự nhau.

lưới trong nút lá xung quanh x. Những lưới tính năng dày đặc này, Nếu bề mặt quan tâm được biết đến một cách tiên nghiệm, thì cấu trúc dữ liệu như vậy

có thứ tự 10 000 mục, sau đó được nội suy tuyến tính, như như một quãng tám [Takikawa et al. 2021] hoặc lưới thưa thớt [Chabra et al.

ở Liu và cộng sự. [2020]. Cách tiếp cận này có xu hướng mang lại mức độ lớn hơn về 2020; Chibane và cộng sự. 2020; Hadadan và cộng sự. 2021; Giang và cộng sự. 2020; Lưu

khả năng thích ứng so với các mã hóa tham số trước đó, mặc dù et al. 2020; Bành và cộng sự. 2020a] có thể được sử dụng để loại bỏ những phần không sử dụng

với chi phí tính toán lớn hơn và chỉ có thể được khấu hao khi các tính năng trong lưới dày đặc. Tuy nhiên, trong cài đặt NeRF, các bề mặt

đủ nhiều đầu vào x rơi vào mỗi nút lá. chỉ xuất hiện trong quá trình đào tạo. NSVF [Liu và cộng sự. 2020] và một số

công việc đồng thời [Sun et al. 2021; Yu và cộng sự. 2021a] áp dụng chiến

Mã hóa tham số thưa thớt. Trong khi các mã hóa tham số hiện tại có xu lược nhiều giai đoạn, từ thô đến tinh trong đó các vùng của lưới tính năng được

hướng mang lại độ chính xác cao hơn nhiều so với các mã hóa không tham số. dần dần được tinh chế và loại bỏ khi cần thiết. Trong khi hiệu quả,
những người tiền nhiệm, chúng cũng có nhược điểm về hiệu quả và tính linh hoạt. Lưới điều này dẫn đến một quá trình đào tạo phức tạp hơn trong đó số lượng người dùng thưa thớt

dày đặc các tính năng có thể huấn luyện sẽ tiêu tốn nhiều bộ nhớ hơn cấu trúc dữ liệu phải được cập nhật định kỳ.

hơn trọng số của mạng nơ-ron. Để minh họa sự đánh đổi và để Phương pháp của chúng tôi—Hình 2 (e,f)—kết hợp cả hai ý tưởng để giảm thiểu chất thải.

thúc đẩy phương pháp của chúng tôi, Hình 2 cho thấy hiệu quả của việc tái thiết Chúng tôi lưu trữ các vectơ đặc trưng có thể huấn luyện được trong bảng băm không gian nhỏ gọn,

chất lượng của trường bức xạ thần kinh cho một số mã hóa khác nhau. có kích thước là một siêu tham số có thể được điều chỉnh để giao dịch

Nếu không có bất kỳ mã hóa đầu vào nào (a), mạng chỉ có thể số thông số cho chất lượng tái thiết. Nó cũng không dựa vào

tìm hiểu một chức năng khá trơn tru của vị trí, dẫn đến độ gần đúng của việc cắt tỉa dần dần trong quá trình đào tạo cũng như dựa trên kiến thức tiên nghiệm về

trường ánh sáng kém. Mã hóa tần số (b) cho phép hình học của cảnh. Tương tự với lưới đa độ phân giải trong (d),

cùng một mạng có kích thước vừa phải (8 lớp ẩn, mỗi lớp rộng 256) chúng tôi sử dụng nhiều bảng băm riêng biệt được lập chỉ mục ở các độ phân giải khác nhau,

để thể hiện khung cảnh chính xác hơn nhiều. Hình ảnh ở giữa (c) có đầu ra nội suy được ghép nối trước khi được truyền

ghép nối một mạng nhỏ hơn với một lưới dày đặc gồm 1283 vectơ thông qua MLP. Chất lượng tái thiết có thể so sánh được với
đặc trưng 16 chiều, nội suy ba chiều, với tổng số 33,6 triệu mã hóa lưới dày đặc, mặc dù có ít tham số hơn 20×.

các thông số có thể huấn luyện được. Một số lượng lớn các tham số có thể huấn luyện được có thể Không giống như công việc trước đây sử dụng hàm băm không gian [Teschner et al. 2003]

được cập nhật một cách hiệu quả vì mỗi mẫu chỉ ảnh hưởng đến 8 điểm lưới. để tái tạo 3D [Nießner et al. 2013], chúng tôi không xử lý rõ ràng các xung đột của

Tuy nhiên, lưới điện dày đặc gây lãng phí theo hai cách. Đầu tiên, nó phân bổ hàm băm bằng các phương tiện thông thường như thăm dò,

nhiều tính năng cho các khu vực không gian trống cũng như cho các khu vực đó xô, hoặc xích. Thay vào đó, chúng tôi dựa vào mạng lưới thần kinh để
3
gần bề mặt. Số lượng tham số tăng theo O ( ), trong khi học cách phân biệt các xung đột băm, tránh luồng điều khiển

bề mặt nhìn thấy được quan tâm có diện tích bề mặt chỉ tăng khi sự khác biệt, giảm độ phức tạp khi triển khai và cải thiện
2 ,
O ). Trong ví dụ này, lưới có độ phân giải 1283 nhưng chỉ có 53 807 hiệu suất. Một lợi ích hiệu suất khác là bố cục bộ nhớ có thể dự đoán được của các

( (2,57%) tế bào của nó chạm vào bề mặt nhìn thấy được. bảng băm độc lập với dữ liệu được lưu trữ.

Thứ hai, khung cảnh thiên nhiên thể hiện sự mượt mà, thúc đẩy việc sử dụng đại diện. Mặc dù hành vi lưu vào bộ nhớ đệm tốt thường khó đạt được
của sự phân rã đa độ phân giải [Chibane et al. 2020; Hadadan với cấu trúc dữ liệu dạng cây, bảng băm của chúng tôi có thể được tinh chỉnh cho

et al. 2021]. Hình 2 (d) cho thấy kết quả của việc sử dụng mã hóa trong chi tiết kiến trúc cấp thấp như kích thước bộ đệm.

các tính năng nội suy được lưu trữ trong tám lưới cùng vị trí với
nghị quyết từ 163 đến 1733 , mỗi cái chứa đặc điểm 2 chiều

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:4 • Müller và cộng sự.

1/ 0
= 2, = 1,5
0
1 (y; Φ)
2
3
4
= 1 5
02 y
6
7
= 0
1/ 1 0 4 ·
0
1
3 6 2
3
4
5
x
6
7
1 7

(1) Băm các đỉnh voxel (2) Tra cứu (3) Nội suy tuyến tính (4) Nối (5) Mạng nơ-ron

Hình 3. Minh họa mã hóa băm đa độ phân giải ở dạng 2D. (1) đối với tọa độ đầu vào x nhất định, chúng tôi tìm các voxels xung quanh ở mức độ phân giải và
gán chỉ số cho các góc của chúng bằng cách băm tọa độ nguyên của chúng. (2) đối với tất cả các chỉ số góc thu được, chúng ta tra cứu đặc điểm chiều tương ứng
vectơ từ bảng băm và (3) nội suy tuyến tính chúng theo vị trí tương đối của x trong voxel -th tương ứng. (4) chúng tôi nối
+
, trong đó (5) được đánh giá cuối cùng. Để huấn luyện mã hóa, mất mát
kết quả của từng cấp độ cũng như các đầu vào phụ trợ R , tạo ra đầu vào MLP được mã hóa R
độ dốc được truyền ngược thông qua MLP (5), phép nối (4), phép nội suy tuyến tính (3), sau đó được tích lũy trong các vectơ đặc trưng tra cứu.

Bảng 1. Các tham số mã hóa hàm băm và phạm vi của chúng trong kết quả của chúng tôi. Chỉ một x và x trải dài một voxel với 2 đỉnh nguyên trong Z . Chúng tôi lập bản đồ

kích thước bảng băm và tối đa. độ phân giải cần phải được điều chỉnh cho phù hợp với nhiệm vụ.
tối đa mỗi góc cho một mục trong mảng vectơ đặc trưng tương ứng của cấp độ,

Tham số Giá trị có kích thước cố định tối đa là . Đối với các cấp độ thô, nơi có lưới dày đặc
Biểu tượng
,
yêu cầu ít hơn tham số, tức là (+ 1) ≤ ánh xạ này
Số cấp độ tối đa. 16
14 24 là 1:1. Ở mức độ tốt hơn, chúng tôi sử dụng hàm băm ℎ : Z Z để lập chỉ mục
mục nhập cho mỗi cấp độ (kích thước bảng băm) 2 đến 2

2 vào mảng, xử lý nó một cách hiệu quả như một bảng băm, mặc dù có
Số lượng kích thước tính năng trên mỗi mục nhập
Độ phân giải thô nhất phút 16 không có xử lý va chạm rõ ràng. Thay vào đó, chúng tôi dựa vào phương pháp dựa trên độ dốc

Độ phân giải tốt nhất tối đa 512 đến 524288 tối ưu hóa để lưu trữ chi tiết thưa thớt thích hợp trong mảng và
mạng thần kinh tiếp theo (y; Φ) để giải quyết xung đột. Các
3 MÃ HÓA Băm ĐA NĂNG do đó số tham số mã hóa có thể huấn luyện được là O ( ) và
giới hạn bởi · · mà trong trường hợp của chúng ta luôn là · 16 · 2 (Bảng 1).
Với một mạng lưới thần kinh được kết nối đầy đủ (y; Φ), chúng ta quan tâm đến
Chúng tôi sử dụng hàm băm không gian [Teschner et al. 2003] có dạng
mã hóa đầu vào y = enc(x; ) giúp cải thiện chất lượng xấp xỉ và tốc độ huấn

luyện trên nhiều ứng dụng


ℎ(x) = mod , (4)
mà không phải chịu một chi phí hiệu suất đáng chú ý. Mạng lưới thần kinh của chúng ta

không chỉ có các tham số trọng số có thể huấn luyện được Φ mà còn có thể huấn luyện được =1

thông số mã hóa. Chúng được sắp xếp thành các cấp độ, mỗi cấp độ chứa các trong đó biểu thị phép toán XOR theo bit và là duy nhất,

vectơ đặc trưng có chiều. Giá trị điển hình số nguyên tố lớn. Thực tế, công thức này XOR kết quả

đối với các siêu tham số này được thể hiện trong Bảng 1. Hình 3 minh họa của một hoán vị tuyến tính đồng dư (giả ngẫu nhiên) theo chiều [Lehmer

các bước được thực hiện trong mã hóa băm đa độ phân giải của chúng tôi. Mỗi 1951], giải tương quan tác động của các chiều lên

cấp độ (hai trong số đó được hiển thị là màu đỏ và xanh lam trong giá trị băm. Đáng chú ý, để đạt được (giả) độc lập, chỉ
hình) là độc lập và lưu trữ các vectơ đặc trưng ở các đỉnh của một 1 trong các chiều phải được hoán vị nên ta chọn 1 := 1
để có sự kết hợp bộ nhớ đệm tốt hơn, 2 = 2 654 435 761 và 3 = 805 459 861.
lưới, độ phân giải được chọn là cấp số nhân
Cuối cùng, các vectơ đặc trưng ở mỗi góc được nội suy tuyến tính theo
giữa độ phân giải thô nhất và tốt nhất [ min, max]:
vị trí tương đối của x trong siêu khối của nó,
:= phút · , (2)
tức là trọng số nội suy là w := x x .
ln ln Hãy nhớ lại rằng quá trình này diễn ra độc lập đối với mỗi
:= điểm kinh nghiệm
tối đa phút . (3)
1 cấp độ. Các vectơ đặc trưng được nội suy của từng cấp độ, cũng như

đầu vào phụ R (chẳng hạn như hướng nhìn được mã hóa và
được chọn sao cho phù hợp với chi tiết tốt nhất trong dữ liệu huấn luyện. Quá hạn
tối đa
kết cấu trong bộ nhớ đệm rạng rỡ thần kinh), được nối với nhau để tạo ra
đối với số lượng lớn các cấp độ ,thì hệ số tăng trưởng thường nhỏ.
y R + ,đó là enc(x; ) đầu vào được mã hóa thành MLP (y; Φ).
Các trường hợp sử dụng của chúng tôi có [1.26, 2].

Hãy xem xét một cấp độ duy nhất. Tọa độ đầu vào x R được chia tỷ lệ Hiệu suất so với chất lượng. Việc chọn kích thước bảng băm cung cấp một
theo độ phân giải lưới của mức đó trước khi làm tròn xuống và lên x := đánh đổi giữa hiệu suất, bộ nhớ và chất lượng. Giá trị cao hơn
x · , x := x · . dẫn đến chất lượng cao hơn và hiệu suất thấp hơn. Kí ức

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thời nguyên thủy với mã hóa băm đa độ phân giải • 102:5

Hình ảnh gigapixel SDF NeRF

50 24 = 2
30 21 = 2
19 = 2
35

19 = 2
40
25

(dB)
PSNR
21 = 2
19 = 2
(dB)
PSNR

14 = 2

(dB)
16 = 2

BẢN
ĐỒ
30
30 Sao Diêm Vương
20 Đồng hồ
14 = 2
Sao Hoả Con thằn lằn Lego

Tokyo Người đàn ông có râu Tàu thủy

0 100 200 0 50 100 150 0 100 200 300

Thời gian đào tạo (giây) Thời gian đào tạo (giây) Thời gian đào tạo (giây)

Hình 4. Đường cong chính vẽ biểu đồ lỗi kiểm tra theo thời gian huấn luyện đối với kích thước bảng băm khác nhau xác định số lượng tham số mã hóa có thể huấn luyện.
19
Việc tăng cải thiện khả năng tái thiết, với chi phí sử dụng bộ nhớ cao hơn cũng như quá trình đào tạo và suy luận chậm hơn. Vách đá hiệu suất hiển thị ở mức > 2, bộ Ở đâu

nhớ đệm của GPU RTX 3090 của chúng tôi bị đăng ký quá mức (đặc biệt hiển thị đối với SDF và NeRF). Đồ thị cũng cho thấy sự hội tụ của mô hình theo thời gian dẫn đến trạng thái

cuối cùng. Điều này nhấn mạnh kết quả chất lượng cao đã đạt được chỉ sau vài giây. Các bước nhảy trong quá trình hội tụ (có thể thấy rõ nhất khi kết thúc quá trình đào tạo SDF)

là do tốc độ học tập bị suy giảm. Đối với hình ảnh NeRF và Gigapixel, quá trình đào tạo kết thúc sau 31 000 bước và đối với SDF sau 11 000 bước.

Hình ảnh gigapixel: Tokyo Chức năng khoảng cách đã ký: Bò Trường bức xạ thần kinh: Lego

40 = 32 22
= 16 = 32 = 32
36
= 16 = 16
= 8
35
21
= 8 35 = 8
(dB)
PSNR

30 F=1 F=1 F=1

(dB)
PSNR
= 4
(dB)
BẢN
ĐỒ

F=2 F=2 34 F=2


= 4
F=4 F=4 F=4
25 20
F=8 F=8 33 F=8
= 2 = 4

200 300 400 60 80 100 200 300 400 500

Thời gian đào tạo (giây) Thời gian đào tạo (giây) Thời gian đào tạo (giây)

Hình 5. Lỗi kiểm tra theo thời gian đào tạo đối với các giá trị cố định của chiều đối tượng khi số lượng cấp độ bảng băm thay đổi. Để duy trì mức gần bằng nhau cho SDF và NeRF,
24
huấn luyện được, kích thước bảng băm được đặt theo · gần với hiệu suất và chất · = 2 trong khi hình ảnh gigapixel sử dụng 2 28. Vì ( = 2, = 16) số lượng tham số có thể

lượng trong trường hợp tốt nhất (top- left) cho tất cả các ứng dụng, chúng tôi sử dụng cấu hình này trong tất cả các kết quả. = 1 chậm trên GPU RTX 3090 của chúng tôi vì việc

tích lũy độ chính xác nửa nguyên tử chỉ hiệu quả đối với vectơ 2D chứ không hiệu quả đối với vectơ vô hướng. Đối với hình ảnh NeRF và Gigapixel, quá trình đào tạo kết thúc sau

31 000 bước trong khi SDF hoàn thành ở 11 000 bước.

dấu chân là tuyến tính trong ,


khi chất lượng và hiệu suất có xu hướng mở rộng tuyến có tọa độ nguyên bằng nhau x không được coi là va chạm; xung đột
tính. Chúng tôi phân tích tác động của trong Hình 4, trong đó chúng tôi báo cáo xảy ra khi các tọa độ số nguyên khác nhau băm thành cùng một chỉ mục.
lỗi kiểm tra so với thời gian đào tạo đối với một loạt các giá trị - cho ba nguyên May mắn thay, những va chạm như vậy được phân tán ngẫu nhiên trong
hàm đồ họa thần kinh. Chúng tôi khuyên những người thực hành nên sử dụng để điều không gian và về mặt thống kê khó có thể xảy ra đồng thời ở mọi cấp
chỉnh mã hóa theo đặc điểm hiệu suất mong muốn của họ. độ đối với một cặp điểm nhất định.
Các siêu tham số (số cấp độ) và (số lượng kích thước tính năng) cũng đánh đổi Khi các mẫu huấn luyện va chạm theo cách này, độ dốc của chúng sẽ trung bình.

chất lượng và hiệu suất mà chúng tôi phân tích để có số lượng tham số mã hóa có Hãy cân nhắc rằng tầm quan trọng của việc tái tạo cuối cùng các mẫu
thể huấn luyện gần như không đổi trong Hình 5. Trong phân tích này, chúng tôi đã như vậy hiếm khi ngang nhau. Ví dụ: một điểm trên bề mặt nhìn thấy
tìm thấy ( = 2, = 16) là mức tối ưu Pareto thuận lợi trong tất cả các ứng dụng của được của trường bức xạ sẽ đóng góp mạnh mẽ vào hình ảnh được tái tạo
chúng tôi, vì vậy chúng tôi sử dụng các giá trị này trong tất cả các kết quả khác (có khả năng hiển thị cao và mật độ cao, cả hai đều ảnh hưởng gấp bội
và đề xuất chúng làm mặc định. đến độ lớn của độ dốc) gây ra những thay đổi lớn cho các mục trong
bảng của nó, trong khi một điểm trong không gian trống điều đó xảy

Giải quyết xung đột băm ngầm. Có vẻ phản trực giác khi mã hóa này ra liên quan đến cùng một mục sẽ có trọng số nhỏ hơn nhiều. Kết quả

có thể tái tạo lại các cảnh một cách trung thực khi có xung đột băm. là, độ dốc của các mẫu quan trọng hơn chiếm ưu thế trong giá trị

Chìa khóa thành công của nó là các mức độ phân giải khác nhau có trung bình va chạm và mục nhập bảng bí danh sẽ tự nhiên được tối ưu

những điểm mạnh khác nhau bổ sung cho nhau. Các mức thô hơn, và do hóa theo cách phản ánh nhu cầu của điểm có trọng số cao hơn.

đó toàn bộ quá trình mã hóa, có tính chất xâm nhập - nghĩa là chúng Khía cạnh đa độ phân giải của mã hóa băm bao trùm toàn bộ phạm vi từ độ phân

không hề bị xung đột. Tuy nhiên, chúng chỉ có thể biểu diễn phiên bản giải thô tối thiểu được đảm bảo không có xung đột đến độ phân giải tốt nhất mà tác

có độ phân giải thấp của cảnh vì chúng cung cấp các tính năng được vụ yêu cầu. Qua đó, nó đảm bảo rằng tất cả các quy mô mà việc học tập có ý nghĩa
tối đa

nội suy tuyến tính từ một lưới các điểm có khoảng cách rộng rãi. có thể diễn ra đều được đưa vào, bất kể mức độ thưa thớt. Chia tỷ lệ hình học cho

Ngược lại, mức độ tinh tế có thể nắm bắt được các đối tượng địa lý phép bao phủ các tỷ lệ này chỉ với nhiều cấp độ O log ( tối đa/ phút) , cho phép

nhỏ do độ phân giải lưới tốt của chúng, nhưng lại gặp phải nhiều xung chọn một giá trị lớn vừa phải cho

đột—tức là, các điểm khác nhau được băm vào cùng một mục trong bảng. Đầu vào lân cận tối đa.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:6 • Müller và cộng sự.

Khả năng thích ứng trực tuyến. Lưu ý rằng nếu việc phân phối đầu vào x Số thứ nguyên tính năng tối ưu cho mỗi lần tra cứu tùy thuộc vào kiến trúc GPU. Một

thay đổi theo thời gian trong quá trình huấn luyện, chẳng hạn như nếu chúng mặt, một số ít ủng hộ vị trí bộ đệm trong phương pháp phát trực tuyến đã đề cập trước

tập trung ở một vùng nhỏ, thì các cấp độ lưới tốt hơn sẽ gặp ít va chạm hơn đó, nhưng mặt khác, một số lớn ủng hộ sự kết hợp bộ nhớ bằng cách cho phép các hướng

và có thể học được một hàm chính xác hơn. Nói cách khác, mã hóa băm đa độ dẫn tải vectơ -wide. = 2 đã mang lại cho chúng tôi sự cân bằng chi phí-chất lượng tốt

phân giải tự động thích ứng với việc phân phối dữ liệu huấn luyện, kế thừa nhất (xem Hình 5) và chúng tôi sử dụng nó trong tất cả các thử nghiệm.

các lợi ích của mã hóa dựa trên cây [Takikawa et al. 2021] không có bảo trì

cấu trúc dữ liệu dành riêng cho nhiệm vụ có thể gây ra các bước nhảy rời rạc
Ngành kiến trúc. Trong tất cả các tác vụ, ngoại trừ NeRF mà chúng tôi sẽ mô tả sau,
trong quá trình đào tạo. Một trong những ứng dụng của chúng tôi, bộ nhớ đệm
chúng tôi sử dụng MLP với hai lớp ẩn có chiều rộng 64 nơ -ron, các hàm kích hoạt đơn vị
rạng rỡ thần kinh trong Phần 5.3, liên tục thích ứng với các góc nhìn hoạt
tuyến tính được chỉnh lưu (ReLU) trên các lớp ẩn của chúng và lớp đầu ra tuyến tính. Độ
hình và nội dung 3D, được hưởng lợi rất nhiều từ tính năng này.
phân giải tối đa được đặt thành kích thước cảnh 2048 × cho các chức năng NeRF và khoảng

đệm tối đa cách đã ký , bằng một nửa chiều rộng hình ảnh gigapixel và 2 trong bộ nhớ
19
-phép nội suy tuyến tính. Việc nội suy các mục trong bảng băm được truy vấn đảm rạng rỡ (giá trị lớn để hỗ trợ các đối tượng ở gần trong các cảnh mở rộng).

bảo rằng mã hóa enc(x; ), và theo quy tắc chuỗi, thành phần của nó với mạng thần kinh

(enc(x; ); Φ), là liên tục.


Khởi tạo. Chúng tôi khởi tạo trọng số mạng nơ-ron theo Glorot và Bengio
Nếu không có phép nội suy, sự gián đoạn theo lưới sẽ xuất hiện ở đầu ra của
[2010] để cung cấp tỷ lệ kích hoạt hợp lý và độ dốc của chúng trên khắp các
mạng, điều này sẽ dẫn đến hình dạng khối không mong muốn. Người ta có thể
lớp của mạng nơ-ron. Chúng tôi khởi tạo các mục trong bảng băm bằng cách sử
mong muốn độ trơn bậc cao hơn, ví dụ như khi tính gần đúng các phương trình
dụng phân bố đều U ( 10 4 , 10 4 ) để cung cấp một lượng nhỏ tính ngẫu
vi phân từng phần. Một ví dụ cụ thể từ đồ họa máy tính là các hàm khoảng cách
nhiên đồng thời khuyến khích các dự đoán ban đầu gần bằng 0. Chúng tôi cũng
có dấu, trong trường hợp đó gradient (enc(x; ); Φ)/ x, tức là bề mặt pháp
đã thử nhiều cách phân phối khác nhau, bao gồm cả việc khởi tạo bằng 0, tất
tuyến, lý tưởng nhất cũng là liên tục. Nếu độ mượt bậc cao phải được đảm bảo,
cả đều dẫn đến tốc độ hội tụ ban đầu kém hơn một chút. Bảng băm có vẻ phù hợp
chúng tôi mô tả cách tiếp cận chi phí thấp trong Phụ lục A, tuy nhiên chúng
với sơ đồ khởi tạo.
tôi không sử dụng trong bất kỳ kết quả nào do chất lượng tái thiết giảm đi

một chút.

Đào tạo. Chúng tôi cùng huấn luyện các trọng số mạng nơ-ron và các mục trong bảng

4 THỰC HIỆN băm bằng cách áp dụng Adam [Kingma và Ba 2014], trong đó = 0,99, = 10 15, Việc lựa

nhưng giá trị nhỏ = chọn 1 và 2 khiến chúng tôi đặt 1 = 0,9, 2 chỉ khác biệt nhỏ,
Để chứng minh tốc độ của mã hóa băm đa độ phân giải, chúng tôi đã triển khai
10 15 có thể tăng tốc đáng kể sự hội tụ của các mục trong bảng băm khi độ dốc của
nó trong CUDA và tích hợp nó với các MLP được hợp nhất hoàn toàn nhanh chóng
chúng thưa thớt và yếu. Để ngăn chặn sự phân kỳ sau thời gian đào tạo dài, chúng tôi
của khung tiny-cuda-nn [Müller 2021].1 Chúng tôi phát hành mã nguồn của mã
áp dụng chính quy L2 yếu (hệ số 10 6 ) cho các trọng số của mạng thần kinh, nhưng
hóa băm đa độ phân giải dưới dạng bản cập nhật cho Müller [2021] và mã nguồn
không áp dụng cho các mục trong bảng băm.
liên quan đến đồ họa thần kinh nguyên thủy tại https://github.com/nvlabs/

instant-ngp.
Khi điều chỉnh hình ảnh gigapixel hoặc NeRF, chúng tôi sử dụng tổn thất L2 . Đối

Cân nhắc về hiệu suất. Để tối ưu hóa hiệu suất suy luận và lan truyền ngược, chúng với các hàm khoảng cách có dấu, chúng tôi sử dụng tỷ lệ phần trăm tuyệt đối trung
bình |dự đoán mục
tôi lưu trữ các mục trong bảng băm với độ chính xác chỉ bằng một nửa (2 byte cho mỗi tiêu| lỗi (MAPE), được định nghĩa là và dành cho bức xạ,thần kinh |target| + Bộ nhớ
đệm 0,01 ,
mục nhập). Ngoài ra, chúng tôi còn duy trì một bản sao chính của các tham số với độ
chúng tôi sử dụng tổn thất L2 tương đối độ chói [Müller et al. 2021].
chính xác hoàn toàn để cập nhật tham số có độ chính xác hỗn hợp ổn định, theo
Chúng tôi đã quan sát thấy sự hội tụ nhanh nhất với tốc độ học tập là
Micikevicius et al. [2018].
10 4 đối với các hàm khoảng cách đã ký và 10 2 nếu không, cũng như kích thước lô
14 18 nếu không thì.
Để sử dụng tối ưu bộ nhớ đệm của GPU, chúng tôi đánh giá bảng băm theo cấp trên 2
cho bộ nhớ đệm rạng rỡ thần kinh và 2
độ: khi xử lý một loạt vị trí đầu vào, chúng tôi lập lịch tính toán để tra
Cuối cùng, chúng tôi bỏ qua các bước Adam đối với các mục trong bảng băm có độ dốc
cứu cấp độ đầu tiên của mã hóa băm đa độ phân giải cho tất cả đầu vào, tiếp
chính xác bằng 0. Điều này giúp tiết kiệm 10% hiệu suất khi độ dốc thưa thớt, điều
theo là cấp độ thứ hai cho tất cả các đầu vào, v.v. Do đó, chỉ một số lượng
này thường xảy ra với BatchSize. Mặc dù phương pháp phỏng đoán này vi phạm một số
nhỏ các bảng băm liên tiếp phải nằm trong bộ đệm tại bất kỳ thời điểm nào,
giả định đằng sau Adam, nhưng chúng tôi quan sát thấy không có sự suy giảm về độ hội tụ.
tùy thuộc vào mức độ song song có sẵn trên GPU. Điều quan trọng là cấu trúc

tính toán này tự động tận dụng tốt các bộ nhớ đệm và tính song song có sẵn
Kích thước đầu vào phi không gian R . Hàm băm đa độ phân giải
cho nhiều kích cỡ bảng băm.
mã hóa mục tiêu tọa độ không gian với chiều tương đối thấp . Tất cả các

Trên phần cứng của chúng tôi, hiệu suất mã hóa vẫn được duy trì thử nghiệm của chúng tôi đều hoạt động ở dạng 2D hoặc 3D. Tuy nhiên,
19
gần như không đổi miễn là kích thước bảng băm vẫn ở dưới 2. Ngoài ngưỡng này, hiệu . việc nhập các kích thước phụ R vào mạng thần kinh thường rất hữu

suất bắt đầu giảm đáng kể; xem Hình 4. Điều này được giải thích là do bộ nhớ đệm L2 6 ích , chẳng hạn như hướng nhìn và các thông số vật liệu khi tìm hiểu

MB của GPU NVIDIA RTX 3090 của chúng tôi, bộ đệm này trở nên quá nhỏ đối với các cấp độ trường ánh sáng. Trong những trường hợp như vậy, các kích thước phụ có

riêng lẻ khi · > 6 · 2 20, với 2 là kích thước của mục nhập có độ chính xác một nửa. thể được mã hóa bằng các kỹ thuật đã được thiết lập mà chi phí của chúng
2 · không tăng theo tỷ lệ siêu tuyến tính theo chiều; chúng tôi sử dụng mã
hóa một đốm [Müller et al. 2019] về bộ nhớ đệm bức xạ thần kinh [Müller
1Chúng tôi quan sát thấy tốc độ tăng lên ở mức 10× so với cách triển khai Python đơn giản.
Do đó, chúng tôi cũng phát hành các liên kết PyTorch xung quanh mã hóa băm của mình và các MLP được hợp
et al. 2021] và cơ sở sóng hài hình cầu trong NeRF, tương tự như nghiên
nhất hoàn toàn để cho phép sử dụng chúng trong các dự án hiện có với ít chi phí. cứu đồng thời [Verbin et al. 2021; Yu và cộng sự. 2021a].

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thì với mã hóa băm đa độ phân giải • 102:7

Kích thước bảng băm: = 2 22


22 = 2 12 = 2 17 = 2 22 = 2 Thẩm quyền giải quyết

12
Hình 6. Xấp xỉ hình ảnh RGB có độ phân giải 20 000 × 23 466 (469 M pixel RGB) bằng mã hóa băm đa độ phân giải của chúng tôi. Với kích thước bảng băm là 2 2 17 và mô hình 2 đạt được PSNR tái ,
22
tạo là 29,8 các mô hình hiển thị có các tham số có thể huấn luyện lần lượt là 117 k, 2,7 M và 47,5 M. Chỉ với 3,4% bậc tự do của đầu vào, cuối cùng
dB. Cải tạo “Cô gái đeo bông tai ngọc trai” ©Koorosh Orooj (CC BY-SA 4.0)

5 THÍ NGHIỆM ứng dụng chúng tôi điều tra trong phần này. Để làm cơ sở, chúng tôi so sánh
với NGLOD [Takikawa et al. 2021], đạt được kết quả tiên tiến cả về chất
Để làm nổi bật tính linh hoạt và chất lượng cao của mã hóa, chúng tôi so
lượng và tốc độ bằng cách đặt trước MLP nhỏ của nó với việc tra cứu từ một
sánh nó với các mã hóa trước đó trong bốn nguyên mẫu đồ họa máy tính riêng
quãng tám vectơ đặc trưng có thể đào tạo được. Việc tra cứu dọc theo hệ
biệt được hưởng lợi từ mã hóa tọa độ không gian.
thống phân cấp của octree này hoạt động tương tự như dãy lưới đa độ phân

giải của chúng tôi : chúng là một dạng tương tự không có xung đột với kỹ
5.1 Xấp xỉ hình ảnh Gigapixel Học cách ánh xạ tọa
thuật của chúng tôi, với hệ số tăng trưởng cố định = 2. Để cho phép so sánh
độ hình ảnh sang màu sắc từ 2D sang RGB đã trở thành một chuẩn mực phổ biến để kiểm
có ý nghĩa cả về hiệu suất và chất lượng, chúng tôi đã triển khai phiên
tra khả năng của mô hình trong việc thể hiện chi tiết tần số cao [Martel et al.
bản NGLOD được tối ưu hóa trong khuôn khổ của chúng tôi, chi tiết mà chúng
2021; Müller và cộng sự.
tôi mô tả trong Phụ lục B. Chi tiết liên quan đến đào tạo SDF theo thời
2019; Sitzmann và cộng sự. 2020; Tancik và cộng sự. 2020]. Những đột phá
gian thực được mô tả trong Phụ lục C.
gần đây trong mạng tọa độ thích ứng (ACORN) [Martel et al. 2021] đã cho
Trong Hình 7, chúng tôi so sánh NGLOD với mã hóa băm đa độ phân giải của
thấy kết quả ấn tượng khi điều chỉnh những hình ảnh rất lớn—lên đến một tỷ
chúng tôi với số lượng tham số gần bằng nhau. Chúng tôi cũng trình bày một
pixel—với độ trung thực cao ở cả những tỷ lệ nhỏ nhất. Chúng tôi nhắm mục
ứng dụng đơn giản của mã hóa tần số [Mildenhall et al. 2020] để cung cấp
tiêu mã hóa băm đa độ phân giải của mình vào cùng một tác vụ và hội tụ
đường cơ sở, chi tiết về đường cơ sở này có trong Phụ lục D. Bằng cách sử
thành hình ảnh có độ trung thực cao trong vài giây đến vài phút (Hình 4).
dụng cấu trúc dữ liệu được điều chỉnh theo hình dạng tham chiếu, NGLOD đạt
Để so sánh, trên toàn cảnh Tokyo từ Hình 1, ACORN đạt PSNR là 38,59 dB
được chất lượng tái tạo hình ảnh cao nhất. Tuy nhiên, ngay cả khi không có
sau 36,9 giờ luyện tập. Với số lượng tham số tương tự ( = 2 24), phương pháp
cấu trúc dữ liệu chuyên dụng như vậy, mã hóa của chúng tôi vẫn tiếp cận độ
của chúng tôi đạt được PSNR tương tự sau 2,5 phút huấn luyện, đạt cực đại
trung thực tương tự với NGLOD về mặt chỉ số giao nhau trên liên kết (IoU2 )
41,9 dB sau 4 phút.
với hiệu suất và chi phí bộ nhớ tương tự.
Hình 6 thể hiện mức độ chi tiết có trong mô hình của chúng tôi đối với nhiều
Hơn nữa, SDF được xác định ở mọi nơi trong
kích thước bảng băm khác nhau trên một hình ảnh khác.
khối lượng đào tạo, trái ngược với NGLOD, chỉ
Rất khó để so sánh trực tiếp hiệu suất mã hóa của chúng tôi với ACORN;
được xác định trong octree (tức là gần bề
hệ số 10 bắt nguồn từ việc chúng tôi sử dụng nhân CUDA hợp nhất hoàn toàn,
mặt). Điều này cho phép sử dụng các kỹ thuật
được cung cấp bởi khung tiny-cuda-nn [Müller 2021].
kết xuất SDF nhất định như bóng mềm gần đúng
Mã hóa đầu vào cho phép sử dụng MLP nhỏ hơn nhiều so với ACORN, chiếm phần
từ một số lượng nhỏ các mẫu khoảng cách ngoài
lớn tốc độ tăng tốc 10×–
100× còn lại . Điều đó nói lên rằng, chúng tôi tin
bề mặt [Evans 2006], như thể hiện trong hình
rằng giá trị gia tăng lớn nhất của mã hóa băm đa độ phân giải là tính đơn bên cạnh.
giản của nó. ACORN dựa vào phân khu thích ứng của cảnh như một phần của

chương trình học tập, không điều nào trong số đó là cần thiết với mã hóa

của chúng tôi.


Để nhấn mạnh sự khác biệt giữa các phương pháp được so sánh, chúng tôi

trực quan hóa SDF bằng mô hình tô bóng. Màu sắc thu được rất nhạy cảm với
5.2 Hàm khoảng cách đã ký Hàm khoảng cách đã những thay đổi nhỏ trên bề mặt bình thường, điều này nhấn mạnh những dao

ký (SDF), trong đó hình dạng 3D được biểu diễn dưới dạng tập mức 0 của hàm ở vị động nhỏ trong dự đoán mạnh hơn so với các đồ họa nguyên thủy khác nơi màu

trí x, được sử dụng trong nhiều ứng dụng bao gồm mô phỏng, lập kế hoạch đường đi, sắc được dự đoán trực tiếp. Độ nhạy này cho thấy cấu trúc vi mô không mong

mô hình hóa 3D và trò chơi điện tử. DeepSDF [Park và cộng sự. 2019] sử dụng MLP muốn trong mã hóa băm của chúng tôi trên thang đo

lớn để thể hiện một hoặc nhiều SDF cùng một lúc. Ngược lại, khi chỉ cần một SDF
2
IoU là tỷ lệ thể tích của phần bên trong giao điểm và phần giao của cặp hình
phù hợp, mã hóa được học theo không gian, chẳng hạn như mã hóa của chúng tôi có
được so sánh. IoU luôn bằng 1 với mức độ phù hợp hoàn hảo tương ứng với = 1.
thể được sử dụng và MLP bị thu hẹp đáng kể. Đây là Chúng tôi đo IoU bằng cách so sánh các dấu hiệu của SDF ở 128 triệu điểm được phân bố
đồng đều trong hộp giới hạn của cảnh.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:8 • Müller và cộng sự.

Băm (của chúng tôi) Băm NGLOD (của chúng tôi) Tính thường xuyên Tính thường xuyên Băm (của chúng tôi) NGLOD Băm (của chúng tôi)

12,2 triệu 124,9k 124,9k 12,2 triệu 16,0 triệu


22,3 M (thông số)
1:56 (mm:ss) 1:14 1:32 2:10 1:54 1:49

0,9777 (IoU) 0,9812 0,8432 0,9898 0,9997 0,9998

11,1 M (thông số) 12.2 M 124.9k 124.9k 12,2 24,2 triệu

1:37 (mm:ss) 1:19 1:35 1:21 phút 1:04 1:50

0,9911 (IOU) 0,9872 0,8470 0,7575 0,9691 0,9749

Hình 7. Các hàm khoảng cách được ký hiệu thần kinh được huấn luyện trong 11 000 bước. Mã hóa tần số [Mildenhall et al. 2020] đấu tranh để nắm bắt được các chi tiết sắc nét trên

những mô hình phức tạp này NGLOD [Takikawa và cộng sự. 2021] đạt được chất lượng hình ảnh cao nhất, với chi phí chỉ đào tạo SDF bên trong các tế bào của một thiết bị gần gũi

quãng tám. Mã hóa băm của chúng tôi thể hiện chất lượng số tương tự về mặt giao nhau trên liên kết (IoU) và có thể được đánh giá ở bất kỳ đâu trong cảnh. Tuy nhiên, nó

cũng thể hiện độ nhám bề mặt không mong muốn về mặt trực quan mà chúng tôi cho là do va chạm băm phân bố ngẫu nhiên. Người đàn ông có râu ©Oliver Laric (CC BY-NC-SA 2.0)

Bộ đệm tính năng

Màu dự đoán Trình theo dõi đường dẫn thưa thớt theo thời gian thực

Trực tuyến

được giám sát


enc( ; ); Φ
đào tạo

Hình 8. Tóm tắt ứng dụng bộ nhớ đệm rạng rỡ thần kinh [Müller et al. 2021]. Mã MLP ( ; ); Φ được giao nhiệm vụ dự đoán màu sắc pixel quang học
từ bộ đệm tính năng độc lập cho từng pixel. Bộ đệm tính năng chứa, trong số các biến khác, vị trí x trong không gian thế giới mà chúng tôi đề xuất mã hóa
với phương pháp của chúng tôi. Bộ nhớ đệm bức xạ thần kinh là một ứng dụng đầy thách thức vì nó được giám sát trực tuyến trong quá trình hiển thị theo thời gian thực. Dữ liệu huấn luyện còn thưa thớt

tập hợp các đường dẫn ánh sáng liên tục xuất hiện từ chế độ xem camera. Như vậy, mạng nơ-ron và mã hóa không học ánh xạ chung từ các đối tượng địa lý.

để tô màu, mà đúng hơn là chúng liên tục quá phù hợp với hình dạng và ánh sáng hiện tại. Để hỗ trợ nội dung hoạt hình, quá trình đào tạo có ngân sách là một mili giây cho mỗi khung hình.

Mã hóa băm đa độ phân giải (của chúng tôi), = 15, 133 FPS Mã hóa sóng tam giác [Müller et al. 2021], 147 FPS

Nhìn xa Chế độ xem trung bình


Chế độ xem cận cảnh Nhìn xa Chế độ xem trung bình Chế độ xem cận cảnh

Hình 9. Bộ nhớ đệm bức xạ thần kinh [Müller et al. 2021] đạt được chất lượng được cải thiện nhiều từ mã hóa băm đa độ phân giải chỉ với hiệu suất nhẹ
hình phạt: 133 so với 147 khung hình mỗi giây ở độ phân giải 1920×1080px. Để chứng minh khả năng thích ứng trực tuyến của nhiều độ phân giải băm so với trước đó
mã hóa sóng tam giác, chúng tôi hiển thị ảnh chụp màn hình từ chuyển động mượt mà của máy ảnh bắt đầu bằng chế độ xem cảnh từ xa (trái) và phóng to đến chế độ cận cảnh
hình ảnh của một cái bóng phức tạp (phải). Trong suốt chuyển động của máy ảnh, chỉ mất vài giây, bộ đệm ánh sáng thần kinh liên tục học hỏi từ các dữ liệu thưa thớt.
đường dẫn camera, cho phép bộ nhớ đệm tìm hiểu chi tiết phức tạp (“overfit”) ở quy mô nội dung mà camera đang quan sát trong giây lát.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thời nguyên thủy với mã hóa băm đa độ phân giải • 102:9

Trường bức xạ thần kinh: Lego Của chúng tôi (MLP) tuyến tính MLP Thẩm quyền giải quyết

36,5

tế bào thần kinh


= 128 tế bào thần kinh
= 256
36 tế bào thần kinh
= 64
(dB)
PSNR

tế bào thần kinh


= 32
lớp
= 1
35,5 = 2
lớp
lớp
= 3
tế bào thần kinh
= 16

200 300 400 500 600 700

Thời gian đào tạo (giây)

Hình 10. Ảnh hưởng của kích thước MLP đến lỗi kiểm tra so với thời gian huấn luyện (31 000 Hình 11. Cung cấp kết quả mã hóa của chúng tôi thông qua phép biến đổi tuyến tính

các bước đào tạo) trên cảnh Lego. Các cảnh khác hoạt động gần như giống hệt nhau. (không có mạng thần kinh) so với MLP khi học NeRF. Các mô hình
Mỗi đường cong biểu thị một độ sâu MLP khác nhau, trong đó MLP màu có đã được đào tạo trong 1 phút. MLP cho phép giải quyết các chi tiết cụ thể và

lớp ẩn và mật độ MLP có 1 lớp ẩn; chúng ta không giảm lượng nhiễu nền do va chạm băm. Bởi vì
các

lớp quan sát thấy sự cải thiện với MLP mật độ sâu hơn. Những đường cong quét qua quy mô nhỏ và việc triển khai MLP hiệu quả, nó chỉ tăng thêm 15%
số lượng tế bào thần kinh các lớp ẩn của MLP mật độ và màu sắc từ 16 đắt tiền—cũng xứng đáng với chất lượng được cải thiện đáng kể.

đến 256. Dựa trên phân tích này, chúng tôi chọn = 2 và = 64.
lớp tế bào thần kinh

chức năng mà chúng tôi thể hiện bằng một kiến trúc mạng nơ-ron tương tự như
có độ phân giải lưới tốt nhất, không có trong NGLOD và có
Mildenhall et al. [2020]. Chúng tôi đào tạo mô hình theo những cách tương tự
không biến mất với thời gian đào tạo dài hơn. Vì NGLOD về cơ bản là một chất
như Mildenhall và cộng sự: bằng cách truyền ngược qua một tia vi phân
tương tự không có xung đột với mã hóa băm của chúng tôi, nên chúng tôi gán điều này
người diễu hành được điều khiển bởi hình ảnh 2D RGB từ các tư thế máy ảnh đã biết.
tạo tác để băm va chạm. Khi kiểm tra chặt chẽ, cấu trúc vi mô tương tự có thể được

nhìn thấy trong các đồ họa thần kinh nguyên thủy khác, mặc dù với Kiến trúc mô hình. Không giống như ba ứng dụng còn lại, NeRF của chúng tôi

cường độ thấp hơn đáng kể. mô hình bao gồm hai MLP được nối với nhau: một MLP mật độ theo sau
bởi một MLP màu [Mildenhall et al. 2020]. Bản đồ MLP mật độ
5.3 Bộ nhớ đệm bức xạ thần kinh vị trí được mã hóa băm y = enc(x; ) thành 16 giá trị đầu ra,

Trong bộ nhớ đệm rạng rỡ thần kinh [Müller et al. 2021], nhiệm vụ của MLP đầu tiên chúng tôi coi đó là mật độ không gian log. MLP màu thêm vào

là dự đoán màu sắc pixel quang học từ bộ đệm tính năng; xem Hình 8. MLP được chạy biến thể màu sắc phụ thuộc vào chế độ xem. Đầu vào của nó là sự nối của

độc lập cho từng pixel (tức là mô hình được • 16 giá trị đầu ra của MLP mật độ, và
không tích chập), do đó, bộ đệm tính năng có thể được xử lý theo từng pixel • hướng nhìn được chiếu lên 16 hệ số đầu tiên của
các vectơ đặc trưng chứa tọa độ 3D x cũng như phần bổ sung
cơ sở sóng hài hình cầu (tức là lên tới bậc 4). Đây là điều tự nhiên
các tính năng ý nghĩa. Do đó, chúng ta có thể áp dụng trực tiếp đa độ phân giải của mình Mã hóa tần số trên vectơ đơn vị
mã hóa băm thành x trong khi coi tất cả các tính năng bổ sung là phụ trợ
Đầu ra của nó là bộ ba màu RGB mà chúng tôi sử dụng sigmoid
kích thước được mã hóa được nối với vị trí được mã hóa,
kích hoạt khi dữ liệu huấn luyện có dải động thấp (sRGB) hoặc
sử dụng mã hóa tương tự như Müller et al. [2021]. Chúng tôi đã tích hợp
kích hoạt theo cấp số nhân khi nó có dải động cao (tuyến tính
nghiên cứu triển khai bộ nhớ đệm bức xạ thần kinh của Müller và cộng sự
HDR). Chúng tôi thích dữ liệu đào tạo HDR hơn do nó giống nhau hơn
và do đó hãy tham khảo bài viết của họ để biết chi tiết thực hiện.
đến sự vận chuyển ánh sáng vật lý. Điều này mang lại nhiều lợi ích như có
Để hiển thị quang học, bộ nhớ đệm bức xạ thần kinh thường chỉ được
cũng được ghi nhận trong nghiên cứu đồng thời [Mildenhall et al. 2021].
truy vấn để đóng góp đường dẫn gián tiếp, che dấu
Dựa trên phân tích trong Hình 10, kết quả của chúng tôi được tạo ra
lỗi tái thiết của nó đằng sau sự phản ánh đầu tiên. Ngược lại, chúng tôi
với MLP mật độ 1 lớp ẩn và MLP màu 2 lớp ẩn,
muốn nhấn mạnh đến lỗi của bộ nhớ đệm bức xạ thần kinh và do đó
cả hai đều rộng 64 nơ-ron.
sự cải thiện có thể đạt được bằng cách sử dụng tính năng đa phân giải của chúng tôi

mã hóa băm, vì vậy chúng tôi trực quan hóa bộ nhớ đệm bức xạ thần kinh tại
Hành quân tia tăng tốc. Khi diễu hành cùng tia cho cả hai
đỉnh đường đi đầu tiên. đào tạo và kết xuất, chúng tôi muốn đặt các mẫu sao cho
Hình 9 cho thấy điều đó—so với mã hóa sóng tam giác của chúng góp phần đồng đều vào hình ảnh, giảm thiểu
Müller và cộng sự. [2021]—mã hóa của chúng tôi giúp tái tạo sắc nét hơn tính toán lãng phí. Vì vậy, chúng tôi tập trung các mẫu gần bề mặt bằng cách

trong khi chỉ phát sinh chi phí hoạt động nhẹ là 0,7 ms duy trì một lưới chiếm chỗ để đánh dấu rõ ràng không gian trống và không trống.
giảm tốc độ khung hình từ 147 xuống 133 FPS ở độ phân giải 1920 ×
Trong những cảnh lớn, chúng tôi cũng sắp xếp tỷ lệ sử dụng phòng theo tầng
1080px. Đáng chú ý, bộ nhớ đệm bức xạ thần kinh được đào tạo trực tuyến—trong quá trình
chia lưới và phân phối mẫu theo cấp số nhân thay vì thống nhất
kết xuất—từ một trình theo dõi đường dẫn chạy ở chế độ nền, dọc theo tia. Phụ lục E mô tả chi tiết các quy trình này.
có nghĩa là chi phí 0,7 ms bao gồm cả quá trình huấn luyện và thời gian chạy Ở độ phân giải HD, các cảnh tổng hợp và thậm chí cả cảnh thế giới thực có thể được
chi phí mã hóa của chúng tôi. được đào tạo trong vài giây và hiển thị ở tốc độ 60 FPS mà không cần
bộ nhớ đệm của các đầu ra MLP [Garbin et al. 2021; Wizadwongsa và cộng sự.
5.4 Trường bức xạ thần kinh và mật độ (NeRF) 2021; Yu và cộng sự. 2021b]. Hiệu suất cao này làm cho nó dễ điều khiển
Trong cài đặt NeRF, hình dạng thể tích được biểu diễn dưới dạng thêm các hiệu ứng như khử răng cưa, làm mờ chuyển động và độ sâu trường ảnh bằng cách

hàm mật độ không gian (3D) và phát xạ định hướng không gian (5D) theo dõi lực lượng nhiều tia trên mỗi pixel, như trong Hình 12.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:10 • Müller và cộng sự.

Bảng 2. Tỷ lệ tín hiệu trên nhiễu cao nhất (PSNR) trong quá trình triển khai NeRF của chúng tôi với mã hóa băm đa độ phân giải (“Của chúng tôi: Hash”) so với NeRF [Mildenhall et al. 2020],

mip-NeRF [Barron và cộng sự. 2021a] và NSVF [Liu và cộng sự. 2020], cần giờ để đào tạo (giá trị lấy từ các bài báo tương ứng). Để chứng minh

đào tạo phương pháp của chúng tôi tương đối nhanh, chúng tôi liệt kê kết quả của nó sau khi đào tạo từ 1 giây đến 5 phút. Đối với mỗi cảnh, chúng tôi đánh dấu các phương pháp có ít lỗi nhất bằng vàng ,

, bạc và đồng. Để phân tích mức độ tăng tốc của chúng tôi bắt nguồn từ việc triển khai được tối ưu hóa so với mã hóa băm của chúng tôi, chúng tôi cũng
huy chương

báo cáo PSNR về phiên bản triển khai gần như giống hệt của chúng tôi, trong đó mã hóa băm đã được thay thế bằng mã hóa tần số và MLP
mở rộng tương ứng để phù hợp với Mildenhall et al. [2020] (“Của chúng tôi: Tần suất”; chi tiết tại Phụ lục D). Nó đạt đến chất lượng của NeRF sau khi đào tạo chỉ

5 phút, nhưng vẫn vượt trội so với phương pháp đầy đủ của chúng tôi sau khi đào tạo trong 5 giây–15 giây, tương đương với mức cải thiện 20–
60× có thể được quy cho mã hóa băm.

Micrô Ficus Cái ghế Bánh mì kẹp xúc xích Nguyên vật liệu Trống Tàu thủy Lego trung bình

Của chúng tôi: Hash (1 giây) 26.09 21h30 21:55 21.63 22.07 17,76 20,38 18,83 21.202

Của chúng tôi: Hash (5 giây) 32:60 30:35 30,77 33,42 26h60 23,84 26,38 30.13 29.261

Của chúng tôi: Hash (15 giây) 34,76 32,26 32,95 35,56 28:25 25,23 28,56 33,68 31.407

Của chúng tôi: Hash (1 phút) 35,92 33.05 34,34 36,78 29:33 25,82 30:20 35,63 32.635

Của chúng tôi: Hash (5 phút) 36,22 33,51 35:00 37:40 29,78 26.02 31.10 36,39 33.176

mip-NeRF ( giờ) 36,51 33,29 35,14 37,48 30,71 25,48 30,41 35,70 33.090

NSVF ( giờ) 34,27 31,23 33,19 37,14 32,68 25.18 27,93 32,29 31.739

NeRF ( giờ) 32,91 30.13 33:00 36,18 29,62 25.01 28,65 32,54 31.005

Của chúng tôi: Tần suất (5 phút) 31,89 28,74 31.02 34,86 28,93 24.18 28.06 32,77 30.056

Của chúng tôi: Tần suất (1 phút) 26,62 24,72 28,51 32,61 26,36 21.33 24.32 28,88 26.669

chỉ 15 giây huấn luyện và có thể cạnh tranh với mip-NeRF sau 1 phút
5 phút tập luyện.

Một mặt, phương pháp của chúng tôi hoạt động tốt nhất trên các cảnh có độ phân giải cao

chi tiết hình học, chẳng hạn như Ficus, Drums, Ship và Lego, đạt được

PSNR tốt nhất trong tất cả các phương pháp. Mặt khác, mip-NeRF và NSVF
hoạt động tốt hơn phương pháp của chúng tôi trên các cảnh có phức tạp, phụ thuộc vào chế độ xem

phản ánh, chẳng hạn như Vật liệu; chúng tôi gán điều này cho cái nhỏ hơn nhiều

MLP mà chúng tôi nhất thiết phải sử dụng để tăng tốc một số
mức độ lớn hơn các triển khai cạnh tranh này.

Tiếp theo, chúng tôi phân tích mức độ bắt nguồn của việc tăng tốc

từ việc triển khai hiệu quả của chúng tôi so với từ mã hóa của chúng tôi. ĐẾN

Cuối cùng, chúng tôi cũng báo cáo PSNR cho phiên bản triển khai gần như giống
Hình 12. Tái cấu trúc NeRF của bộ tổng hợp mô-đun và tự nhiên lớn
hệt nhau: chúng tôi thay thế mã hóa băm bằng
Cảnh 360. Hình ảnh bên trái mất 5 giây để tích lũy 128 mẫu ở 1080p
mã hóa tần số và mở rộng MLP để xấp xỉ phù hợp
trên một GPU RTX 3090 duy nhất, cho phép tạo ra các hiệu ứng làm mờ nét mạnh mẽ. Các
kiến trúc của Mildenhall et al. [2020] (“Của chúng tôi: Tần suất”); nhìn thấy
hình ảnh bên phải được lấy từ một phiên tương tác chạy ở tốc độ 10 khung hình mỗi
thứ hai trên cùng một GPU. Phụ lục D để biết chi tiết. Phiên bản thuật toán này của chúng tôi tiếp cận

Chất lượng của NeRF sau khi đào tạo chỉ 5 phút nhưng vẫn vượt trội so với

phương pháp đầy đủ của chúng tôi sau khi đào tạo trong thời gian ngắn hơn nhiều (5 giây–15 giây),

So sánh với tra cứu voxel trực tiếp. Hình 11 thể hiện sự cắt bỏ
cải thiện lên tới 20–60× nhờ mã hóa băm
nơi chúng tôi thay thế toàn bộ mạng lưới thần kinh bằng một tuyến tính duy nhất và MLP nhỏ hơn.
phép nhân ma trận, theo tinh thần (mặc dù không giống với) Đối với “Ours: Hash”, chi phí cho mỗi bước đào tạo gần như không đổi
NeRF dựa trên voxel trực tiếp đồng thời [Sun et al. 2021; Yu và cộng sự. 2021a].
ở mức 6 ms mỗi bước. Con số này lên tới 50 k bước sau 5 phút .
Trong khi lớp tuyến tính có khả năng tái tạo phụ thuộc vào chế độ xem
điểm mô hình hội tụ tốt. Chúng tôi giảm tốc độ học tập sau
thì chất lượng bị ảnh hưởng đáng kể so với 20 k bước với hệ số 0,33, chúng tôi lặp lại cứ sau 10 k bước nữa
MLP, có khả năng nắm bắt các hiệu ứng cụ thể tốt hơn và giải quyết các bước. Ngược lại, MLP lớn hơn được sử dụng trong “Của chúng tôi: Tần suất” yêu cầu
va chạm băm trên các bảng băm đa độ phân giải được nội suy 30 ms mỗi bước huấn luyện, nghĩa là PSNR được liệt kê sau 5 phút
(biểu hiện dưới dạng tạo tác tần số cao). May mắn thay, MLP tương ứng với khoảng 10 k bước. Do đó nó có thể tiếp tục cải thiện đôi chút
chỉ đắt hơn 15% so với lớp tuyến tính nhờ kích thước nhỏ của nó
nếu được huấn luyện trong thời gian dài, như trong các biến thể NeRF ngoại tuyến
quy mô và triển khai hiệu quả. thường được đào tạo cho vài bước 100 k.

Trong khi chúng tôi tách biệt hiệu suất và tác động hội tụ của
So sánh với NeRF ngoại tuyến chất lượng cao. Trong Bảng 2, chúng tôi so sánh
mã hóa băm và MLP nhỏ của chúng tôi, chúng tôi tin rằng một nghiên cứu bổ sung
tỷ lệ tín hiệu trên nhiễu cao nhất (PSNR) việc triển khai NeRF của chúng tôi
là cần thiết để định lượng tác động của các kế hoạch di chuyển tia tiên tiến
với mã hóa băm đa độ phân giải (“Của chúng tôi: Hash”) với mã hóa của
(chẳng hạn như của chúng tôi, thô mịn [Mildenhall et al. 2020] hoặc DONeRF [Neff
NeRF [Mildenhall và cộng sự. 2020], mip-NeRF [Barron và cộng sự. 2021a], và
et al. 2021]) độc lập với mã hóa và kiến trúc mạng. Chúng tôi báo cáo thông
NSVF [Liu và cộng sự. 2020], tất cả đều yêu cầu theo thứ tự số giờ để
tin bổ sung trong Phần E.3 để hỗ trợ
xe lửa. Ngược lại, chúng tôi liệt kê kết quả của phương pháp của chúng tôi sau khi đào tạo cho
một phân tích như vậy.
1 giây đến 5 phút. PSNR của chúng tôi cạnh tranh với NeRF và NSVF sau

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thời nguyên thủy với mã hóa băm đa độ phân giải • 102:11

(a) Tham chiếu được hiển thị ngoại tuyến (b) Hash (của chúng tôi), được huấn luyện trong 10 giây (c) Trình theo dõi đường dẫn

Được hiển thị trong 32 mili giây (2 mẫu trên mỗi pixel) Được hiển thị trong 32 ms (16 mẫu trên mỗi pixel)

Hình 13. Kết quả sơ bộ của việc đào tạo mô hình đám mây NeRF (b) từ dữ liệu theo dõi đường dẫn thời gian thực. Trong vòng 32 mili giây, hình ảnh 1024×1024 của mô hình của chúng tôi gần đúng một cách thuyết phục với sự thật thực tế được hiển thị ngoại tuyến (a). Mô hình của

chúng tôi thể hiện ít tiếng ồn hơn so với trình theo dõi đường dẫn GPU chạy trong một khoảng thời gian bằng nhau (c). Dữ liệu đám mây là ©Walt Disney Animation Studios (CC BY-SA 3.0)

6 THẢO LUẬN VÀ CÔNG VIỆC TƯƠNG LAI Cấu trúc vi mô do va chạm băm. Thành phần nổi bật trong quá trình mã hóa của

chúng tôi là một lượng nhỏ cấu trúc vi mô “hạt”, dễ thấy nhất trên các hàm khoảng
Nối so với giảm. Khi kết thúc quá trình mã hóa, chúng tôi ghép nối thay vì giảm
cách có dấu đã học (Hình 1 và Hình 7).
(ví dụ: bằng cách tính tổng) các vectơ đặc trưng -dimensional thu được từ mỗi độ
Độ nhiễu là kết quả của xung đột băm mà MLP không thể bù đắp hoàn toàn. Chúng
phân giải. Chúng tôi thích ghép nối vì hai lý do. Đầu tiên, nó cho phép xử lý độc
tôi tin rằng chìa khóa để đạt được chất lượng tiên tiến trên SDF bằng mã hóa
lập, hoàn toàn song song từng độ phân giải. Thứ hai, việc giảm kích thước của kết
của chúng tôi sẽ là tìm cách khắc phục cấu trúc vi mô này, chẳng hạn như bằng
quả được mã hóa y từ đến có thể quá nhỏ để mã hóa thông tin hữu ích. Trong khi có
cách lọc tra cứu bảng băm hoặc bằng cách áp đặt độ mượt bổ sung trước khi xảy
thể tăng lên
ra mất dữ liệu.

tương ứng, nó sẽ làm cho việc mã hóa đắt hơn nhiều.

Tuy nhiên, chúng tôi nhận ra rằng có thể có những ứng dụng trong đó Thiết lập sáng tạo. Mã hóa đầu vào tham số, khi được sử dụng trong

việc giảm bớt là thuận lợi, chẳng hạn như khi mạng lưới thần kinh đắt cài đặt tổng quát, thường sắp xếp các tính năng của chúng trong một

hơn đáng kể so với mã hóa, trong trường hợp đó, chi phí tính toán tăng lưới dày đặc, sau đó có thể được tạo bởi một mạng máy phát riêng biệt,

thêm có thể không đáng kể. Do đó, chúng tôi tranh luận về việc ghép nối điển hình là CNN như StyleGAN [Chan et al. 2021; DeVries và cộng sự.

theo mặc định chứ không phải là một quy tắc cứng nhắc và nhanh chóng. 2021; Bành và cộng sự. 2020b]. Mã hóa băm của chúng tôi bổ sung thêm một lớp

Trong các ứng dụng của chúng tôi, việc ghép nối với = 2 luôn mang lại phức tạp vì các tính năng không được sắp xếp theo mẫu thông thường thông qua

kết quả tốt nhất cho đến nay. miền đầu vào; nghĩa là, các đặc điểm không mang tính phỏng đoán với một lưới

điểm thông thường. Chúng tôi để việc này cho công việc trong tương lai nhằm
Lựa chọn hàm băm. Một hàm băm tốt sẽ tính toán hiệu quả , dẫn đến việc xác định cách tốt nhất để vượt qua khó khăn này.
tra cứu mạch lạc và bao phủ một cách thống nhất mảng vectơ đặc trưng bất kể

cấu trúc của các điểm truy vấn. Chúng tôi đã chọn hàm băm vì nó kết hợp tốt
Các ứng dụng khác. Chúng tôi quan tâm đến việc áp dụng mã hóa băm đa độ phân
các thuộc tính này và cũng đã thử nghiệm với ba thuộc tính khác:
giải cho các tác vụ có chiều thấp khác đòi hỏi sự phù hợp chính xác, tần số cao.

Mã hóa tần số có nguồn gốc từ cơ chế chú ý của mạng máy biến áp [Vaswani et al.

(1) RNG PCG32 [O'Neill 2014], có đặc tính thống kê vượt trội. Thật không 2017]. Chúng tôi hy vọng rằng các mã hóa tham số như của chúng tôi có thể dẫn đến

may, nó không mang lại chất lượng tái thiết cao hơn, khiến chi phí cao sự cải thiện có ý nghĩa trong các nhiệm vụ nói chung, dựa trên sự chú ý.

hơn không đáng có.

(2) Sắp xếp các bit có ý nghĩa nhỏ nhất của Z theo đường cong lấp đầy khoảng Các trường mật độ thể tích không đồng nhất, chẳng hạn như đám mây và khói được

lưu trữ trong cấu trúc dữ liệu VDB [Museth 2013, 2021], thường bao gồm khoảng trống
trống và chỉ băm các bit cao hơn. Điều này dẫn đến sự gắn kết tra cứu

tốt hơn nhưng phải trả giá bằng chất lượng tái thiết kém hơn. Tuy nhiên, ở bên ngoài, lõi rắn ở bên trong và chi tiết thưa thớt trên bề mặt thể tích. Điều

việc tăng tốc chỉ tốt hơn một chút so với cài đặt 1 := 1 như được thực này làm cho chúng phù hợp với mã hóa của chúng tôi. Trong mã được phát hành cùng

hiện trong hàm băm của chúng tôi và do đó không đáng để giảm chất lượng. với bài viết này, chúng tôi đã đưa vào cách triển khai sơ bộ phù hợp với trường

(3) Thậm chí có thể đạt được sự gắn kết tốt hơn bằng cách coi hàm băm như bức xạ và mật độ trực tiếp từ đầu ra nhiễu của máy theo dõi đường thể tích. Các

một ô không gian xếp thành các lưới dày đặc. Giống như (2), tốc độ tăng kết quả ban đầu đầy hứa hẹn, như thể hiện trong Hình 13, và chúng tôi dự định theo

lên trong thực tế là nhỏ và gây tổn hại đáng kể đến chất lượng. đuổi hướng này hơn nữa trong công việc tương lai.

Ngoài ra, đối với các hàm băm thủ công, có thể hình dung được việc tối ưu

hóa hàm băm trong công việc trong tương lai, biến phương pháp này thành một
7. KẾT LUẬN
phương pháp học từ điển. Hai con đường khả thi là (1) phát triển một công

thức lập chỉ mục liên tục có thể tuân theo vi phân phân tích hoặc (2) áp Nhiều vấn đề đồ họa dựa vào cấu trúc dữ liệu cụ thể của nhiệm vụ để khai thác tính

dụng thuật toán tối ưu hóa tiến hóa có thể khám phá không gian hàm rời rạc thưa thớt hoặc trơn tru của vấn đề hiện tại. Mã hóa băm đa độ phân giải của chúng

một cách hiệu quả. tôi cung cấp phương pháp học tập dựa trên thực tế

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:12 • Müller và cộng sự.

phương án thay thế tự động tập trung vào chi tiết liên quan, độc lập với nhiệm 3480569

vụ. Chi phí thấp cho phép nó được sử dụng ngay cả trong thời gian- David Money Harris và Sarah L. Harris. 2013. 3.4.2 - Mã hóa trạng thái. Trong Thiết kế Kỹ thuật số và

Kiến trúc Máy tính (tái bản lần thứ hai). Morgan Kaufmann, Boston, 129–131. https://doi.org/10.1016/
các cài đặt bị hạn chế như đào tạo và suy luận trực tuyến. Trong bối cảnh mã hóa B978-0-12-394424-5.00002-1 Jon Jansen và Louis Bavoil. 2010.

Bản đồ độ mờ Fourier. Trong Kỷ yếu của Hội nghị chuyên đề ACM SIGGRAPH 2010 về Đồ họa và Trò chơi 3D
đầu vào mạng thần kinh, nó là một sự thay thế tùy ý, ví dụ như tăng tốc NeRF theo
Tương tác (Washington, DC) (I3D '10). Hiệp hội Máy tính, New York, NY, Hoa Kỳ, 165—-172. https://
một số bậc độ lớn và phù hợp với hiệu suất của các kỹ thuật tái tạo 3D phi thần doi.org/10.1145/1730804.1730831 Chiyu Max Jiang, Avneesh Sud, Ameesh Makadia, Jingwei Huang,

kinh đồng thời. Matthias Nießner và Thomas Funkhouser. 2020.

Biểu diễn lưới ngầm cục bộ cho cảnh 3D.

Các quy trình tính toán chậm trong bất kỳ môi trường nào, từ việc tạo bản đồ Trong Kỷ yếu IEEE Conf. về Thị giác máy tính và nhận dạng mẫu (CVPR).

ánh sáng đến đào tạo mạng lưới thần kinh, có thể dẫn đến các luồng công việc khó Diederik P. Kingma và Jimmy Ba. 2014. Adam: Phương pháp tối ưu hóa ngẫu nhiên.
arXiv:1412.6980 (tháng 6 năm 2014).
chịu do thời gian lặp lại dài [Enderton và Wexler 2011]. Chúng tôi đã chứng minh
Derrick H. Lehmer. 1951. Phương pháp toán học trong các đơn vị tính toán quy mô
rằng thời gian đào tạo GPU đơn được tính bằng giây là trong tầm tay của nhiều ứng lớn. Trong Kỷ yếu Hội nghị chuyên đề lần thứ hai về Máy tính kỹ thuật số quy mô lớn.
Nhà xuất bản Đại học Harvard, Cambridge, Vương quốc Anh, 141–146.
dụng đồ họa, cho phép áp dụng các phương pháp thần kinh ở những nơi trước đây chúng
Jaakko Lehtinen, Jacob Munkberg, Jon Hasselgren, Samuli Laine, Tero Karras, Miika Aittala và Timo
có thể bị giảm giá trị. Aila. 2018. Noise2Noise: Học cách khôi phục hình ảnh mà không cần làm sạch dữ liệu. arXiv:1803.04189
(Tháng 3 năm 2018).

Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua và Christian Theobalt. 2020.
Trường Voxel thưa thớt thần kinh. Thần kinhIPS (2020). https://lingjie0206.github.io/papers/ NSVF/
SỰ NHÌN NHẬN
Julien NP Martel, David B. Lindell, Connor Z. Lin, Eric R. Chan, Marco Monteiro và Gordon Wetzstein.
Chúng tôi rất biết ơn Andrew Tao, Andrew Webb, Anjul Patney, David Luebke, Fabrice 2021. ACORN: Mạng tọa độ thích ứng cho biểu diễn thần kinh. ACM Trans. Đồ thị. (SIGGRAPH) (2021).

Rousselle, Jacob Munkberg, James Lucas, Jonathan Granskog, Jonathan Tremblay, Koki
Ishita Mehta, Michaël Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi và Manmohan Chandraker.
Nagano, Marco Salvi, Nikolaus Binder và Towaki Takikawa vì những cuộc thảo luận
2021. Kích hoạt định kỳ được điều chế để khái quát hóa

sâu sắc, hiệu đính , phản hồi và thử nghiệm sớm. Chúng tôi cũng cảm ơn Arman Đại diện chức năng địa phương. Tại Hội nghị quốc tế IEEE về máy tính
Tầm nhìn. IEEE.
Toorians và Saurabh Jain về bộ dữ liệu robot nhà máy trong Hình 12 (phải).
Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris

Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh và Hao Wu. 2018. Huấn luyện chính

xác hỗn hợp. arXiv:1710.03740 (Tháng 10 năm 2018).

TÀI LIỆU THAM KHẢO Ben Mildenhall, Peter Hedman, Ricardo Martin-Brualla, Pratul Srinivasan và Jonathan T. Barron. 2021.

NeRF trong bóng tối: Tổng hợp chế độ xem dải động cao từ hình ảnh thô ồn ào. arXiv:2111.13679
Thomas Annen, Tom Mertens, Philippe Bekaert, Hans-Peter Seidel và Jan Kautz.
(Tháng 11 năm 2021).
2007. Bản đồ bóng tích chập. Trong Kỹ thuật kết xuất, Jan Kautz và Sumanta Pattanaik (Eds.). Hiệp
Ben Mildenhall, Pratul P. Srinivasan, Rodrigo Ortiz-Cayon, Nima Khademi Kalantari, Ravi
hội Eurographics https://doi.org/10.2312/EGWR/ EGSR07/051-060
Ramamoorthi, Ren Ng và Abhishek Kar. 2019. Phản ứng tổng hợp trường ánh sáng cục
bộ: Tổng hợp quan điểm thực tế với hướng dẫn lấy mẫu theo quy định. ACM Trans. Đồ thị.
Jonathan T. Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-
38, 4, Điều 29 (tháng 7/2019), 14 trang. https://doi.org/10.1145/3306346.3322980
Brualla, và Pratul P. Srinivasan. 2021a. Mip-NeRF: Một đại diện đa cấp cho các trường
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi
bức xạ thần kinh khử răng cưa. arXiv (2021). https://jonbarron.info/mipnerf/ Jonathan
Ramamoorthi , và Ren Ng. 2020. NeRF: Biểu diễn các cảnh dưới dạng Trường bức xạ thần
T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, và Peter Hedman . 2021b.
kinh để tổng hợp chế độ xem. Trong ECCV.
Mip-NeRF 360: Trường bức xạ thần kinh khử răng cưa không giới hạn. arXiv:2111.12077 Thomas Muller. 2021. https:// Khung mạng thần kinh CUDA nhỏ.
(Tháng 11 năm 2021).
github.com/nvlabs/tiny-cuda-nn.
Rohan Chabra, Jan E. Lenssen, Eddy Ilg, Tanner Schmidt, Julian Straub, Steven Love-
Thomas Müller, Brian McWilliams, Fabrice Rousselle, Markus Gross và Jan Novák.
grove, và Richard Newcombe. 2020. Hình dạng cục bộ sâu: Tìm hiểu các ưu tiên SDF
2019. Lấy mẫu tầm quan trọng thần kinh. ACM Trans. Đồ thị. 38, 5, Điều 145 (tháng 10/2019), 19
cục bộ để tái tạo chi tiết 3D. Trong Thị giác máy tính – ECCV 2020, Andrea
trang. https://doi.org/10.1145/3341156
Vedaldi, Horst Bischof, Thomas Brox và Jan-Michael Frahm (Eds.). Nhà xuất bản
Thomas Müller, Fabrice Rousselle, Alexander Keller và Jan Novák. 2020. Kiểm soát thần kinh biến đổi.
Quốc tế Springer , Chăm, 608–
625.
ACM Trans. Đồ thị. 39, 6, Điều 243 (tháng 11/2020), 19 trang. https: //doi.org/10.1145/3414685.3417804
Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo,
Thomas Müller, Fabrice Rousselle, Jan
Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras và Gordon Wetzstein. 2021. Mạng đối
Novák và Alexander Keller. 2021. Bộ nhớ đệm bức xạ thần kinh theo thời gian thực để theo dõi đường
thủ tạo 3D nhận biết hình học hiệu quả. arXiv:2112.07945 (2021). arXiv:2112.07945 [cs.CV]
dẫn. ACM Trans. Đồ thị. 40, 4, Điều 36 (tháng 8/2021 ), 16 trang. https://doi.org/

10.1145/3450626.3459812
Julian Chibane, Thiemo Alldieck và Gerard Pons-Moll. 2020. Các chức năng ngầm định trong Không gian
Ken Museth. 2013. VDB: Khối thưa thớt có độ phân giải cao với cấu trúc liên kết động.
tính năng để tái tạo và hoàn thiện hình dạng 3D. Trong Hội nghị IEEE về Thị giác máy tính và Nhận
ACM Trans. Đồ thị. 32, 3, Điều 27 (tháng 7/2013), 22 trang. https://doi.org/10.1145/ 2487228.2487235
dạng mẫu (CVPR). IEEE.

Terrance DeVries, Miguel Angel Bautista, Nitish Srivastava, Graham W. Taylor và Joshua M. Susskind.
Ken Museth. 2021. NanoVDB: Cấu trúc dữ liệu VDB di động và thân thiện với GPU để
2021. Tạo cảnh không giới hạn với Trường bức xạ có điều kiện cục bộ. arXiv (2021).
mô phỏng và kết xuất theo thời gian thực. Trong buổi nói chuyện ACM SIGGRAPH
2021 (Sự kiện ảo, Hoa Kỳ) (SIGGRAPH '21). Hiệp hội Máy tính, New York, NY,
Eric Enderton và Daniel Wexler. 2011. Quy mô quy trình làm việc. Trong Hội thảo quốc tế về đồ họa máy
Hoa Kỳ, Điều 1, 2 trang. https://doi.org/
tính về VFX, Hoạt hình máy tính và Phim âm thanh nổi.
10.1145/3450623.3464653 Thomas Neff, Pascal Stadlbauer, Mathias Parger, Andreas
Alex Evans. 2006. Ước tính nhanh về chiếu sáng toàn cầu trên các cảnh động. Trong các
Kurz, Joerg H. Mueller, Chakravarty R. Alla Chaitanya, Anton S. Kaplanyan và Markus Steinberger.
khóa học ACM SIGGRAPH 2006 (Boston, Massachusetts) (SIGGRAPH '06). Hiệp hội Máy tính,
2021. DONeRF: Hướng tới kết xuất theo thời gian thực các trường bức xạ thần kinh nhỏ gọn bằng
New York, NY, Hoa Kỳ, 153–171. https://doi.org/10.1145/
cách sử dụng Mạng Oracle độ sâu. Diễn đàn Đồ họa Máy tính 40, 4 (2021). https://doi.org/10.1111/
1185657.1185834
cgf.14340 Matthias Nießner, Michael
Stephan J. Garbin, Marek Kowalski, Matthew Johnson, Jamie Shotton và Julien Valentin. 2021. FastNeRF:
Zollhöfer, Shahram Izadi và Marc Stamminger. 2013. Tái tạo 3D theo thời gian thực ở quy mô lớn bằng
Kết xuất thần kinh có độ trung thực cao ở 200FPS. arXiv:2103.10380 (Tháng 3 năm 2021).
cách sử dụng băm Voxel. ACM Trans. Đồ thị. 32, 6, Điều 169 (tháng 11/2013), 11 trang. https://

doi.org/10.1145/2508363.2508374 Fakir S. Nooruddin và Greg Turk. 2003. Đơn giản hóa và


Jonas Gehring, Michael Auli, David Grangier, Denis Yarats và Yann N. Dauphin.
sửa chữa các mô hình đa giác bằng kỹ thuật thể tích. Giao dịch của IEEE về Trực quan hóa và Đồ họa
2017. Trình tự chuyển đổi sang học trình tự. Trong Kỷ yếu Hội nghị Quốc tế về Học
Máy tính 9, 2 (tháng 4 năm 2003), 191––205. https://doi.org/10.1109/TVCG.2003.1196006 Melissa E.
máy lần thứ 34 - Tập 70 (Sydney, NSW, Australia)
O'Neill. 2014. PCG: Nhóm thuật toán đơn giản, nhanh chóng, hiệu quả về mặt thống kê để tạo số
(ICML'17). JMLR.org, 1243—-1252.
ngẫu nhiên. Báo cáo kỹ thuật HMC-CS-2014-0905.
Xavier Glorot và Yoshua Bengio. 2010. Hiểu được khó khăn trong việc đào tạo Mạng lưới thần kinh tiến

sâu. Trong Proc. Hội nghị quốc tế lần thứ 13 về trí tuệ nhân tạo và thống kê (Sardinia, Ý, ngày
Cao đẳng Harvey Mudd, Claremont, CA.
13–15 tháng 5). JMLR.org, 249–256.
Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe và Steven Love-
Saeed Hadadan, Shuhong Chen và Matthias Zwicker. 2021. Xạ trị thần kinh. Giao dịch
grove. 2019. DeepSDF: Học các hàm khoảng cách được ký liên tục cho hình dạng
ACM trên Đồ họa 40, 6 (tháng 12 năm 2021), 1—-11. https://doi.org/10.1145/3478513.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thời nguyên thủy với mã hóa băm đa độ phân giải • 102:13

Đại diện. arXiv:1901.05103 (Tháng 1 năm 2019). Do đó, việc mã hóa có thể học các đạo hàm trơn tru, khác 0 cho tất cả
Songyou Peng, Michael Niemeyer, Lars Mescheder, Marc Pollefeys và Andreas Geiger. 2020a. Mạng
các vị trí không gian x.
chiếm chỗ phức tạp. Tại Hội nghị Châu Âu về Thị giác Máy tính (ECCV).
Để có độ mượt bậc cao hơn, các hàm bước mượt bậc cao hơn có thể được
Songyou Peng, Michael Niemeyer, Lars Mescheder, Marc Pollefeys và Andreas Geiger. 2020b. Mạng sử dụng với chi phí bổ sung nhỏ. Trong thực tế, chi phí tính toán
chiếm chỗ phức tạp. (2020). arXiv:2003.04618 [cs.CV]
của hàm bước trơn bậc 1 bị ẩn do tắc nghẽn bộ nhớ, khiến nó về cơ bản
Matt Pharr, Wenzel Jakob và Greg Humphreys. 2016. Kết xuất dựa trên vật lý: Từ lý thuyết đến thực
hiện (tái bản lần thứ 3) (tái bản lần thứ 3). Nhà xuất bản Morgan Kaufmann Inc., San Francisco, là miễn phí. Tuy nhiên, chất lượng tái thiết có xu hướng giảm khi sử
CA, Hoa Kỳ. 1266 trang.
dụng phép nội suy bậc cao. Đây là lý do tại sao chúng tôi không sử dụng
Vincent Sitzmann, Julien NP Martel, Alexander W. Bergman, David B. Lindell và Gordon Wetzstein. 2020. Biểu diễn

thần kinh ngầm với các chức năng kích hoạt định kỳ. Trong Proc. Thần kinhIPS.
nó theo mặc định. Nghiên cứu trong tương lai là cần thiết để giải thích
sự mất mát về chất lượng.
Cheng Sun, Min Sun và Hwann-Tzong Chen. 2021. Tối ưu hóa lưới Voxel trực tiếp: Hội tụ siêu nhanh
để tái tạo trường bức xạ. arXiv:2111.11215 (Tháng 11 năm 2021).
B CHI TIẾT THỰC HIỆN NGLOD

Towaki Takikawa, Joey Litalien, Kangxue Yin, Karsten Kreis, Charles Loop, Derek Nowrouzezahrai,
Chúng tôi đã thiết kế triển khai NGLOD [Takikawa et al. 2021] sao cho
Alec Jacobson, Morgan McGuire và Sanja Fidler. 2021. Mức độ chi tiết hình học thần kinh: Hiển
thị thời gian thực với các hình dạng 3D ngầm. (2021). gần giống với mã hóa băm của chúng tôi, chỉ khác ở cấu trúc dữ liệu cơ
Matthew Tancik, Pratul P. Srinivasan, Ben Mildenhall, Sara Fridovich-Keil, Nithin bản; tức là sử dụng các đỉnh của octree xung quanh lưới tam giác chân
Raghavan, Utkarsh Singhal, Ravi Ramamoorthi, Jonathan T. Barron và Ren Ng.
thực để lưu trữ các vectơ đặc trưng không va chạm, thay vì dựa vào bảng
2020. Tính năng Fourier cho phép mạng tìm hiểu các hàm tần số cao trong các
miền có chiều thấp. Thần kinhIPS (2020). https://bmild.github.io/fourfeat/ băm. Điều này dẫn đến một sự khác biệt đáng chú ý so với NGLOD ban đầu:
index.html Danhang Tang, Mingsong Dou, Peter Lincoln, Philip Davidson, Kaiwen Guo, các vectơ tính năng tra cứu được nối chứ không phải tính tổng, điều này
Jonathan Taylor, Sean Fanello, Cem Keskin, Adarsh Kowdle, Sofien Bouaziz,
trong quá trình triển khai của chúng tôi tình cờ mang lại chất lượng tái
Shahram Izadi và Andrea Tagliasacchi. 2018. Nén thời gian thực và truyền phát
các buổi biểu diễn 4D . ACM Trans. Đồ thị. 37, 6, Điều 256 (tháng 12/2018), 11 tạo cao hơn so với tổng của một số tham số có thể huấn luyện bằng nhau.
trang. https: //doi.org/
10.1145/3272127.3275096 Matthias Teschner, Bruno Heidelberger, Matthias Müller,
Danat Pomeranets và Markus Gross. 2003. Băm không gian được tối ưu hóa để phát
hiện va chạm của các vật thể có thể biến dạng. Trong Kỷ yếu của VMV'03, Munich, Đức. 47–
54.Quãng tám ngụ ý hệ số tăng trưởng cố định = 2, dẫn đến số cấp nhỏ hơn so
Sergio Theodoridis. 2008. Nhận dạng mẫu. Khác.
với mã hóa băm của chúng tôi. Chúng tôi đã đạt được hiệu suất thuận lợi nhất
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N.
Gomez, Lukasz Kaiser và Illia Polosukhin. 2017. Sự chú ý là tất cả những gì bạn cần. so với sự cân bằng chất lượng với số lượng tham số có thể huấn luyện gần bằng
arXiv:1706.03762 (Tháng 6 năm 2017).
nhau như phương pháp của chúng tôi, thông qua cấu hình sau: (1) số thứ nguyên
Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T. Barron và Pratul P. Srinivasan.
tính năng trên mỗi mục nhập
2021. Ref-NeRF: Giao diện phụ thuộc vào chế độ xem có cấu trúc cho các trường bức xạ thần kinh.
arXiv:2112.03907 (Tháng 12 năm 2021).
là = 8, (2) số cấp độ là = 10 và (3) việc tra cứu bắt đầu ở cấp độ
Suttisak Wizadwongsa, Pakkapon Phongthawee, Jiraphon Yenphraphai và Supasorn Suwajanakorn.
2021. NeX: Tổng hợp chế độ xem theo thời gian thực với việc mở rộng cơ sở thần kinh. = 4.
Trong Hội nghị IEEE về Thị giác máy tính và Nhận dạng mẫu (CVPR).
Alex Yu, Sara Fridovich-Keil, Matthew Tancik, Qinhong Chen, Benjamin Recht và Angjoo Kanazawa.
2021a. Plenoxels: Trường bức xạ không có mạng lưới thần kinh. arXiv:2112.05131 (Tháng 12 năm Điểm cuối cùng rất quan trọng vì hai lý do: thứ nhất, nó phù hợp với 4 độ phân giải thô nhất trong bảng băm của chúng

2021). tôi trong 2 phút và thứ hai, nó = 16 = ngăn ngừa tắc nghẽn hiệu suất sẽ lũy
phát
độsinh
dốc khi tất cả các luồng của GPU tích
Alex Yu, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng và Angjoo Kanazawa. 2021b.
nguyên tử trong một số ít, các mục thô.
PlenOctrees để hiển thị các trường bức xạ thần kinh theo thời gian thực. Trong ICCV.

Chúng tôi đã xác minh bằng thực nghiệm rằng điều này không làm giảm chất lượng
NỘI DUNG MƯỢT
so với việc tra cứu toàn bộ hệ thống phân cấp.
Người ta có thể mong muốn phép nội suy mượt mà hơn phép nội suy tuyến tính mà

mã hóa băm đa độ phân giải của chúng tôi sử dụng theo mặc định. C TẠO DỮ LIỆU ĐÀO TẠO SDF THỜI GIAN THỰC
Trong trường hợp này, giải pháp hiển nhiên sẽ là sử dụng phép nội suy
Để không gây cản trở quá trình đào tạo SDF của chúng tôi, chúng tôi phải có
bậc hai hoặc bậc ba, tuy nhiên cả hai đều rất tốn kém do yêu cầu tra
khả năng tạo ra một số lượng lớn khoảng cách được ký hiệu thực tế cơ bản tới
cứu lần lượt 3 và 4 thay vì 2 đỉnh . Là một giải pháp thay thế chi phí
các mắt lưới có độ phân giải cao rất nhanh chóng ( triệu mỗi giây).
thấp, chúng tôi khuyên bạn nên áp dụng hàm Smoothstep,

C.1 Lấy mẫu hiệu quả các vị trí đào tạo 3D Tương tự như
2
1 ( ) = (3 2 ), (5) công việc trước đây [Takikawa et al. 2021], chúng tôi phân phối một số
(1/8) vị trí đào tạo của chúng tôi một cách đồng đều trong khối đơn vị,
tới các trọng số nội suy tuyến tính. Điều quan trọng là đạo hàm của bước đi một số (4/8) đồng đều trên bề mặt của lưới và phần còn lại (3/8) bị xáo
trơn tru, trộn trên bề mặt của lưới .
' Các mẫu đồng nhất trong khối đơn vị là không đáng kể để tạo ra bằng cách sử
1 ( ) = 6 (1 ) , (6)
dụng bất kỳ trình tạo số giả ngẫu nhiên nào; chúng tôi sử dụng cách triển

biến mất ở 0 và 1, làm cho tính gián đoạn trong đạo hàm của mã hóa biến mất theo quy tắc dây chuyền. Việc mã hóa khai GPU của PCG32 [O'Neill 2014].

do đó 1 trở nên trơn tru. Để tạo ra các mẫu đồng nhất trên bề mặt lưới, chúng tôi tính toán
diện tích của mỗi tam giác trong bước tiền xử lý, chuẩn hóa các diện
Tuy nhiên, bằng thủ thuật này, chúng ta chỉ đơn thuần đánh đổi sự gián tích để biểu thị phân bố xác suất và lưu trữ hàm phân phối tích lũy
đoạn để lấy điểm 0 ở các cấp độ riêng lẻ mà không nhất thiết phải đáng tương ứng (CDF) trong một mảng. Sau đó, với mỗi mẫu, chúng tôi chọn một
mong đợi hơn. Vì vậy, chúng tôi bù mỗi cấp bằng một nửa kích thước voxel hình tam giác tỷ lệ với diện tích của nó bằng phương pháp đảo ngược—tìm
1/(2 ), điều này ngăn cản các đạo hàm bằng 0 căn chỉnh trên tất cả các cấp. kiếm nhị phân của một số ngẫu nhiên thống nhất

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

102:14 • Müller và cộng sự.

trên mảng CDF—và lấy mẫu một vị trí ngẫu nhiên thống nhất trên tam giác đó bằng và số thứ hai cho MLP màu. Đối với SDF, chúng tôi thực hiện hai thay

cách làm cong mẫu tiêu chuẩn [Pharr et al. 2016]. đổi bổ sung: (1) chúng tôi tối ưu hóa để chống lại tổn thất L2 tương
Cuối cùng, đối với những mẫu bề mặt phải bị nhiễu loạn, chúng tôi thêm một vectơ đối [Lehti-nen et al. 2018] thay vì MAPE được mô tả trong văn bản chính
3D ngẫu nhiên, mỗi chiều được vẽ độc lập từ phân bố logistic (hình dạng tương tự và (2) chúng tôi gây nhiễu các mẫu huấn luyện có độ lệch chuẩn là /128
như Gaussian, nhưng tính toán rẻ hơn) với độ lệch chuẩn /1024, trong đó bán kính so với giá trị /1024 từ Phụ lục C.1. Cả hai thay đổi đều làm mịn bối
giới hạn của lưới. cảnh mất mát, dẫn đến việc tái thiết tốt hơn với cấu hình trên.

Đáng chú ý, mặc dù các cấu hình trên có ít tham số hơn và chậm hơn
Lấy mẫu quãng tám cho NGLOD. Khi đào tạo chúng tôi thực hiện Takikawa et al.
so với cấu hình mã hóa băm của chúng tôi, nhưng chúng thể hiện hiệu
[2021], chúng ta phải cẩn thận để hiếm khi tạo ra các vị trí huấn luyện bên ngoài
suất thuận lợi so với sự đánh đổi về chất lượng. Việc so sánh số lượng
các nút lá cây bát phân. Để đạt được mục đích này, chúng tôi thay thế quy trình
tham số bằng nhau sẽ làm cho các MLP thuần túy trở nên quá đắt do tỷ
lấy mẫu khối đơn vị đồng nhất bằng quy trình tạo vị trí 3D đồng nhất trong các nút 2
lệ của chúng với O ( ) trái ngược với tỷ lệ tuyến tính phụ của các mã
lá của cây octree bằng cách loại bỏ lần đầu tiên việc lấy mẫu một nút lá ngẫu nhiên
hóa có thể đào tạo. Mặt khác, việc so sánh thông lượng bằng nhau sẽ
đồng nhất từ mảng tất cả các nút và sau đó tạo ra một vị trí ngẫu nhiên thống nhất
yêu cầu các MLP cực kỳ nhỏ, do đó đánh giá thấp chất lượng tái thiết
trong phạm vi octree. voxel của nút . May mắn thay, độ lệch chuẩn /1024 của nhiễu
mà các MLP thuần túy có khả năng.
loạn logistic của chúng tôi đủ nhỏ để hầu như không bao giờ rời khỏi quãng tám, vì
Chúng tôi cũng đã thử nghiệm các tính năng Fourier [Tancik et
vậy chúng tôi không cần phải sửa đổi quy trình lấy mẫu bề mặt.
al. 2020] nhưng không thu được kết quả tốt hơn so với các mã hóa
tần số căn chỉnh theo trục đã đề cập trước đó.

C.2 Khoảng cách được đánh dấu hiệu quả tới lưới tam giác Đối với mỗi vị trí
E TĂNG TỐC NERF RAY MARCHING
3D được lấy mẫu x, chúng ta phải tính khoảng cách được đánh dấu tới lưới tam giác.
Hiệu suất của các thuật toán di chuyển tia như NeRF phụ thuộc rất nhiều
Để đạt được mục đích này, trước tiên chúng tôi xây dựng một hệ thống phân cấp khối
vào sơ đồ di chuyển. Chúng tôi sử dụng ba kỹ thuật với lỗi không thể
lượng giới hạn tam giác (BVH) mà chúng tôi thực hiện các truy vấn khoảng cách không
nhận thấy để tối ưu hóa việc triển khai: (1) bước theo
dấu một cách hiệu quả; O log tam giác trung bình.
cấp số nhân cho các cảnh lớn, (2) bỏ qua
Tiếp theo, chúng tôi đánh dấu các khoảng cách này bằng cách truy tìm 32
không gian trống và vùng bị che khuất và (3) nén mẫu vào
“tia đâm” [Nooruddin và Turk 2003], chúng tôi phân bố đồng đều trên quả cầu
vùng đệm dày đặc để thực hiện hiệu quả.
bằng cách sử dụng mạng Fibonacci được bù ngẫu nhiên và độc lập cho mọi vị

trí huấn luyện. Nếu bất kỳ tia nào trong số này đạt đến vô cùng, vị trí x
E.1 Kích thước bước di chuyển tia và điểm dừng Trong
tương ứng được coi là “bên ngoài” vật thể và khoảng cách được đánh dấu
3
dương. Ngược lại, nó được đánh dấu là âm.3 các cảnh NeRF tổng hợp mà chúng tôi liên kết với khối đơn vị [0, 1] , chúng ,

Để đạt hiệu quả tối đa, chúng tôi sử dụng phần cứng dò tia NVIDIA thông tôi sử dụng kích thước bước di chuyển tia cố định bằng Δ := √ 3/1024; √ 3

qua khung OptiX 7 , nhanh hơn nhiều so với việc sử dụng tam giác BVH đã đề đại diện cho đường chéo của khối lập phương đơn vị.

cập trước đó cho các giao điểm hình tia trên GPU RTX 3090 của chúng tôi. Trong tất cả các cảnh khác, dựa trên định lý đánh chặn4 , chúng tôi
đặt kích thước bước tỷ lệ với khoảng cách dọc theo tia Δ := /256, được gắn với

khoảng √ 3/1024, · √ 3/1024 , trong đó là kích thước của trục lớn nhất của hộp

D MLPS CƠ SỞ VỚI MÃ HÓA TẦN SỐ Trong các thử nghiệm hàm khoảng cách đã ký giới hạn của cảnh. Sự lựa chọn kích thước bước này thể hiện sự tăng trưởng theo

cấp số nhân, trong đó có nghĩa là chi phí tính, toán chỉ tăng logarit theo đường
(SDF), bộ nhớ đệm bức xạ thần kinh (NRC) và trường mật độ và bức xạ thần kinh
kính cảnh mà không làm giảm chất lượng.
(NeRF), chúng tôi sử dụng MLP có tiền tố là mã hóa tần số làm đường cơ sở. Các kiến

trúc tương ứng giống với kiến trúc trong văn bản chính, ngoại trừ MLP lớn hơn và
Cuối cùng, chúng tôi dừng việc di chuyển tia và đặt phần đóng góp còn lại
mã hóa băm được thay thế bằng sóng hình sin và cosine (SDF và NeRF) hoặc sóng tam
về 0 ngay khi độ truyền qua của tia giảm xuống dưới ngưỡng; trong trường hợp
giác (NRC).
của chúng tôi = 10 4 .

Bảng sau liệt kê số lượng lớp ẩn, nơ-ron trên mỗi lớp ẩn, tầng tần số (mỗi
Công việc có liên quan. Mildenhall và cộng sự. [2019] đã xác định kích thước
tầng được chia tỷ lệ theo hệ số 2 theo Vaswani và cộng sự [2017]) và tốc độ
bước phi tuyến tính là có lợi: họ khuyên nên lấy mẫu thống nhất trong không gian
học tập được điều chỉnh.
chênh lệch của khung máy ảnh trung bình, mạnh hơn so với bước theo cấp số nhân của

chúng tôi, một mặt chỉ yêu cầu một số bước không đổi, nhưng mặt khác có thể dẫn đến

Lớp ẩn nguyên thủy Tần số nơ-ron Tốc độ học tập mất độ chính xác so với bước theo cấp số nhân [Neff et al. 2021].

SDF số 8 128 10 3 · 10 4

NRC 3 64 10 10 2 Ngoài bước phi tuyến tính, một số phương pháp trước đó đề xuất
NeRF 7/1 256/256 16/4 10 3 làm cong miền 3D của cảnh về phía gốc, từ đó cải thiện các thuộc
tính số của mã hóa đầu vào của chúng [Barron et al. 2021b;

Đối với NeRF, số được liệt kê đầu tiên tương ứng với mật độ MLP Mildenhall và cộng sự. 2020; Neff và cộng sự. 2021]. Điều này làm
cho các tia bị cong, dẫn đến việc tái thiết của chúng tôi trở nên tồi tệ hơn.
3
Nếu lưới kín nước, sẽ rẻ hơn nếu ký khoảng cách dựa trên (các) pháp tuyến của (các) tam giác
gần nhất từ bước trước. Chúng tôi cũng đã triển khai quy trình này nhưng tắt nó theo mặc định 4Bề ngoài của các vật thể vẫn giữ nguyên miễn là kích thước và khoảng cách của chúng với người
do nó không tương thích với các mắt lưới thông thường trong thực tế. quan sát vẫn tỷ lệ thuận.

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.
Machine Translated by Google

Đồ họa thần kinh tức thì với mã hóa băm đa độ phân giải • 102:15

Ngược lại, chúng tôi ánh xạ tuyến tính các tọa độ đầu vào vào khối đơn vị trước Bảng 3. Kích thước lô, số lượng tia trên mỗi lô và số lượng mẫu trên mỗi tia cho

khi đưa chúng vào mã hóa băm của chúng tôi, dựa vào mức tăng trưởng đa độ phân giải phương pháp đầy đủ của chúng tôi (“Của chúng tôi: Hash”), việc triển khai mã hóa

tần số NeRF (“Của chúng tôi: Freq.”) và mip-NeRF. Vì các giá trị tương ứng với
theo cấp số nhân của nó để đạt được độ phân giải tối đa được chia tỷ lệ theo tỷ lệ
với số cấp không đổi (biến như trong Phương trình (3)) hoặc theo logarit nhiều cấp phương pháp của chúng tôi thay đổi theo cảnh nên chúng tôi báo cáo các giá trị tối
tối đa
thiểu và tối đa trên các cảnh tổng hợp từ Bảng 2.
độ (không đổi).

Phương pháp Kích thước lô = Số mẫu trên mỗi tia × Số tia trên mỗi lô

E.2 Lưới chiếm chỗ Để bỏ qua Của chúng tôi: Băm 256 ki 3,1 đến 25,7 10 Ki đến 85 Ki

các bước di chuyển tia trong không gian trống, chúng tôi duy trì một tầng các Của chúng tôi: 256 ki 2,5 đến 9 29 Ki đến 105 Ki

lưới chiếm chỗ đa tỷ lệ, trong đó = 1 cho tất cả các cảnh NeRF tổng hợp (lưới Tần số. mip-NeRF 1 Mi 128 thô + 128 mịn 4 ki

đơn) và [1, 5] cho các cảnh trong thế giới thực lớn hơn (lên đến 5 lưới,

tùy thuộc vào kích thước cảnh). Mỗi lưới có độ phân giải 1283 trải rộng trên ,
1 1 3 dự đoán [Mildenhall et al. 2020] hoặc thông qua lấy mẫu tầm quan trọng thần
một miền tăng trưởng về mặt hình học [ 2 tập trung +0,5, 2 +0,5]
kinh [Müller et al. 2019] như được thực hiện trong DONeRF [Neff et al. 2021].
quanh (0,5, 0,5, 0,5).

Mỗi ô lưới lưu trữ chỗ ở dưới dạng một bit. Các ô được sắp xếp theo thứ tự
E.3 Số lượng tia so với kích thước lô Kích thước lô
Morton (đường cong z) để tạo điều kiện thuận lợi cho việc truyền tải mạch lạc
có ảnh hưởng đáng kể đến chất lượng và tốc độ hội tụ NeRF. Chúng tôi nhận thấy
bộ nhớ bằng máy phân tích vi phân kỹ thuật số (DDA). Trong quá trình di chuyển
rằng việc huấn luyện từ số lượng tia lớn hơn, tức là kết hợp nhiều biến thể
tia, bất cứ khi nào một mẫu được đặt theo kích thước bước từ phần trước, mẫu
quan điểm hơn vào lô, sẽ hội tụ đến sai số thấp hơn trong ít bước hơn. Trong
sẽ bị bỏ qua nếu bit của ô lưới của nó thấp.
quá trình triển khai của chúng tôi , trong đó số lượng mẫu trên mỗi tia có
Lưới nào được truy vấn được xác định bởi cả vị trí mẫu x
thể thay đổi do tỷ lệ sử dụng, do đó, chúng tôi đưa càng nhiều tia càng tốt
và kích thước bước Δ : trong số các lưới bao phủ x, lưới tốt
vào các lô có kích thước cố định thay vì xây dựng các lô có kích thước thay
nhất có chiều dài cạnh ô lớn hơn Δ được truy vấn.
đổi từ số lượng tia cố định.

Cập nhật lưới chiếm chỗ. Để liên tục cập nhật lưới chiếm chỗ trong khi Trong Bảng 3, chúng tôi liệt kê phạm vi số lượng tia thu được trên mỗi lô và

huấn luyện, chúng tôi duy trì bộ lưới thứ hai có cùng bố cục, ngoại trừ việc các mẫu tương ứng trên mỗi tia. Chúng tôi sử dụng kích thước lô 256 Ki, mang lại sự

chúng lưu trữ các giá trị mật độ dấu phẩy động có độ chính xác đầy đủ thay vì hội tụ đồng hồ treo tường nhanh nhất trong các thử nghiệm của chúng tôi. Kích thước

các bit đơn lẻ. này nhỏ hơn 4× so với kích thước lô được chọn trong mip- NeRF, có thể là do số

Chúng tôi cập nhật các lưới sau mỗi 16 lần lặp đào tạo bằng cách thực hiện- lượng mẫu mà mỗi tia của chúng yêu cầu lớn hơn. Tuy nhiên, do có vô số khác biệt

thực hiện các bước sau. Chúng khác trong quá trình triển khai nên cần phải thực hiện một nghiên cứu chi tiết hơn

để đưa ra kết luận chắc chắn.


tôi (1) phân rã giá trị mật độ trong mỗi ô lưới theo hệ số 0,95,
(2) lấy mẫu ngẫu nhiên các ô ứng cử viên và đặt giá trị của chúng ở
Cuối cùng, chúng tôi lưu ý rằng lưới chiếm chỗ trong đường cơ sở mã hóa tần
mức tối đa của giá trị hiện tại và thành phần mật độ của mô hình
số của chúng tôi (“Của chúng tôi: Freq.”; Phụ lục D) thậm chí còn tạo ra ít
NeRF tại một vị trí ngẫu nhiên trong ô và (3) cập nhật các
mẫu hơn so với khi được sử dụng cùng với mã hóa băm của chúng tôi. Điều này có
bit chiếm chỗ bằng cách đặt ngưỡng mật độ của mỗi ô với = 0,01 · 1024/
thể được giải thích bằng cách tái cấu trúc mã hóa băm chi tiết hơn một chút:
√ 3, tương ứng với việc đặt ngưỡng độ mờ của bước di chuyển tia tối khi chi tiết bổ sung mịn hơn độ phân giải lưới chiếm chỗ, không gian trống xung
thiểu thêm 1 exp(-0,01) ≈ 0,01. quanh nó không thể được loại bỏ một cách hiệu quả và phải được thực hiện bằng

Chiến lược lấy mẫu của các ô ứng cử viên phụ thuộc vào tiến trình huấn luyện các bước bổ sung.

vì lưới chiếm chỗ không lưu trữ thông tin đáng tin cậy trong các lần lặp lại

đầu tiên. Trong 256 bước huấn luyện đầu tiên, chúng tôi lấy mẫu = · 1283 ô

một cách thống nhất mà không lặp lại. Đối với các bước huấn luyện tiếp theo,

chúng tôi đặt = · 1283 /2 và chúng tôi chia thành hai bộ. Các ô /2 đầu tiên

được lấy mẫu thống nhất giữa tất cả các ô. Lấy mẫu loại bỏ được sử dụng cho

các mẫu còn lại để hạn chế lựa chọn các ô hiện đang bị chiếm giữ.

Công việc có liên quan. Ý tưởng hạn chế đánh giá MLP đối với các ô bị chiếm

dụng đã được khai thác trong nghiên cứu trước đây về mã hóa dựa trên ô có thể

huấn luyện được [Liu et al. 2020; Sun và cộng sự. 2021; Yu và cộng sự. 2021a,b].

Ngược lại với các bài viết này, lưới chiếm chỗ của chúng tôi độc lập với mã

hóa đã học, cho phép chúng tôi biểu diễn nó gọn hơn dưới dạng trường bit (và

do đó ở độ phân giải được tách rời khỏi mã hóa) và sử dụng nó khi so sánh với

các phương pháp khác không có mã hóa không gian được đào tạo, ví dụ: “Của

chúng tôi: Tần số” trong Bảng 2.

Không gian trống cũng có thể được bỏ qua bằng cách lấy mẫu quan trọng theo

phân bố độ sâu, chẳng hạn như bằng cách lấy mẫu lại kết quả của một bản đồ thô

ACM Trans. Đồ thị., Tập. 41, số 4, Điều 102. Ngày xuất bản: tháng 7 năm 2022.

You might also like