Professional Documents
Culture Documents
点子1USRNET 翻译
点子1USRNET 翻译
摘要
基于学习的单幅图像超分辨率(SISR)方法不断显示出优 降解过程
于传统基于模型的方法的有效性和效率,这在很大程度 y = x⊗k↓s + n
上得益于端到端训练。然而,与基于模型的方法在统一的 x = f (y SISR 过程;s,
MAP (maximum a posteriori)框架下能够处理具有不同比例 k, σ)(单个模型?)
因子、模糊核和噪声水平的 SISR 问题不同,基于学习的
方法普遍缺乏这样的灵活性。为了解决这一问题,本文
提出了一种端到端可训练展开网络,该网络同时利用了
基于学习的方法和基于模型的方法。具体来说,通过半 图 1 所示。而单一退化模型(即;, Eq.(1))可以导致一个 HR 图像产
二次分裂算法展开 MAP 推理,可以获得由交替求解一个 生各种 LR 图像,具有不同的模糊核、比例因子和噪声,但学习一
个单一的深度模型将所有这样的 LR 图像转化为 HR 图像的研究
数据子问题和一个先验子问题组成的固定次数的迭代。
仍然缺乏。
然后,这两个子问题就可以用神经模块来解决,从而形
成一个端到端可训练的迭代网络。因此,所提出的网络
继承了基于模型的方法的灵活性,可以通过单一模型对 现有 SISR 方法的简单化退化假设和真实图像[16]的复杂
不同比例因子的模糊、噪声图像进行超级解析,同时保 退化。实际上,对于尺度因子 s,经典的(传统的)SISR 退
持了基于学习的方法的优势。大量的实验证明了所提出 化模型[17,18,37]假设 LR 图像 y 是 HR 图像 x 的一个模
的深度展开网络在灵活性、有效性以及可泛化性方面的 糊的、decimated 的、有噪声的版本,在数学上可以表示
优势。 为
(1)
3217
56 岁 的 60) 。 然 而 , 双 三 次 退 化 在 数 学 上 是 复 杂 的 3) USRNet 在本质上强加了退化约束(即;,估计的 HR 图
[25],这反过来又阻碍了基于模型的方法的发展。由于这 像应该符合退化过程)和一个先验约束(即;,估计的
个原因,最近提出的 SISR 解决方案主要由基于学习的 HR 图像应该具有自然特征)对解的约束。
方法所主导,这些方法从双立方向下 sam 的 LR 图像学 4) USRNet 在具有不同退化设置的 LR 图像上表现良
习映射函数到其 HR 估计。事实上,基于学习的方法已 好,显示出很大的实际应用潜力。
经 在 改 善 双 三 次 退 化 的 PSNR[26,70] 和 感 知 质 量
[31,47,58]方面取得了显著进展,其中基于卷积神经网络 2.相关工作
(CNN)的 方法 由 于其 强 大的 学习 能 力和 并 行计 算 的速
度,是最受欢迎的。然而,在应用 cnn 通过单一模型来 2.1.退化模型
处理 Eq.(1)方面,很少有人做过相关工作。与基于模型
退化模型的知识对于 SISR 的成功至关重要[16,59],因
的方法不同,cnn 通常缺乏灵活性,无法通过单一的端到
为它定义了 LR 图像是如何从 HR 图像退化的。除了经典
端训练模型对不同比例因子的模糊、噪声 LR 图像进行 的退化模型和双三次退化模型,在 SISR 文献中还提出了
超级解析(见图 1)。 其他几种模型。
在本文中,我们提出了一种深度展开的超分辨率网络 在一些早期的作品中,退化模型假设 LR 图像直接从
(USRNet),以弥合基于学习的方法和基于模型的方法之 HR 图像中下采样而不模糊,这对应于图像插值[8]的问
间的差距。一方面,与基于模型的方法类似,USRNet 可 题。在[34,52]中,进一步假设双立方下采样图像受到高
以有效地处理经典退化模型(即;, Eq.(1)),通过单一模 斯噪声或 JPEG 压缩噪声的破坏。在[15,42]中,退化模
型,具有不同的模糊核、比例因子和噪声水平。另一方 型集中于高斯模糊和随后的比例因子为 3 的下采样。注
面,与基于学习的方法类似,USRNet 可以以端到端的方 意 , 与 Eq.(1)不 同 的 是 , 他 们 的 下 采 样 对 每 个 不 同 的
式进行训练,以保证有效性和效率。为此,我们首先通 3×3 补丁保持中心像素而不是左上角像素。在[67]中,
过半二次元分裂算法展开基于模型的能量函数。相应 退化模型假设 LR 图像是带有一些高斯噪声的模糊的、
地,我们可以得到一个推理,它在求解两个子问题之间 双采样的 HR 图像。通过假设双立方下采样的干净 HR
迭代交替,一个与数据项有关,另一个与先前的项有 图像也是干净的,[68]将退化模型视为对 LR 图像进行
关。然后,我们将推理视为一个深度网络,将两个子问 去模糊处理和具有双三次退化的 SISR 的组合。
题的解替换为神经模块。由于这两个子问题分别对应于
虽然已经提出了许多退化模型,但针对经典退化模型
加强退化一致性知识和保证去噪先验知识,USRNet 具有 的基于 cnn 的 SISR 很少受到重视,值得进一步研究。
良好的原则,具有显式退化和先验约束,这是与现有的
基于 学习 的 SISR 方法 相比 的独 特优 势。 值得 注意 的 2.2.灵活 SISR 方法
是,由于 USRNet 对每个子问题都涉及到一个超参数,
尽管基于 cnn 的 SISR 方法在处理双三次退化方面取
因此该网络包含了一个额外的超参数生成模块。而且,
得了令人印象深刻的成功,但将它们应用到其他更实际
为了减少参数的数量,所有先前的模块都共享相同的架
的退化模型中并不简单。出于实用性的考虑,最好是设
构和相同的参数。
计一种灵活的超级解析器,它采用了三个关键因素,
本工作的主要贡献如下: 即;,尺度因子,模糊核和噪声水平,都要考虑在内。
1) 提 出 了 一 个 端 到 端 可 训 练 的 展 开 超 分 辨 率 网 络 人们提出了几种方法来通过单一模型解决具有不同尺
(USRNet)。USRNet 是首次尝试通过单一的端到端训 度因子的双三次退化问题,例如具有渐进上采样的
练模型来处理具有不同尺度因子、模糊核和噪声水 LapSR[30],具有尺度特定分支的 MDSR[36],具有元
平的经典退化模型。 高档模块的 Meta-SR[23]。为了灵活地处理模糊 LR 图
2) USRNet 整合了基于模型方法的灵活性和基于学习 像,[44,67]中提 出的 方法 将 PCA 降维 模糊 核作 为输
方法的优势,为弥合基于模型方法和基于学习方 入。然而,这些方法都局限于高斯模糊核。也许
法之间的差距提供了一条途径。
3218
最灵活的基于 cnn 的工作,能够处理各种模糊内核、尺 3.方法
度因子和噪声水平,是深度即插即用方法[65,68]。这类 3.1.退化模型:经典 vs.双立方
方法的主要思想是将学习到的 CNN 先验插入 MAP 框架
下的迭代解中。不幸的是,这些本质上都是基于模型的 由于双立方降解已经得到了很好的研究,因此研究它
方法,计算负担高,还需要手动选择超参数。如何设计 与经典降解模型的关系是很有趣的。实际上,双三次退化
一个端到端可训练的模型,以便用更少的迭代获得更好 可以通过在 Eq.(1)中设置适当的模糊核来近似。为了实现
的结果,仍有待研究。 这一点,我们采用数据驱动的方法,通过在大 HR/双三次
虽然基于学习的盲图像恢复最近受到了相当多的关注 退化- lr 对{(x, y)}上最小化重构误差来解决以下核估计问
[12,39,43,50,62],但我们注意到,这项工作关注的是非盲 题
SISR,它假设 LR 图像、模糊核和噪声水平是事先已知
的。事实上,非盲 SISR 仍然是一个活跃的研究方向。首 k×sBicubic = arg min kx⊗k (k)↓s −yk。 (2)
先,模糊核和噪声水平是可以估计的,或者是根据其他
信息(例如,相机设置)已知的。其次,用户可以通过调整 图 2 为比例因子 2,3 和 4 的近似双三次核。需要注意的
模糊核 和噪声级别来 控制对锐度和 平滑度的偏好 。第 是,由于 downsamlp 操作为每个不同的 s × s patch 选择了
三,非盲 SISR 可以成为解决盲 SISR 的中间步骤。 左上角的像素,因此比例因子 2、3 和 4 的双三次核向左
上角方向分别有 0.5、1 和 1.5 个像素的中心偏移。
10
5 5
10 10
2.3.深度展开图像复原
15 15 15
除了深度即插即用方法(参见,例如,[7,10,22,57]),深 25
5 10 15 20. 25
25
5 10 15 20. 25
25
5 10 15 20. 25
度展开方法还可以集成基于模型的方法和基于学习的方
法。它们的主要区别在于,后者通过在大型训练集上最小 0.2 0.15 0.1
化损失函数,以端到端方式优化参数,因此即使迭代次数 0.15
0.1
0.08
0.06
较少,通常也能产生更好的结果。早期的深度展开方法可 0.1
0.05
0.04
以追溯到[4,48,54],提出了一种基于梯度下降算法的紧凑
0.05 0.02
0
0 0
MAP 推理来进行图像去噪。此后,基于某些优化算法(如 5
10
15
20.
25
5
10
15
20.
25
5
10
15
20.
25
半二次分裂[2]、乘子[6]和原对偶的交替方向法[1,9])的深 15
20.
25
5
10 15
20.
25
5
10 15
20.
25
5
10
3219
其中,µ为判罚参数。这样的问题可以通过迭代求解 x 和 z 数据模块 D 数据模块扮演了 Eq.(7)的角色,它是数据子问题的
的子问题来解决 封闭形式解。直观上,它的目标是找到一个更清晰的 HR
图像,该图像将数据项 ky−(z⊗k)↓的加权组合最小化 s k2
和二次正则化项 kz−xk−1k2 与权衡超参数αk。由于数据项
对应退化模型,因此数据模块不仅具有以比例因子 s 和模
糊核 k 为输入的优势,而且对解施加退化约束。实际上,
手工设计这样一个简单但有用的多输入模块是很困难的。
根据 Eq.(5),µ应该足够大,使 x 和 z 近似等于不动点。然
为简洁起见,将 Eq.(7)改写为
而,这也会导致收敛缓慢。因此,一个很好的经验法则是迭
代增加µ。为方便起见,第 k 次迭代的µ记为µk。 (8)
可 以 观 察 到 , 数 据 项 和 先 验 项 分 别 解 耦 为 Eq.(5) 和
Eq.(6)。对于 Eq.(5)的解,假设卷积是在圆形边界条件下 请注意,x0 通过最简单近邻插值,用比例因子 s 插值 y
进行的,可以利用快速傅里叶变换(FFT)。值得注意的是, 来 初 始 化。 需 要 注 意 的 是, 式 (8)不 包 含 可训 练 的 参
它有一个封闭形式的表达式[71] 数,由于数据项与先验项之间的完全解耦,这反过来又
导致了更好的可泛化性。对于实现,我们使用
PyTorch,其中主 FFT 和反 FFT 运算符可以通过 torch
实现。rfft 和火炬。分别 irfft。
3221
表 1。不同方法对不同比例因子、模糊核和噪声水平组合的平均 PSNR(dB)结果。最好的两个结果分别用红色和蓝色高亮显示。
模糊的内
核
方法
比例因子 噪音
水平
×2×3×4 0 29.48 26.76 25.31 24.37 24.38 24.10 24.25 23.63 20.31 20.45 20.57 22.04
RCAN [70] 0 24.93 27.30 25.79 24.61 24.57 24.38 24.55 23.74 20.15 20.25 20.39 21.68
0 22.68 25.31 25.59 24.63 24.37 24.23 24.43 23.74 20.06 20.05 20.33 21.47
×2×3×4 0 29.44 29.48 28.57 27.42 27.15 26.81 27.09 26.25 14.22 14.22 16.02 19.39
ZSSR [51] 0 25.13 25.80 25.94 25.77 25.61 25.23 25.68 25.41 16.37 15.95 17.35 20.45
0 23.50 24.33 24.56 24.65 24.52 24.20 24.56 24.55 16.94 16.43 18.01 20.68
IKC [20] ×4 0 22.69 25.26 25.63 25.21 24.71 24.20 24.39 24.77 20.05 20.03 20.35 21.58
×2 ×3 00 29.60 30.16 29.50 28.37 28.07 27.95 28.21 27.19 28.58 26.79 29.02 28.96
×3 ×3 2.55 25.97 26.89 27.07 27.01 26.83 26.76 26.88 26.67 26.22 25.59 26.14 26.05
IRCNN [65] ×4 7.65 25.70 26.13 25.72 25.33 25.28 25.18 25.34 24.97 25.00 24.64 24.90 24.73
0 24.58 24.68 24.59 24.39 24.24 24.20 24.27 24.02 23.94 23.77 23.75 23.69
23.99 25.01 25.32 25.45 25.36 25.26 25.34 25.47 24.69 24.39 24.44 24.57
×2 ×3 00 30.55 30.96 30.56 29.49 29.13 29.12 29.28 28.28 30.90 30.65 30.60 30.75
×3 ×3 2.55 27.16 27.76 27.90 27.88 27.71 27.68 27.74 27.57 27.69 27.50 27.50 27.41
USRNet ×4 7.65 26.99 27.40 27.23 26.78 26.55 26.60 26.72 26.14 26.90 26.80 26.69 26.49
0 26.45 26.52 26.10 25.57 25.46 25.40 25.49 25.00 25.39 25.47 25.20 25.01
25.30 25.96 26.18 26.29 26.20 26.15 26.17 26.30 25.91 25.57 25.76 25.70
PSNR(dB) 24.92/22.53/21.88 25.24/23.75/21.92 25.42/23.55/26.45 25.82/24.80/27.39 24.80/22.44/21.51 24.26/23.25/25.00 Zoomed LR (×4) RCAN
[70] IKC [20] IRCNN [65] USRNet (our) RankSRGAN [69] USRGAN (our)
3222
x0(上);x(底部) z1 −→ x1 −→ z2 X7−→z8−→x8
3223
4.4.分析 H 指出 USRGAN 是在尺度因子 4 上训练的,而图 7(b)显示
了它在尺度因子 3 上的视觉结果。这进一步表明,
图 6 为不同比例因子 s 和噪声水平σ组合下超参数模块
USRGAN 的先验模块可以推广到其他尺度因子。综上所
的输出。从图 6(a)可以观察到,α与σ呈正相关,随 s 而 述,所提出的深度展开架构在泛化方面具有优势。
变化,这实际上符合α的定义 k 第 3.2 节和我们在第 3.3
节的分析。从图 6(b)可以看出,β随着迭代次数的增加呈 4.6.真正的图像超分辨率
下降趋势,随着尺度因子和噪声水平的增加而增加。这意
味着 HR 估计的噪声水平在迭代过程中逐渐降低,复杂退 由于式(7)是基于圆形边界条件的假设,一般需要对真实
化需要较大的βk 为了解决这个问题。需要指出的是,学习 LR 图像进行适当的边界处理。我们用以下三步来做这样的
到的超参数设置与 IRCNN 的设置是一致的[65]。综上所 预处理。首先,将 LR 图像插值到所需的大小。其次,在
述,习得的 H 是有意义的,因为它发挥了适当的作用。 带模糊核的插值图像上采用[38]中提出的边界处理方法。
最后, 将下采样 的边界填 充到原始 LR 图像上 。图 8 为
One
hun
dre S = 2, S =0
1.5
S = 2, S = 0
USRNet 在比例因子为 4 的真实 LR 图像上的视觉结果。
根据用户偏好手动选择模糊核为宽度为 2.2 的各向同性高
d. =0 = 0
= 3, S = 1.25 = 3, S =
4, S = =0 4, S = = 0
10 - 3, S = 3 = 2.55 3, S = 3 = 2.55
0.75
10 -
2
0.5
质量提高的 HR 图像。
三
分
0.25
10-4
0
1 2 3. 4545 6 7 8 1 2 3. 6 7 8
纯
#迭代#迭代
10 -
6
(a) α (b) β
图 6。超参数模块 H 的输出,即;, (a) α和(b) β,相对于 s 和
σ的不同组合。
5.结论