Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

图像超分辨率的深度展开网络

张 凯 Luc Van Gool Radu Timofte 计 算 机 视 觉 实 验


室,瑞士苏黎世联邦理工学院
{ 凯 。 张 ,vangool timofter} @vision.ee.ethz 。 ch
https://github.com/cszn/USRNet

摘要

基于学习的单幅图像超分辨率(SISR)方法不断显示出优 降解过程
于传统基于模型的方法的有效性和效率,这在很大程度 y = x⊗k↓s + n
上得益于端到端训练。然而,与基于模型的方法在统一的 x = f (y SISR 过程;s,
MAP (maximum a posteriori)框架下能够处理具有不同比例 k, σ)(单个模型?)
因子、模糊核和噪声水平的 SISR 问题不同,基于学习的
方法普遍缺乏这样的灵活性。为了解决这一问题,本文
提出了一种端到端可训练展开网络,该网络同时利用了
基于学习的方法和基于模型的方法。具体来说,通过半 图 1 所示。而单一退化模型(即;, Eq.(1))可以导致一个 HR 图像产
二次分裂算法展开 MAP 推理,可以获得由交替求解一个 生各种 LR 图像,具有不同的模糊核、比例因子和噪声,但学习一
个单一的深度模型将所有这样的 LR 图像转化为 HR 图像的研究
数据子问题和一个先验子问题组成的固定次数的迭代。
仍然缺乏。
然后,这两个子问题就可以用神经模块来解决,从而形
成一个端到端可训练的迭代网络。因此,所提出的网络
继承了基于模型的方法的灵活性,可以通过单一模型对 现有 SISR 方法的简单化退化假设和真实图像[16]的复杂
不同比例因子的模糊、噪声图像进行超级解析,同时保 退化。实际上,对于尺度因子 s,经典的(传统的)SISR 退
持了基于学习的方法的优势。大量的实验证明了所提出 化模型[17,18,37]假设 LR 图像 y 是 HR 图像 x 的一个模
的深度展开网络在灵活性、有效性以及可泛化性方面的 糊的、decimated 的、有噪声的版本,在数学上可以表示
优势。 为

(1)

1.介绍 其中⊗表示 x 带模糊核 k 的二维卷积,↓s 表示标准 s-


fold 下采样器,即;,保留每个不同 s×s patch 的左上角像
单幅图像超分辨率(SISR)是指从低分辨率(LR)图像中 素,丢弃其他像素,n 通常假设为加性的高斯白噪声
恢复自然、清晰的详细高分辨率(HR)对应物的过程。它 (AWGN),由标准差(或噪声水平)σ指定[71]。Eq.(1)具有
是低级计算机视觉中的经典不适定逆问题之一,在现实 明确的物理意义,通过为底层 HR 图像设置适当的模糊
世界中有着广泛的应用,如在高清显示器上增强图像视 核、比例因子和噪声,可以近似各种 LR 图像。特别是,
觉 质 量 [42,53] , 以 及 提 高 其 他 高 级 视 觉 任 务 [13] 的 性 Eq.(1)在基于模型的方法中得到了广泛的研究,该方法解
能。 决了 MAP 框架下一个数据项和一个先验项的组合。
尽管已经进行了几十年的研究,但出于学术和工业目 尽管基于模型的方法通常在算法上是可解释的,但它
的,SISR 仍然需要进一步的研究[35,64]。困难的主要原 们通常缺乏一个标准的评价标准,因为除了比例因子之
因是 外,Eq.(1)还额外涉及一个模糊核和添加的噪声。为了方
便,研究人员求助于双三次退化,而不考虑模糊核和噪
声水平[14,

3217
56 岁 的 60) 。 然 而 , 双 三 次 退 化 在 数 学 上 是 复 杂 的 3) USRNet 在本质上强加了退化约束(即;,估计的 HR 图
[25],这反过来又阻碍了基于模型的方法的发展。由于这 像应该符合退化过程)和一个先验约束(即;,估计的
个原因,最近提出的 SISR 解决方案主要由基于学习的 HR 图像应该具有自然特征)对解的约束。
方法所主导,这些方法从双立方向下 sam 的 LR 图像学 4) USRNet 在具有不同退化设置的 LR 图像上表现良
习映射函数到其 HR 估计。事实上,基于学习的方法已 好,显示出很大的实际应用潜力。
经 在 改 善 双 三 次 退 化 的 PSNR[26,70] 和 感 知 质 量
[31,47,58]方面取得了显著进展,其中基于卷积神经网络 2.相关工作
(CNN)的 方法 由 于其 强 大的 学习 能 力和 并 行计 算 的速
度,是最受欢迎的。然而,在应用 cnn 通过单一模型来 2.1.退化模型
处理 Eq.(1)方面,很少有人做过相关工作。与基于模型
退化模型的知识对于 SISR 的成功至关重要[16,59],因
的方法不同,cnn 通常缺乏灵活性,无法通过单一的端到
为它定义了 LR 图像是如何从 HR 图像退化的。除了经典
端训练模型对不同比例因子的模糊、噪声 LR 图像进行 的退化模型和双三次退化模型,在 SISR 文献中还提出了
超级解析(见图 1)。 其他几种模型。
在本文中,我们提出了一种深度展开的超分辨率网络 在一些早期的作品中,退化模型假设 LR 图像直接从
(USRNet),以弥合基于学习的方法和基于模型的方法之 HR 图像中下采样而不模糊,这对应于图像插值[8]的问
间的差距。一方面,与基于模型的方法类似,USRNet 可 题。在[34,52]中,进一步假设双立方下采样图像受到高
以有效地处理经典退化模型(即;, Eq.(1)),通过单一模 斯噪声或 JPEG 压缩噪声的破坏。在[15,42]中,退化模
型,具有不同的模糊核、比例因子和噪声水平。另一方 型集中于高斯模糊和随后的比例因子为 3 的下采样。注
面,与基于学习的方法类似,USRNet 可以以端到端的方 意 , 与 Eq.(1)不 同 的 是 , 他 们 的 下 采 样 对 每 个 不 同 的
式进行训练,以保证有效性和效率。为此,我们首先通 3×3 补丁保持中心像素而不是左上角像素。在[67]中,
过半二次元分裂算法展开基于模型的能量函数。相应 退化模型假设 LR 图像是带有一些高斯噪声的模糊的、
地,我们可以得到一个推理,它在求解两个子问题之间 双采样的 HR 图像。通过假设双立方下采样的干净 HR
迭代交替,一个与数据项有关,另一个与先前的项有 图像也是干净的,[68]将退化模型视为对 LR 图像进行
关。然后,我们将推理视为一个深度网络,将两个子问 去模糊处理和具有双三次退化的 SISR 的组合。
题的解替换为神经模块。由于这两个子问题分别对应于
虽然已经提出了许多退化模型,但针对经典退化模型
加强退化一致性知识和保证去噪先验知识,USRNet 具有 的基于 cnn 的 SISR 很少受到重视,值得进一步研究。
良好的原则,具有显式退化和先验约束,这是与现有的
基于 学习 的 SISR 方法 相比 的独 特优 势。 值得 注意 的 2.2.灵活 SISR 方法
是,由于 USRNet 对每个子问题都涉及到一个超参数,
尽管基于 cnn 的 SISR 方法在处理双三次退化方面取
因此该网络包含了一个额外的超参数生成模块。而且,
得了令人印象深刻的成功,但将它们应用到其他更实际
为了减少参数的数量,所有先前的模块都共享相同的架
的退化模型中并不简单。出于实用性的考虑,最好是设
构和相同的参数。
计一种灵活的超级解析器,它采用了三个关键因素,
本工作的主要贡献如下: 即;,尺度因子,模糊核和噪声水平,都要考虑在内。
1) 提 出 了 一 个 端 到 端 可 训 练 的 展 开 超 分 辨 率 网 络 人们提出了几种方法来通过单一模型解决具有不同尺
(USRNet)。USRNet 是首次尝试通过单一的端到端训 度因子的双三次退化问题,例如具有渐进上采样的
练模型来处理具有不同尺度因子、模糊核和噪声水 LapSR[30],具有尺度特定分支的 MDSR[36],具有元
平的经典退化模型。 高档模块的 Meta-SR[23]。为了灵活地处理模糊 LR 图
2) USRNet 整合了基于模型方法的灵活性和基于学习 像,[44,67]中提 出的 方法 将 PCA 降维 模糊 核作 为输
方法的优势,为弥合基于模型方法和基于学习方 入。然而,这些方法都局限于高斯模糊核。也许
法之间的差距提供了一条途径。
3218
最灵活的基于 cnn 的工作,能够处理各种模糊内核、尺 3.方法
度因子和噪声水平,是深度即插即用方法[65,68]。这类 3.1.退化模型:经典 vs.双立方
方法的主要思想是将学习到的 CNN 先验插入 MAP 框架
下的迭代解中。不幸的是,这些本质上都是基于模型的 由于双立方降解已经得到了很好的研究,因此研究它
方法,计算负担高,还需要手动选择超参数。如何设计 与经典降解模型的关系是很有趣的。实际上,双三次退化
一个端到端可训练的模型,以便用更少的迭代获得更好 可以通过在 Eq.(1)中设置适当的模糊核来近似。为了实现
的结果,仍有待研究。 这一点,我们采用数据驱动的方法,通过在大 HR/双三次
虽然基于学习的盲图像恢复最近受到了相当多的关注 退化- lr 对{(x, y)}上最小化重构误差来解决以下核估计问
[12,39,43,50,62],但我们注意到,这项工作关注的是非盲 题
SISR,它假设 LR 图像、模糊核和噪声水平是事先已知
的。事实上,非盲 SISR 仍然是一个活跃的研究方向。首 k×sBicubic = arg min kx⊗k (k)↓s −yk。 (2)
先,模糊核和噪声水平是可以估计的,或者是根据其他
信息(例如,相机设置)已知的。其次,用户可以通过调整 图 2 为比例因子 2,3 和 4 的近似双三次核。需要注意的
模糊核 和噪声级别来 控制对锐度和 平滑度的偏好 。第 是,由于 downsamlp 操作为每个不同的 s × s patch 选择了
三,非盲 SISR 可以成为解决盲 SISR 的中间步骤。 左上角的像素,因此比例因子 2、3 和 4 的双三次核向左
上角方向分别有 0.5、1 和 1.5 个像素的中心偏移。

10

5 5

10 10

2.3.深度展开图像复原
15 15 15

20. 20. 20.

除了深度即插即用方法(参见,例如,[7,10,22,57]),深 25

5 10 15 20. 25
25

5 10 15 20. 25
25

5 10 15 20. 25

度展开方法还可以集成基于模型的方法和基于学习的方
法。它们的主要区别在于,后者通过在大型训练集上最小 0.2 0.15 0.1

化损失函数,以端到端方式优化参数,因此即使迭代次数 0.15
0.1
0.08

0.06

较少,通常也能产生更好的结果。早期的深度展开方法可 0.1

0.05
0.04

以追溯到[4,48,54],提出了一种基于梯度下降算法的紧凑
0.05 0.02

0
0 0

MAP 推理来进行图像去噪。此后,基于某些优化算法(如 5
10
15
20.
25
5
10
15
20.
25
5
10
15
20.
25

半二次分裂[2]、乘子[6]和原对偶的交替方向法[1,9])的深 15
20.
25
5
10 15
20.
25
5
10 15
20.
25
5
10

度展开方法被提出,以解决不同的图像恢复任务,如图像 (一)k×2 双 (b) k×3 双 (c) k×4 双


去噪[11,32]、图像去模糊[29,49]、图像压缩感知[61,63]和 三次的 三次的 三次的
图像去噪[28]。 图 2。在经典 SISR 退化模型假设下,尺度因子 2,3 和 4 的近
似双三次核。注意,这些核包含负值。
与基于普通学习的方法相比,深度展开方法具有可解释
性,并能将退化约束融合到学习模型中。然而,它们大多
存在以下一种或几种缺陷。(i)不使用深度 CNN 的先验子
3.2.展开优化
问题的解决方法不够强大,无法获得良好的性能。(ii)数据
子问题不是用封闭形式的解解决的,这可能会阻碍收敛。 根据 MAP 框架,可以通过最小化下面的能量函数来估
(iii)整个推理是通过阶段性和微调的方式进行训练的,而 计 HR 图像
不是完全的端到端方式。此外,考虑到不存在深度展开的
SISR 方法来处理经典退化模型,提出这样一种克服上述缺 (3)
点的方法是特别有趣的。
在哪里 2σ12 Ky−(x⊗k)↓s) k2 为数据项,Φ(x)为先验项,λ
为权衡参数。为了获得 Eq.(3)的展开推理,由于半二次分
裂(HQS)算法在许多应用中简单且收敛速度快,因此选择
了该算法。HQS 通过引入一个辅助变量 z 来处理 Eq.(3),
从而得到以下近似等价

3219
其中,µ为判罚参数。这样的问题可以通过迭代求解 x 和 z 数据模块 D 数据模块扮演了 Eq.(7)的角色,它是数据子问题的
的子问题来解决 封闭形式解。直观上,它的目标是找到一个更清晰的 HR
图像,该图像将数据项 ky−(z⊗k)↓的加权组合最小化 s k2
和二次正则化项 kz−xk−1k2 与权衡超参数αk。由于数据项
对应退化模型,因此数据模块不仅具有以比例因子 s 和模
糊核 k 为输入的优势,而且对解施加退化约束。实际上,
手工设计这样一个简单但有用的多输入模块是很困难的。
根据 Eq.(5),µ应该足够大,使 x 和 z 近似等于不动点。然
为简洁起见,将 Eq.(7)改写为
而,这也会导致收敛缓慢。因此,一个很好的经验法则是迭
代增加µ。为方便起见,第 k 次迭代的µ记为µk。 (8)
可 以 观 察 到 , 数 据 项 和 先 验 项 分 别 解 耦 为 Eq.(5) 和
Eq.(6)。对于 Eq.(5)的解,假设卷积是在圆形边界条件下 请注意,x0 通过最简单近邻插值,用比例因子 s 插值 y
进行的,可以利用快速傅里叶变换(FFT)。值得注意的是, 来 初 始 化。 需 要 注 意 的 是, 式 (8)不 包 含 可训 练 的 参
它有一个封闭形式的表达式[71] 数,由于数据项与先验项之间的完全解耦,这反过来又
导致了更好的可泛化性。对于实现,我们使用
PyTorch,其中主 FFT 和反 FFT 运算符可以通过 torch
实现。rfft 和火炬。分别 irfft。

其中 d 被定义为 先验模块 P 先验模块旨在获得更干净的 HR 形象 xk 通过 zk


通过噪声级别为β的降噪器 k 。受到[66]的启发,我们提
出了一种以噪声级别为输入的深度 CNN 降噪器

与 αk ,µkσ2 其 中 F(·) 和 F −1(·) 表 示 FFT 和 逆 FFT, (9)


F(·)表示 F(·)的复共轭,⊙s 表示具有元素智慧乘法的
提 出的 降噪 器, 即 ResUNet, 将剩 余块 [21]集 成到 U-
不同块处理算子,即;,对 F(k),⇓的 s × s 个不同块应用
Net[45] 中 。 U-Net 被 广 泛 用 于 图 像 到 图 像 的 映 射 , 而
元素智慧乘法 s 表示不同的块下采样器,即;,对 s × s 个
ResNet 的流行得益于快速训练和大量残留块的大容量。
不同块进行平均,↑s 表示标准 s-fold 上采样器,即;,通
ResUNet 采用的是连接的 zk 和噪声级映射作为去噪图像
过用零填充新条目来对空间大小进行上采样。特别值得注
x 的输入和输出 k 。通过这样做,ResUNet 可以通过一个
意的是,当 s = 1 时,Eq.(7)也适用于去模糊的特殊情况。
模型处理各种噪声级别,这大大减少了参数的总数量。遵
对于 Eq.(6)的解,已知,来自贝叶斯
循 U-Net 的共同设置,Re- sUNet 涉及四个尺度,每个尺
从这个角度来看,它实际上对应于一个噪声水平为βk, 度在降尺度和升尺度操作之间都有一个标识跳过连接。具
体来说,从第一个尺度到第四个尺度,每一层的通道数分
λ/µk[10]的去噪问题。
3.3.深入展开网络 别设置为 64、128、256 和 512。对于降尺度和上尺度的
操作,分别采用 2×2 strided convolution (SConv)和 2×2
一旦确定了展开优化,下一步就是设计展开超分辨率 transposed convolution (TConv)。需要注意的是,SConv 和
网络(USRNet)。因为展开优化主要由迭代求解一个数据 TConv 层以及第一层和最后一层的卷积后面都没有激活函
子问题(即;, Eq.(5))和一个先验子问题(即, Eq. (6)), 数。为了继承 ResNet 的优点,每个尺度的降尺度和升尺
USRNet 应该在一个数据模块 D 和一个先验模块 p 之间 度都采用了 2 个残块的一组。如[36]中所建议的,每个残
交替。此外,由于子问题的解也取超参数αk 和βk 分别在 留块由两个 3×3 卷积层组成,中间是 ReLU 激活层,并
US- RNet 中引入超参数模块 H 作为输入。图 3 展示了 对其输出求和一个标识跳过连接。
具有 K 次迭代的 USRNet 的总体架构,其中 K 被经验
地设置为 8,以实现速度-精度权衡。接下来,提供了更
多关于 D、P 和 H 的细节。
3220
图 3。K = 8 迭代的拟议 USRNet 的总体架构。USRNet 可以灵活地处理经典退化(即;, Eq.(1))可以通过单一模型,因为它以 LR 图像
y、比例因子 s、模糊核 k 和噪声水平σ为输入。具体来说,USRNet 由三个主要模块组成,包括使 HR 估计更清晰的数据模块 D,使
HR 估计更清晰的先验模块 P,以及控制 D 和 P 输出的超参数模块 H。

超参数模块 H 超参数模块起到“滑条”的作用,控制数据模块 对于损耗函数,我们采用 L1 损耗作为 PSNR 性能。继


和先验模块的输出。例如,解 zk 会逐渐接近 xk−1 当αk 增 [58]之后,一旦得到模型,我们进一步采用 L1 损失、
加。根据α的定义 k 和βk,αk 由σ和µ决定 k,而βk 取决于 VGG 感知损失和相对论性对抗损失[24]的加权组合,权重
λ和µk 。虽然有可能学会一个固定的λ和μk ,我们认为, 为 1、1 和 0.005,用于感知质量性能。我们将这样的微
如果λ和µ可以获得性能增益 k 变化的两个关键元素,即;, 调模型称为 USRGAN。和往常一样,USRGAN 只考虑比
尺度因子 s 和噪声水平σ,它们影响着不良姿态的程度。 例因子 4。我们不使用附加损耗来约束中间输出,因为上
设α = [α1,α2,……,αK 和β = [β1,β2 ,……,βK ],我们 述损耗工作良好。一个可能的原因是,先前的模块在迭代
使用单个模块来预测α 之间共享参数。
和β 为了优化 USRNet 的参数,我们采用亚当求解器[27],
(10) 小批量大小为 128。学习率从 1 × 10 开始−4 每 4 × 10 衰
减 0.5 倍 4 迭代,最后以 3 × 10 结束−6。值得指出的是,
超参数模块由三个完全连通的层组成,ReLU 作为前两个激 由于不同尺度因子并行计算的不可行性,每个最小批只涉
活函数,Softplus[19]作为最后一个激活函数。每层隐藏节 及一个随机尺度因子。对于 USRGAN,它的学习率固定为
点数为 64 个。考虑到αk 和βk 应为正的,而式(7)应避免 1×10−5。USRNet 和 USRGAN 的 HR 图像的 patch 大小都
被极小的α所除 k,输出的 Softplus 层后面是额外的 1e-6 设置为 96 × 96。我们用 PyTorch 在 Amazon AWS 云中的
加法。我们将在第 4.4 节中展示比例因子和噪声级别如何 4 个 Nvidia Tesla V100 gpu 上训练模型。获得 USRNet 模
影响超参数。 型大约需要两天时间。
3.4.端到端培训
4.实验
端到端训练的目的是通过在一个大型训练数据集上最
小化损失函数来学习 USRNet 的可训练参数。因此,本 我们选择广泛使用的颜色 BSD68 数据集[40,46]来定量
节主要描述训练数据、损失函数和训练设置。在[58]之 评估不同的方法。该数据集由 68 张结构微小、纹理细腻
后,我们使用 DIV2K[3]和 Flickr2K[55]作为 HR 培训数 的图像组成,因此提高 PSNR 等量化指标具有挑战性。为
据集。LR 图像通过 Eq.(1)进行合成。虽然 USRNet 关注 了通过 Eq.(1)合成相应的测试 LR 图像,应该提供模糊核
的是 SISR,但它也适用于 s = 1 去模糊的情况。因此, 和噪声水平。通常情况下,使用大量的各种模糊核和噪声
从{1,2,3,4}中选择比例因子。但由于篇幅所限,本文未考 级别进行彻底的评估是有帮助的,然而,这也会导致繁琐
虑去模糊实验。对于模糊核,我们使用[44,51,67]中的各 的评估过程。为此,如表 1 所示,我们只考虑 12 个具有
向异性高斯核和[5]中的运动核。我们将核的大小固定为 代表性和多样性的模糊核,其中包括 4 个宽度不同的各向
25× 25。对于噪声级别,我们将其范围设置为[0,25]。 同性高斯核(即;, 0.7, 1.2, 1.6 和 2.0),4 个各向异性

3221
表 1。不同方法对不同比例因子、模糊核和噪声水平组合的平均 PSNR(dB)结果。最好的两个结果分别用红色和蓝色高亮显示。
模糊的内

方法
比例因子 噪音
水平

×2×3×4 0 29.48 26.76 25.31 24.37 24.38 24.10 24.25 23.63 20.31 20.45 20.57 22.04
RCAN [70] 0 24.93 27.30 25.79 24.61 24.57 24.38 24.55 23.74 20.15 20.25 20.39 21.68
0 22.68 25.31 25.59 24.63 24.37 24.23 24.43 23.74 20.06 20.05 20.33 21.47
×2×3×4 0 29.44 29.48 28.57 27.42 27.15 26.81 27.09 26.25 14.22 14.22 16.02 19.39
ZSSR [51] 0 25.13 25.80 25.94 25.77 25.61 25.23 25.68 25.41 16.37 15.95 17.35 20.45
0 23.50 24.33 24.56 24.65 24.52 24.20 24.56 24.55 16.94 16.43 18.01 20.68
IKC [20] ×4 0 22.69 25.26 25.63 25.21 24.71 24.20 24.39 24.77 20.05 20.03 20.35 21.58
×2 ×3 00 29.60 30.16 29.50 28.37 28.07 27.95 28.21 27.19 28.58 26.79 29.02 28.96
×3 ×3 2.55 25.97 26.89 27.07 27.01 26.83 26.76 26.88 26.67 26.22 25.59 26.14 26.05
IRCNN [65] ×4 7.65 25.70 26.13 25.72 25.33 25.28 25.18 25.34 24.97 25.00 24.64 24.90 24.73
0 24.58 24.68 24.59 24.39 24.24 24.20 24.27 24.02 23.94 23.77 23.75 23.69
23.99 25.01 25.32 25.45 25.36 25.26 25.34 25.47 24.69 24.39 24.44 24.57
×2 ×3 00 30.55 30.96 30.56 29.49 29.13 29.12 29.28 28.28 30.90 30.65 30.60 30.75
×3 ×3 2.55 27.16 27.76 27.90 27.88 27.71 27.68 27.74 27.57 27.69 27.50 27.50 27.41
USRNet ×4 7.65 26.99 27.40 27.23 26.78 26.55 26.60 26.72 26.14 26.90 26.80 26.69 26.49
0 26.45 26.52 26.10 25.57 25.46 25.40 25.49 25.00 25.39 25.47 25.20 25.01
25.30 25.96 26.18 26.29 26.20 26.15 26.17 26.30 25.91 25.57 25.76 25.70

PSNR(dB) 24.92/22.53/21.88 25.24/23.75/21.92 25.42/23.55/26.45 25.82/24.80/27.39 24.80/22.44/21.51 24.26/23.25/25.00 Zoomed LR (×4) RCAN
[70] IKC [20] IRCNN [65] USRNet (our) RankSRGAN [69] USRGAN (our)

图 4。不同方法对比例因子为 4 的超分辨无噪声 LR 图像的视觉结果。模糊核显示在 LR 图像的右上角。注意,RankSRGAN 和我们的


USRGAN 的目标是感知质量,而不是 PSNR 值。

来自[67]的高斯核和来自[5,33]的 4 个运动模糊核。虽然 4.1.PSNR 值结果


已经有人指出,对于 SISR 任务,各向异性的高斯核就足
够了[44,51],但在实际应用中,能够处理更复杂的模糊核 不同方法在不同降解设置下的平均 PSNR 结果见表
的 SISR 方法将是首选。因此,有必要进一步分析不同方 1。比较的方法包括 RCAN[70]、ZSSR[51]、IKC[20]和
法的核鲁棒性,因此我们将分别报告每个模糊核的 PSNR IRCNN[65]。具体来说,RCAN 是最先进的面向 PSNR
结果,而不是每种类型的模糊核。虽然已经有人指出,适 的双立方降解方法;ZSSR 是一种非盲零射学习方法,能
当的模糊核应该随着比例因子而变化[64],但我们认为 12 够处理各向异性高斯核的 Eq. (1);IKC 是针对各向同性
种模糊核的多样性足以覆盖一个大的内核空间。对于噪声 高斯核的盲迭代核修正方法;IRCNN 是一种基于非盲深
水平,我们选择 2.55(1%)和 7.65(3%)。 度去噪器的即插即用方法。为了进行公平的比较,我们
对 IRCNN 进行了修改,通过替换其数据来处理 Eq. (1)

3222
x0(上);x(底部) z1 −→ x1 −→ z2 X7−→z8−→x8

图 5。USRNet(上行)和 USRGAN(下行)不同迭代下的 HR 估计。初始的 HR 估计 x0 为 LR 图像的最近邻插值版本。比例因子为 4,LR


图像的噪声级别为 2.55(1%),模糊核显示在 x 的右上角 0。

请注意,在[37]之后,如果有必要,我们在计算 PSNR 之 在图 4 中。除了 RCAN、IKC 和 IRCNN,我们还包括


前修复了像素移位问题。 RankSRGAN[69]与 我们 的 USR- GAN 进 行比 较。 请注
根据表 1,我们可以得到以下观察结果。首先,我们 意,由于 ZSSR 在比例因子 4 上的性能较差,因此省略
的单一模型 USRNet 在不同尺度因子、模糊核和噪声水 了它的视觉结果。从图 4 可以观察到,在具有运动模糊
平上显著优于其他竞争方法。特别是,由于端到端训 核的 LR 图像上,USRNet 和 IRCNN 产生的视觉效果要
练,在迭代次数少得多的情况下,USRNet 比 IRCNN 在 比 RCAN 和 IKC 好得多。虽然 USRNet 可以比 IRCNN
30 次 迭 代 下 至 少 有 1dB 的 平 均 PSNR 增 益 。 其 次 , 恢复更 shaper 的边缘,但两者都无法产生逼真的纹理。
RCAN 可以在类似双三次退化的退化设置上取得良好的 不出所料,USRGAN 可以产生比 USRNet 更好的视觉愉
性能,但当退化偏离双三次退化时,RCAN 的性能会严 悦效果。另一方面,如果降解很大程度上偏离了双立方
重恶化。这样的现象在[16]中已经得到了很好的研究。第 降 解 , RankSRGAN 的 性 能 就 不 会 很 好 。 相 比 之 下 ,
三,对于小尺度因子,ZSSR 在各向同性和各向异性高斯 USRGAN 可以灵活地处理各种 LR 图像。
模糊核上都表现良好,但在运动模糊核和大尺度因子上
失去了效果。实际上,由于单一的图像学习策略,ZSSR 4.3.D 和 P 的分析
很难在严重退化的图像上捕捉自然图像特征。第四,
IKC 不能很好地推广到各向异性高斯核和运动核。 由于所提出的 USRNet 是一种迭代方法,因此研究数
据模块 D 和先验模块 P 在不同迭代下的 HR 估计是很有
虽然 USRNet 不是为双三次退化而设计的,但通过将图
趣的。图 5 为一幅比例因子为 4 的 LR 图像,USRNet 和
2 中的近似双三次核作为输入来测试其结果是很有趣的。
USRGAN 在不同迭代下的结果。可以看到,D 和 P 在迭
从表 2 中可以看出,USRNet 在没有双三次核训练的情况
下仍然表现良好。 代和交替的模糊去除和细节恢复方面可以互相促进。有趣
的是,由于任务特定的训练,P 还可以作为高频恢复的细
表 2。USRNet 在常用测试数据集上对双三次退化的平均 节增强器。此外,它不会减少模糊核诱导退化,从而验证
PSNR(dB)结果。 D 和 p 之间的解耦。因此,端到端训练的 USRNet 相对
于基于高斯降噪的即插即用 SISR 具有任务特定的优势。
比例因子 Set5 Set14 BSD100 Urban100
×2 37.72 33.49 32.10 31.79
为了定量分 析 D 的作用,我 们用 5 次迭代训练 了一个
×3 34.45 30.51 29.18 28.38 USRNet 模型,结果表明,平均 PSNR 值将在高斯模糊核
×4 32.42 28.83 27.69 26.44 和运动模糊核上分别降低约 0.1dB 和 0.3dB。这进一步表
明,D 旨在消除模糊核诱导的退化。此外,可以看到
USRGAN 在前几次迭代中与 USRNet 有相似的结果,但
4.2.视觉效果 在最后几次迭代中反而会恢复微小的结构和精细的纹理。
给出了不同方法对比例因子为 4 的超分辨无噪声
LR 图像的视觉效果

3223
4.4.分析 H 指出 USRGAN 是在尺度因子 4 上训练的,而图 7(b)显示
了它在尺度因子 3 上的视觉结果。这进一步表明,
图 6 为不同比例因子 s 和噪声水平σ组合下超参数模块
USRGAN 的先验模块可以推广到其他尺度因子。综上所
的输出。从图 6(a)可以观察到,α与σ呈正相关,随 s 而 述,所提出的深度展开架构在泛化方面具有优势。
变化,这实际上符合α的定义 k 第 3.2 节和我们在第 3.3
节的分析。从图 6(b)可以看出,β随着迭代次数的增加呈 4.6.真正的图像超分辨率
下降趋势,随着尺度因子和噪声水平的增加而增加。这意
味着 HR 估计的噪声水平在迭代过程中逐渐降低,复杂退 由于式(7)是基于圆形边界条件的假设,一般需要对真实
化需要较大的βk 为了解决这个问题。需要指出的是,学习 LR 图像进行适当的边界处理。我们用以下三步来做这样的
到的超参数设置与 IRCNN 的设置是一致的[65]。综上所 预处理。首先,将 LR 图像插值到所需的大小。其次,在
述,习得的 H 是有意义的,因为它发挥了适当的作用。 带模糊核的插值图像上采用[38]中提出的边界处理方法。
最后, 将下采样 的边界填 充到原始 LR 图像上 。图 8 为
One
hun
dre S = 2, S =0
1.5

S = 2, S = 0
USRNet 在比例因子为 4 的真实 LR 图像上的视觉结果。
根据用户偏好手动选择模糊核为宽度为 2.2 的各向同性高
d. =0 = 0
= 3, S = 1.25 = 3, S =
4, S = =0 4, S = = 0

10 - 3, S = 3 = 2.55 3, S = 3 = 2.55

斯核。从图 8 中可以看出,提出的 USRNet 可以重建视觉


1 = 7.65
1
= 7.65

0.75
10 -
2

0.5
质量提高的 HR 图像。


0.25

10-4
0
1 2 3. 4545 6 7 8 1 2 3. 6 7 8

#迭代#迭代
10 -
6
(a) α (b) β
图 6。超参数模块 H 的输出,即;, (a) α和(b) β,相对于 s 和
σ的不同组合。

4.5.普遍性 (a)放大 LR (×4) (b) USRNet 图 8。USRNet (×4)在真实


LR 图像上的视觉结果。

5.结论

在本文中,我们关注经典的 SISR 退化模型,提出了


一个深度展开的超分辨率网络。受传统基于模型方法的展
开优化启发,我们设计了一个集基于模型方法的灵活性和
(a)放大 LR (×3) (b) USRNet 基于学习方法的优势于一体的端到端可训练深度网络。所
提出的网络的主要新颖之处在于,它可以通过单一模型处
理经典退化模型。具体来说,所提出的网络由三个可解释
模块组成,包括使 HR 估计更清晰的数据模块、使 HR
估计更清晰的先验模块以及控制其他两个模块输出的超参
数模块。因此,提出的方法既可以对解施加退化约束,也
可以对解施加先验约束。大量的实验结果证明了所提方法
(c)放大 LR (×3) (d) USRGAN 对各种退化 LR 图像的超分辨具有灵活性、有效性和广泛
图 7。说明 USRNet 和 USRGAN 的泛化性。(a)和(c)中内核的 性。我们相信,我们的工作可以造福于图像恢复研究界。
大小分别为 67×67 和 70×70。这两个内核选自[41]。 致谢:本工作得到了 ETH Z¨urich 基金(OK)、华为技术 Oy
(Fin- land)项目、亚马逊 AWS 拨款和 Nvidia 拨款的部分支
如前所述,由于数据项与先验项的解耦,提出的方法具 持。
有良好的泛化能力。为了证明这一优势,图 7 显示了
USRNet 和 USRGAN 在 LR 图像上的视觉结果,其核的
大小远远大于 25×25 的训练大小。可以看出,USRNet 和
USRGAN 都能产生视觉上令人愉悦的结果,这可以归因于
可训练的无参数数据模块。值得点-
3224
参考文献 国际成像系统与技术杂志,14(2):47-57,2004。1
[1] Jonas Adler 和 Ozan Oktem。¨学习原始-对偶重建。Ieee tmi, [19]泽维尔·格洛罗,安托万·博尔德斯,约舒亚·本吉奥。深
37(6): 1322-1332, 2018。3. 度稀疏整流神经网络。ICAIS, 2011 年 315-323 页。5
Manya V Afonso, Jos´e M biou 卡 斯 - 迪 亚 斯 , M´ario AT [20]顾金金、陆汉南、左望猛、董超。带有迭代核校正的盲超
Figueiredo。使用变量分裂和约束优化的快速图像恢复。 分辨率。在 CVPR 中,1604-1613 页,2019。6
IEEE, 19 (9): 2345 - 2356, [21]何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差
2010.3. 学习。在 CVPR,第 770-778 页,2016。4
[3] Eirikur Agustsson 和 Radu Timofte。Ntire 2017 单幅图像超 [22]菲利克斯·海德、史蒂文·戴蒙德、马蒂亚斯·尼纳、乔
分辨 率挑战:数据集和研究。在 CVPRW,卷 3,126-135 纳森·拉根-凯利、沃尔夫冈·海德里奇和戈登·韦茨斯
页,2017 年 7 月。5 坦。近端(Proximal):使用近端算法进行高效图像优化。
[4] Adrian 不停。为实时图像去噪训练一个主动随机场。Ieee 提 Acm tog, 35(4): 84,2016。3.
示,18(11):2451 - 2462,2009。3. [23]胡学才、穆浩源、张湘玉、王子雷、谭铁牛、孙健。Meta-
[5] Giacomo Boracchi 和 Alessandro Foi。动态模糊图像复原的 SR:一种用于超分辨率的放大任意网络。在 CVPR 中,页
建模性能。电子与电子学报,21(8):3502-3517,2012。5、6 1575-1584,2019。2
[6] Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, Jonathan [24]失读症 Jolicoeur-Martineau。相对论判别器:标准 GAN
Eckstein。通过乘法器的交替方向法进行分布式优化和统 中缺失的一个关键元素。arXiv: 1807.00734, 2018。5
计学习。机器学习的基础与趋势,3(1):1 - 122, [25]罗伯特钥匙。用于数字图像处理的三次卷积插值。 声学、
2011.3. 语音与信号处理,29(6):1153-1160,1981。2
[7]阿隆·布里夫曼,亚尼夫·罗曼诺,迈克尔·埃拉德。通 [26] Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee。使用非常深度
过去噪算法统一单幅图像和视频超分辨率。 电子学报, 卷积网络的精确图像超分辨率。在 CVPR 中,1646-1654
28(12):6063-6076,2019。3. 页,2016。2
[8] Vicent Caselles, J-M Morel, Catalina Sbert。图像插值的一 [27] Diederik Kingma 和 Jimmy Ba 。 Adam: 一 种 随 机优 化 方
种公理方法。Ieee tip, 7(3): 376-386, 1998。2 法。2015 年 ICLR。5
[9] Antonin Chambolle 和 Thomas Pock。凸问题的一阶原-对 [28] Filippos Kokkinos 和 Stamatios Lefkimmiatis。使用卷积残
偶算法及其在成像中的应用。 数学成像与视觉学报, 差去噪网络级联的深度图像去噪。在 ECCV 中,页 303-
40(1):120-145,2011。3. 319,2018。3.
[10] Stanley H Chan, Xiran Wang, Omar A Elgendy。用于图像 [29] Jakob Kruse, Carsten Rother, Uwe Schmidt。学习推动基于 fft
恢复的即插即用 ADMM:定点收敛及其应用。IEEE 计算 的高效图像反褶积的极限。在 ICCV 中,4586-4594 页,
成像学报,3(1):84-98,2017。3、4 2017。3.
[11]陈云金和 Thomas Pock。可训练的非线性反应扩散:快速有效 [30]赖伟生,黄佳斌,纳伦德拉·阿胡贾,杨明萱。用于快速精
图像恢复的灵活框架。IEEE TPAMI, 2016 年。3. 确超分辨率的深层拉普拉斯金字塔网络。CVPR,第 624-
632 页,2017 年 7 月。2
[12]陈宇、台英、刘晓明、沈春华、杨健。Fsrnet:带人脸先验的
端 到 端 学 习 人 脸 超 分 辨 率 。 在 CVPR 中 , 页 2492- [31] Christian Ledig 、 Lucas Theis 、 Ferenc Husz´ar 、 Jose
2501,2018。3. Caballero 、 Andrew Cunningham 、 Alejandro Acosta 、
Andrew Aitken 、 Alykhan Tejani 、 Johannes Totz 、 Zehan
[13]戴登新、王玉健、陈玉华、Luc Van Gool。图像超分辨率对其
他视觉任务有帮助吗?WACV, 2016 年第 1-9 页。1 Wang 等。使用生成对抗网络的照片真实感单幅图像超分
辨率。在 CVPR 中,4681-4690 页,2017 年 7 月。2
[14]董超、c.c. Loy、何开明、唐晓鸥。使用深度卷积网络的图
像超分辨率。电子学报,38(2):295-307,2016。1 [32] Stamatios Lefkimmiatis。用卷积神经网络去噪非局部彩色图
像。在 CVPR 中,页 3587 - 3596,2017。3.
[15]董伟升、张磊、史光明、李欣。用于图像恢复的非局部
集中稀疏表示。Ieee tip, 22(4): 1620-1630, 2013。2 [33] 阿 纳 特 · 莱 文 , 耶 尔 · 韦 斯 , 弗 雷 多 · 杜 兰 德 , 威
廉 ·T·弗里曼。 理解 和评 估盲反褶积 算法。在 CVPR
[16] Netalee Efrat, Daniel Glasner, Alexander Apartsin, Boaz Nadler
中,1964-1971 页,2009。6
和 Anat Levin。单幅图像超分辨率下的精确模糊模型 vs.
图像先验。在 ICCV 中,2832 - 2839 页,2013。1、2、7 [34]李涛、何小海、清林波、滕启智、陈洪刚。压缩图像级联去
块和超分辨的迭代框架。IEEE 多媒体学报, 20(6):1305-
[17] Michael Elad 和 Arie Feuer。从多个模糊、噪声和采样不足
1320,2017。2
的测量图像中恢复单个超分辨率图像。Ieee tip, 6(12):1646
- 1658,1997。1 [35]李亚伟、顾树航、Christoph Mayer、Luc Van Gool、Radu
Timofte。群稀疏性:用于网络压缩的过滤器修剪和分解之
[18]西纳·法尔肖、德克·罗宾逊、迈克尔·埃拉德、佩
曼·米兰法尔。超分辨率的进展与挑战。在- - - - - - 间的铰链。在
3225
CVPR, 2020 2745 - 2752 年,2011
年。1 年。3.
[36] Lim Bee, Sanghyun Son, Heewon Kim, Seungjun Nah, Kyoung [55] Radu Timofte, Eirikur Agustsson, Luc Van Gool, Ming- Hsuan
Mu Lee。用于单幅图像超分辨率的增强深度残差网络。在 Yang,和张磊。Ntire 2017 单幅图像超分辨率挑战:方法和
CVPRW,第 136-144 页,2017 年 7 月。2、4 结果。在 CVPRW 中,第 114-125 页,2017。5
[37]刘策、孙德清。关于贝叶斯自适应视频超分辨率。电子与电 [56]拉杜·提莫夫特,文森特·德·斯梅特,卢克·范古尔。
子学报,36(2):346-360,2013。1、7 A+:调整锚定邻域回归快速超分辨率。在 ACCV 中,第
[38]租刘和嘉雅嘉。减少图像反褶积中的边界伪影。ICIP,页 111-126 页,2014。2
505-508,2008。8 [57] Singanallur V Venkatakrishnan, Charles A Bouman 和 brent
[39] Andreas Lugmayr, Martin Danelljan 和 Radu Timofte。用于 Wohlberg。基于模型重构的即插即用先验。见 IEEE 全球
现 实 世 界 超 分 辨 率 的 无 监 督 学 习 。 在 IC- CVW 中 , 页 信号与信息处理会议,页 945-948,2013。3.
3408-3416,2019。3. [58]王鑫涛、余珂、吴士祥、顾金金、刘义豪、董超、乔宇、
D.马丁,C.福克斯,D.塔尔,J.马利克。人类分割的自然图像 陈变 Loy。ESRGAN:增强型超分辨率生成对抗网络。在
数据库及其在评估分割算法和测量生态统计中的应用。 ECCV 研讨会,2018 年。2、5
ICCV,第 416-423 页,2001。5 [59]杨志远,马超,杨明萱。单幅图像超分辨率:一个基准。在
[41]潘金山,孙德清,Hanspeter Pfister,杨明萱。使用暗通道 ECCV 中,页 372 - 386,2014。2
先 验的 盲图 像去 模 糊 。 在 CVPR 中 , 1628-1636 页 , [60]杨建超、约翰·赖特、托马斯·黄、马一。图像超分辨率作
2016。8 为原始图像补丁的稀疏表示。在 CVPR 中,2008 年第 1-8
[42]托梅·法勒和迈克尔·埃拉德。单幅图像超分辨率的基于 页。2
稀 疏 表 示 的 统 计 预 测 模 型 。 Ieee tip, 23(6): 2569-2582, [61]杨燕,孙健,李慧斌,徐宗本。压缩感知 MRI 的 Deep
2014。1、2 ADMM-Net。在 NeurIPS,第 10-18 页,2016。3.
[43]任东伟、张凯、王启龙、胡清华、左王猛。利用深度先验的 [62] Rajeev Yasarla, Federico Perazzi, Vishal M Patel。使用不确
神经盲反褶积。在 CVPR 中,1628-1636 页,2020。3. 定 性 引 导 的 多 流 语 义 网 络 去 模 糊 人 脸 图 像 。 arXiv:
[44] Gernot Riegler, Samuel Schulter, Matthias Ruther 和 Horst 1907.13106, 2019。3.
Bischof。非盲单幅图像超分辨率的条件回归模型。ICCV [63]张健,伯纳德·加尼姆。ISTA-Net:基于可解释优化的图像
中,522-530 页,2015。2、5、6 所示 压缩感知深度网络。在 CVPR 中,1828-1837 页,2018。
[45] Olaf Ronneberger, Philipp Fischer, Thomas Brox。U- net:用 3.
于生物医学图像分割的卷积网络。《医学图像计算与计算 [64]张凯,周晓雨,张宏志,左王猛。重探互联网环境下的单幅
机辅助干预国际会议》,第 234-241 页。施普林格,2015 图像超分辨率:模糊核和重构算法。PCM,第 677-687 页,
年。4 2015。1、6
[46] Stefan Roth 和 Michael J Black。领域的专家。IJCV, 82(2): [65]张凯,左望梦,顾树航,张磊。学习深度 CNN 去噪器先验
205 - 229 年,2009 年。5 用于图像恢复。CVPR, 3929-3938 页,2017 年 7 月。3、
[47] Mehdi SM Sajjadi, Bernhard Sch¨olkopf, Michael Hirsch。 6、8
Enhancenet:通过自动纹理合成的单幅图像超分辨 率。 [66]张凯,左王猛,张磊。FFDNet:面向快速灵活的基于 cnn
ICCV, 401 - 4510 页,2017。2 的图像去噪解决方案。Ieee tip, 27(9): 4608-4622, 2018。4
[48] Kegan GG Samuel 和 Marshall F Tappen。在连续值 MRF 模 [67]张凯,左王猛,张磊。学习用于多重退化的单一卷积超分
型 中 学 习 优 化 的 MAP 估 计 。 在 CVPR 中 , 页 477- 辨率网络。在 CVPR 中,页 3262-3271,2018。2、5、6
484,2009。3. 所示
[49]乌韦·施密特和斯特凡·罗斯。用于有效图像恢复的收缩 [68]张凯,左王猛,张磊。任意模糊核的深度即插即用超分辨
场。在 CVPR 中,2774-2781 页,2014。3. 率。在 CVPR 中,页 1671-1681,2019。2、3
[50]沈子怡、赖伟生、徐廷发、Jan Kautz、杨明萱。深度语义面 [69]张文龙,刘一豪,董超,乔宇。Ranksrgan:具有秩器的生成
部去模糊。在 CVPR 中,8260-8269 页,2018。3. 对 抗 网 络 用 于 图 像 超 分 辨 率 。 在 ICCV , 页 3096-
[51] Assaf Shocher, Nadav Cohen, Michal Irani。使用深度内部学习 3105,2019。6、7
的“零镜头”超分辨率。ICCV, 318 - 3126 页,2018。5、6 [70]张玉伦,李鲲鹏,李凯,王立臣,钟彬能,傅云。利用甚深
[52] Abhishek Singh, Fatih Porikli, Narendra Ahuja。超分辨率的 残差通道注意网络的图像超分辨率。在 ECCV 中,286 -
噪声图像。在 CVPR 中,页 2846-2853,2014。2 301 页,2018。2,6
[53]萧婉芝、洪国伟。图像插值与超分辨率综述。见 2012 年亚 [71] 赵 宁 宁 , 魏 琦 , Adrian Basarab, Nicolas Dobigeon, Denis
太信号与信息处理 协会年度峰 会与 会议,第 1-10 页。 Kouam´e, Jean-Yves Tourneret。使用一种新的解析解快速单
IEEE 2012。1 幅图像超分辨率求解 ℓ2-ℓ2 问题。Ieee 技巧, 25(8):3683-
[54]孙坚和 Marshall F Tappen。学习非局部范围马尔可夫随机 3697,2016。1、4
场用于图像恢复。在 CVPR,页面
3226

You might also like