压缩图像增强方法研究综述 赵利军

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

计算机工程与应用

Computer Engineering and Applications


ISSN 1002-8331,CN 11-2127/TP

《计算机工程与应用》网络首发论文

题目: 压缩图像增强方法研究综述
作者: 赵利军,曹聪颖,张晋京,赵杰,陈彬涛,王安红
网络首发日期: 2023-07-10
引用格式: 赵利军,曹聪颖,张晋京,赵杰,陈彬涛,王安红.压缩图像增强方法研究
综述[J/OL].计算机工程与应用.
https://kns.cnki.net/kcms2/detail/11.2127.tp.20230706.1202.020.html

网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2023-07-10 09:53:11
网络首发地址:https://kns.cnki.net/kcms2/detail/11.2127.tp.20230706.1202.020.html

1 Computer Engineering and Applications 计算机工程与应用

压缩图像增强方法研究综述

赵利军 1, 曹聪颖 1, 张晋京 2, 赵杰 1, 陈彬涛 1, 王安红 1


1.太原科技大学 电子信息工程学院, 太原 030024
2.中北大学 大数据学院, 太原 030051

摘 要:现在高效的图像压缩已经成为数字图像有效存储和传输的必要手段。然而,经过压缩之后的图像难
免存在块伪影、震荡伪影、图像模糊等问题。压缩图像增强技术作为图像编码效率提升的重要方式不仅能够
提升压缩图像的质量,而且被广泛应用到计算机视觉任务如检测、识别、分割等的预处理阶段。本文从以下
几个方面对压缩图像增强方法研究进行综述。首先,从传统的压缩图像增强方法和基于深度学习的压缩图像
增强方法入手,介绍图像增强技术的发展与分类,同时比较它们的优缺点。其次,介绍并分析压缩图像增强
的几种关键性技术如对比学习、强化学习、课程学习、知识蒸馏、对抗学习和网络架构搜索。最后,总结本
文并且对压缩图像增强技术的未来发展方向进行展望。
关键词:图像压缩; 压缩失真; 图像增强; 深度学习; 神经网络
文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.2304-0248

A survey of research on compressed image enhancement methods


ZHAO Lijun1, CAO Congying1, ZHANG Jinjing2, ZHAO Jie1, CHEN Bintao1, WANG Anhong1

1. School of Electronic Information Engineering, Taiyuan University of Science and Technology, Taiyuan 030024,
China
2. Data Science and Technology, North University of China, Taiyuan 030051, China

Abstract:Nowadays efficient image compression has become a necessary means for effective storage and trans-

mission of digital images. However, compressed images inevitably suffer from some issues such as block artifacts,
ringing artifacts, image blurring, etc. As an important way to improve image coding efficiency, compressed-image
enhancement technology not only can improve compressed-image quality, but also is widely used in the pre-pro-
cessing stage of computer vision tasks such as detection, recognition, segmentation, etc. This paper provides an
overview of the research on compressed-image enhancement methods from the following aspects. Firstly, we in-
troduce the development and classification of image enhancement technique, and compares their advantages and
disadvantages, starting with traditional compressed-image enhancement approaches and compressed-image en-
hancement methods based on deep learning. Secondly, several key techniques of compressed-image enhancement
are introduced and analyzed, such as contrastive learning, reinforcement learning, curriculum learning, knowledge
distillation, adversarial learning, and network architecture search. Finally, we summarize this paper and give some
prospects on the future development direction of compressed-image enhancement technique.

基金项目:国家自然科学基金青年基金(No.62202323);山西省基础研究计划资助项目(No.202103021223284);太原科技大学
博士科研启动基金项目(No.20192023);来晋工作优秀博士奖励资金项目(No.20192055);国家自然科学基金项目(No.62072325)
作者简介:赵利军(1989-),通信作者,男,硕导,博士,副教授,研究领域为图像增强和图像压缩,E-mail: zlj_ty@163.com;曹聪颖
(1996-),女,硕士,研究领域为压缩图像增强;张晋京(1992-),女,博士,讲师,研究领域为医学图像增强和图像分割;赵杰(2000-),
男,硕士研究生,研究领域为图像编码和压缩图像增强;陈彬涛(1998-),男,硕士研究生,研究领域为图像编码和压缩图像增强;王
安红(1972-),女,博导,博士,教授,研究领域为图像、视频和点云编码。
2 Computer Engineering and Applications 计算机工程与应用

Key words:image compression; compression distortion; image enhancement; deep learning; neural network

在图像采集、压缩、通信等过程中,由于各种客 不同于传统的图像增强技术,随着计算机硬件
观因素的影响往往会导致图像质量变差,比如图像 设备性能的提升以及 5G 通信技术的成熟,基于深度
信息丢失、图像模糊、压缩伪影等问题,因此,非常 学习的图像增强技术近年来得到广泛的应用和发
有必要对低质量图像进行增强,使其可以满足人类 展。值得注意的是,压缩图像增强是图像增强领域的
视觉的要求,同时有助于计算机系统通过增强后的 一个非常重要的分支研究。然而,在图像压缩过程存
图像达到高精度的目标检测和识别。图像增强技术 在的量化以及变换过程会带来严重的压缩伪影,比
是指利用某种图像处理方法对不满足人类视觉需要 如细节丢失、振铃效应、模糊伪影和块伪影等,因此
或不宜被计算机识别处理的低质量图像进行处理, 有必要对压缩后的图像进行质量增强。
该技术致力于提高图像的清晰度,加强某些重点区 一般来说,压缩图像增强方法可以分为两个大
域图像特征,削弱某些不重点区域的特征,进而达到 类:传统的图像增强方法和基于深度学习的图像增
图像增强的目的。 强方法。本文第 1 节和第 2 节将分别介绍传统的压
图像增强处理方法现在已经应用到生活的方方 缩图像增强方法和基于深度学习的压缩图像增强方
面面,人们已不满足于追求更高质量的图像,而是将 法,第 3 节介绍压缩图像增强方法的深度学习关键
图像增强处理应用于各个领域。例如,在航空航天领 技术,第 4 节对未来发展方向提出了一些看法和见
域,由于受到成像设备硬件、气候条件以及图像传输
解,第 5 节给出结论。
过程中遭到极端恶劣因素的影响,地面端所接收到
的图像的质量往往较差,因此,需要对接受到的图像
进行增强。在车联网系统中,需要利用采集到的图像 1 传统的压缩图像增强方法
进行检测、分类、识别、定位等处理,以满足人们对 传统的压缩图像增强方法主要专注于解决图像
于车辆行驶过程中路况的了解。在生物医学领域中, 噪声去除问题,同时提升图像的清晰度,增强人的视
由于受到医学设备的影响,采集到的图像往往有较 觉感观。传统的压缩图像增强的处理方法主要有空
大的噪声,不利于医生对医学影像的观察并根据图 域法和频域法,如表 1 介绍了传统的图像增强方法
像作出正确的诊断,因此,需要对图像进行去噪处 的特点及优缺点。空域法是对空间域中的像素特征
理,以及对器官、组织和病灶的检测、识别和分割。 进行处理,其原理是:在一定大小的窗口内,分析中
在古籍修复方面,由于一些客观原因造成的古画破 心像素与其相邻像素的关系来得到新的中心像素值
损以及还原古物原本面貌等方面都需要使用图像增 的方法。典型的空域算法包括基于滤波的图像增强
强技术。在工业方面,图像增强技术主要用于产品质 方法、非凸低秩模型[5]、字典学习方法[6]、非局部均
量的检测、机器零部件的识别、以及零部件尺寸的测 值滤波方法[7]等。接下来,将依次介绍这些方法。
量等方面。由此可见,图像增强方法已经关系到人们 滤波方法包括均值滤波[1]、中值滤波[3]、高斯滤
生活的方方面面,与人们的生产生活紧紧相关。受到 波[2]和双边滤波[4]等。在均值滤波器中[1],中心像素
计算机等硬件设备的限制,早期的图像增强技术主 值是邻域的平均灰度值。高斯滤波方法[2]的原理是随
要是利用信号处理的方法对图像的时域或频域信息 着邻域像素与中心像素距离的增大,滤波权值呈现
进行处理。时域方法主要是针对图像像素级别的信 高斯衰减的特性。这样做的优点是距离中心较远的
息进行处理的方法,即直接对图像中各个像素进行 像素点的作用小,而缺点是高斯滤波模糊了图像的
处理,如滤波方法[1-4]、非凸低秩优化方法[5]、字典学 边界信息。中值滤波对孤立噪声的处理效果比均值
习稀疏表示方法[6]、非局部均值滤波方法(Non-Local 滤波要好,而且它能保留更多的边界信息,但是对局
means, NLM)[7]等。频域方法利用傅里叶变换[8-9]、 部细节如细线和小块的目标区域不友好。中值滤波[3]
小波变换[10]、离散余弦变换[11]等方法将图像信息转 是将窗口中心点的灰度值用窗口内所有像素值的中
换到频率域进行处理,针对图像的高频和低频信息 值替代。双边滤波[4]是通过自适应的空域和值域卷积
进行有目的的增强。然而,这一时期的图像增强技术 核来有效地保护图像的边缘信息,从而提高图像的
也仅仅只是追求图像高质量的视觉效果,它们无法 信噪比。CONCOLOR 方法[5]利用非凸低秩优化模型
满足计算机视觉的目标识别和检测等任务需求。 来实现压缩图像的块效应去除,并且在不改变现有
赵利军等:压缩图像增强方法研究综述 3

编解码器情况下就能将量化约束变换到可行解空
间。K-SVD 方法[12]利用 K 均值(K-means)和奇异 1 M −1 N −1
 ux vy 
i 2  + 

值分解(Singular Value Decomposition,SVD)相结


f ( x, y ) =   F (u,v ) e  M N 
MN u = 0 v = 0
(2)
合的方法,解决了在固定变换矩阵基底下图像不能
转换到频率域的能力并且它能够很好地去除信号的
自适应处理纹理信息的问题,但该方法的缺点是更
相关性,因此,它非常适用于图像压缩。例如国际压
新字典时所需的计算量较大。Chang 等人[6]利用稀疏
缩标准 JPEG 就采用 DCT 变换。DCT 变换可以表示
表示和冗余字典学习的方法来有效降低 JPEG(Joint
为:
Photographic Experts Group)压缩伪影,但是经过该
方法增强图像的高频信息恢复效果不好。考虑到基 F ( u,v ) =
于图像滤波的增强方法只关注有限窗口范围内的像 N −1 N −1
 0c ( u,v )  f ( x, y ) cos
( 2 x+1) u cos ( 2 y +1) v (3)
素信息,NLM 算法[7]使用整幅图像的信息进滤波, x =0 y =0 2N 2N
该方法以图像块为单位遍历整幅图像,寻找与该块
相似区域,再对这些相似的区域进行加权求和,这样 2
其 中 , u,v = 0,1,,N − 1 , 0 = ,
就能获得滤波输出。 N
虽然空域增强方法对压缩图像的增强起到一定 12 u=v=0
的作用,但是这种方法的计算复杂度高,噪声去除不 
c ( u,v ) = 1 2 uv = 0且u  v
彻底,图像增强质量不高,并且没有充分考虑图像信  1 uv 0
 。
号和噪声信号的特点。于是一些学者开始利用图像
信号和噪声信号的频率变换研究图像增强问题。频 离散余弦反变换(IDCT)的公式可以表示为:
域增强是通过某一种或多种频率变换,将图像信号 f ( x, y ) =
从空间域转换到频率域,然后利用频率特性将不同 N −1 N −1
( 2 x+1) u cos ( 2 y +1) v (4)
1  c ( u,v ) F ( u,v ) cos
频率的噪声去除,之后再通过反变换将图像信号从 u =0 v =0 2N 2N
频率域转换到空间域,以达到图像增强的目的。频域
变 换 的 方 法 主 要 有 傅 里 叶 变 换 ( Discrete Fourier 12 u=v=0

Transformation,DFT)[8-9]、小波变换(Discrete Wavelet 其中, c ( u,v ) = 1 2 uv = 0且u  v , x,y = 0,1,,N − 1 ,
 1 uv 0
Transform,DWT)[10]和离散余弦变换(Discrete Co- 

sine Transform,DCT)[11]等。傅立叶变换的频谱图上 2
1 = 。DFT 变换的基是正余弦函数,它可以看作在
的点表示某一点与邻域的梯度大小。因为傅里叶变 N
换需要用到整个频域的信息,所以不能刻画信号的 实数域和复数域多个余弦函数的和。DWT 变换的基
局部特征。由于傅里叶变换只能分析出一段信号的 是各种形状有限长的衰减小波,它可以看作是不同
整体特征而无法确定成分出现的时刻,同时不能在 形状和位置的小波的叠加。它解决了 DFT 变换不能
处理局部信号的问题并且可以对时域进行分析。
时域进行分析,因此,对于突变和非平稳信号来说傅
DWT 变换适用于对非平稳信号和突变信号的分析。
里叶变换的处理效果并不理想。DFT 变换公式可以
但是由于选取不同的小波基对图像恢复的效果不
表示为:
同,因此,如何针对不同的图像选取不同的小波基也
 ux vx 
M −1 N −1 − j 2  +  比较困难。小波变换只能沿两个方向进行运算。然
F ( u,v ) =   f ( x, y )e M N 
(1)
x =0 y =0
, 而,对于图像增强任务而言,重要的部分恰恰是对角
方向的边缘信息。尽管如此,DWT 变换在图像的低
其中, u = 0,1,,M − 1 ; v = 0,1,,N − 1 。 傅里叶反变换 频部分具有较高的频率分辨率以及较低的时间分辨
率,在图像的高频部分具有较高的时间分辨率和较
(IDFT)可以表示为: 低的频率分辨率。DWT 变换可以定义为:
DCT 变换是通过将多个不同的余弦函数求和来
近似原始图像信号的方法,这里每个余弦函数的频
率和幅值不同。由于 DCT 变换具有将空间域的信号
4 Computer Engineering and Applications 计算机工程与应用

 ux vy 
filtering)方法,这种方法利用 NLM 计算块间相关性
1 M −1 N −1 i 2  + 
f ( x, y ) =  
MN u = 0 v = 0
F ( u,v ) e  M N  (5) 并且利用小波变换计算块内相关性,通过相似判定
寻找与参考块相似的图像块,然后将其与相似块组
为了充分利用空域方法与频域方法的优点, 合成形成三维数组,再对该三维数组进行协同滤波
Dabov 等人[13]提出了 BM3D(Block-matching and 3D 处理,最后将其聚合到原图像块的位置。
表1 传统的图像增强方法对比
Table 1 The Comparison of Traditional Image Enhancement Methods
方法 主要特点 优点 缺点
高通滤波用于边缘检测, 高通滤波器可以检测变化尖锐、明 只考虑了有限窗口范围内
滤波器[1-4] 低通滤波用于图像平滑去 显的地方;低通可以让图像变得平 的像素信息;可能滤除图
噪 滑,并且消除噪声 像有用部分
CONCOLOR 非凸目标函数和约束条件能够更加
高维数据类型 非凸优化问题比较难求解
[5] 准确地对问题进行建模
空间域
结合 K-means 和 SVD 的 解决了固定变换矩阵基底不能自适
K-SVD[12] 更新字典的计算量较大
优点 应调整图像纹理信息的问题
充分地探索了图像块之间的相似
使用自然图像的冗余信息 计算复杂度高;计算时间
NLM[7] 性;去除噪声的同时保留图像边缘
来去除噪声 长
细节
可能发生频谱混叠;时间
将图像的时域信号转换频
消除高频、低频或周期性噪声信号 域上信号的局部特性对突
DFT[8-9] 域信号,方便观察频域特
的影响;具有直观的物理意义。 变和非平稳信号的效果不


高频部分对应空域图像中的突变区
频域
DCT[11] 在局部变换域做系数收缩 域的信息;低频部分对应空域图像 局部变换可能带来块伪影
中平坦区域的信息
不适用于非平稳信号的分
能量集中;具有与人视觉 低熵性、多分辨率特性、去相关性
DWT[10] 解;无法刻画时间域上信
系统相吻合的对数特征 和选基灵活性
号的局部特性
结合空间域 结合 NLM 的计算相似块 计算复杂度高;计算时间
BM3D[13] 图像的噪声少;细节恢复效果好
与频域 的方法和小波变换的方法 长

如图 1(a)所示。Dong 等人开创性地将 CNN 应用


2 基于深度学习的压缩图像增强方法 于 JPEG 压缩伪影去除,并提出了具有三层网络结构
不同于传统的压缩图像增强方法,深度学习压缩 的压缩图像增强方法 ARCNN[14]。但是,考虑到深层
图像增强已经获得学者们的广泛关注。早期研究者关注 ARCNN 的训练比较困难,Zhang 等人 [15] 提出了
如何设计复杂的网络拓扑结构来提升压缩图像增强模 DnCNN 网络,利用批归一化层和残差学习大大地提
型的性能。然而,很难进一步提升这些模型性能,同时 高了网络的训练速度。随后,Jin 等人[16]利用图像的
这些模型缺乏可解释性。近来,可解释的压缩图像增强 高低频特性将图像分解为低频图像和高频图像,然
网络模型充分地利用传统优化模型的可解释性和神经 后将这两个图像分别输入两个到增强网络中,最后
网络模型的高性能优点。接下来,将首先依次介绍这两 将两个增强后的特征图融合起来,得到一幅高质量
种模型,然后再介绍网络优化方法。 的图像。然而,这些方法的网络架构相对简单,对压
2.1 经典的压缩图像增强网络模型 缩图像质量的提高效果不高。一些学者开始研究对
近年来,随着深度学习技术的深入研究和计算 抗生成网络模型或者 Transformer 模型来解决压缩图
机设备性能的不断提升,基于深度学习的压缩图像 像质量增强问题[17-18]。例如,Rippel 等人[19]首次利用
增强方法得到广泛的研究。早期的深度学习压缩图 对抗生成网络解决压缩图像的增强问题,提出一种
像增强方法一般使用单域的网络结构加跳跃连接的 面向低比特率压缩的自适应图像增强算法。Wang 等
方式提升神经网络的性能,进而提高图像的清晰度, 人将 U-Net 与 Swin Transformer 相结合,构建了一
赵利军等:压缩图像增强方法研究综述 5

种 图 像 增 强 架 构 , 即 Uformer[20] , 该 架 构 在 络的各个对偶域关联单元。值得注意的是,IDCN 的
Transformer 层中使用非重叠窗口自注意力来减少 扩展版本 IDCN-f 能够处理经过不同量化参数压缩
各种图像增强任务的计算量。Liang 等人将 Swin 的失真图像。不同于以上方法,Zhang 等人[28]提出
Transformer 和 残 差 学 习 结 合 起 来 , 开 发 了 一 种 了一种具有维度扩展策略的通用模型,解决了低分
SwinIR 基线模型方法 [21],致力于解决 JPEG 压缩伪 辨率输入图像的模糊核和噪声水平之间的维度失
影的去除问题。 配问题,并且解决了多重图像退化的增强问题。
如图 1(b)所示,不同于单域压缩图像增强算 虽然上述方法可以很好地实现图像增强任务,
法只进行图像域特征提取,多域图像增强算法从多 但是在现实的生活中不仅仅需要得到高质量的图像,
个域同时使用两个或者三个网络去提高图像的质 也需要利用这些图像完成一定的任务,如自动驾驶
量。一些学者将频域和深度学习算法相结合来研究 车辆中需要利用这些图像进行道路的识别,信号灯
压缩图像增强问题。例如,Wang 等人[22]首次将 DCT 的检测等等。很显然,单任务网络已不能满足实际应
域引入到 JPEG 伪影去除的工作,并且该方法结合 用的需要,这就需要利用一个网络实现两个甚至多
深度网络的强大学习能力来实现 JPEG 压缩伪影去 个任务,如图 1(c)所示。例如,Bai 等人[29]将图像
除。Liu 等人[23]将小波变换引入到 CNN 中,以更好 压缩任务与图像分类任务联合训练,将部分网络共
地权衡感受野的大小和计算效率。Chen 等人[24]提出 享,减少了网络训练的时间,降低了模型参数量的大
一种用于 JPEG 压缩图像软解码的像素域和小波域 小。此外,为了利用一个网络得到一系列增强图像以
神经网络。另一些学者使用两个深度学习网络恢复 满足人类主观视觉的需要,于是 Guo 等人[30]提出了
图像。例如,Kirmemis 等人[25]提出了一种挑选最优 一种一对多的网络,解决了传统神经网络只能输出
网络的方法,该方法从三个压缩伪影去除网络中挑 一种增强效果图像的问题。
选性能最好的网络。DMCNN 网络[26]集成了双域网 尽管基于多任务学习的增强方法可以实现多个目
络与自编码器网络的特点,有效的去除了全局的压 标的输出,但其只是对多个网络的简单堆砌,这无疑增
缩伪影。Zhang 等人[27]提出一种隐式双域卷积网络 大了模型的计算复杂度,占用了较多的计算空间。对压
IDCN,该网络将量化表作为一种先验信息输入到网 缩图像增强任务而言,当使用不同的量化参数压缩图像
时,多任务方法需要构建多个支路训练不同量化参数下
的压缩图像增强网络。与之相比,单任务方法则需要重
复多次训练来达到压缩图像增强的目的。由此可见,非
常有必要训练一个网络来完成多个任务,如图 1(d)所
示。近年来,一些研究人员引入参数化网络来解决这个
问题。例如,Fan 等人[31]提出了一种解耦学习算法,联
合地训练该算法的权重学习网络和基础网络,权重学习
网络可以向基础网络分配相应的权重,以实现不同任务
的图像增强。类似地,He 等人[32]提出了一个单一深度
学习模型,通过使用基础 CNN 模型和 AdaFM 的自适
应特征修改层来解决任何退化的图像增强问题。AdaFM
层只需调整插值系数即可实现平滑、连续和无伪影的恢
复。此外,Wang 等人[33]提出一种 CFSNet 网络来自适
应地学习主模块和调谐模块之间不同层和通道的耦合
系数,以更好地控制恢复图像的质量。
2.2 可解释的压缩图像增强网络模型
由于深度神经网络模型通常比较复杂、网络层
数较深,因此,常常会导致网络模型的参数量过多、
图 1 面向图像增强的卷积神经网络模型对比
Fig.1 The Comparison of Convolutional Neural Network
复杂度过高、不利于梯度的反向传播等问题,这种高
Models for Image Enhancement 度复杂的模型使得模型的作用及各层之间的关系较
6 Computer Engineering and Applications 计算机工程与应用

难解释。可解释模型的出现解决了这一问题,提高了 伪影。DGUNet[43]在不损失网络可解释性的情况下,
模型的性能和鲁棒性。一般来说,可解释的图像增强 将梯度估计策略集成到近端梯度下降算法的梯度中,
网络模型按照优化算法展开方式可分为动量梯度下 使其能够解决真实退化图像的增强问题。DGUNet 还
降法、半二次分裂法、近端梯度下降法和交替优化算 设计了一种跨阶段的近端映射信息传递路径来解决
法,如表 2 所示。该表格总结了这些算法的典型方法 大多数深度展开网络所存在的信息丢失问题。
和各自的优缺点。例如,DUMRN[34]在变换域进行图 InDuDoNet+[44]联合了空间域和 Radon 域进行图像重
像稀疏表示,这样就能在去噪过程中保留重要的图 建,并利用近端梯度技术来优化算法,该算法仅由简
像特征,使用多尺度方法来捕获不同级别的细节信
单的计算(如逐点乘法)组成,极大地促进了网络体
息,并通过数据驱动的参数化正则化器自适应地处
系结构的展开。
理不同水平的噪声。MoG-DUN[35]使用非局部自回归
的图像先验模型来指导网络设计,解决了带有正则 除了以上方法,另外一些研究者使用交替优化
化的最小二乘问题,使用半二次分裂法将带有等式 算法对复杂的优化问题进行优化求解,并依据对应
约束优化问题转化为不带等式约束优化的问题。 展开的迭代求解公式来设计可解释网络模型,如表 2
MMNet[36]提出了一种记忆增强模型驱动的深度展开 所示。例如,UTVNet[45]通过学习基于模型的全变差
算法,该算法将全局和局部隐式先验作为最大后验 正则化去噪方法中的平衡参数,同时通过展开相应
概率模型来探索跨模态的多光谱和全色图像关系, 的最小化过程来进行推断,这样就能恢复更精细的
并利用交替最小化算法来求解最大后验概率模型。 细节信息。DAN[46]设计了一种基于卷积神经的恢复
MGDUN[37]提出了一种基于模型的多对比度深度展 器模块和基于卷积神经网络的估计器模块,通过反
复交替展开形成了一种端到端可训练网络。
开网络,该算法将网络建模为最小化数据拟合误差
URetinex-Net[47]通过数据驱动的方式拟合隐式先验,
和结构先验的优化问题,该方法可以在保持结构细
并将其分为四个子问题的求解来实现噪声抑制和细
节的同时有效地提高图像的分辨率。
节保存。此外,一些学者还提出了其他算法。例如 Ren
如表 2 所示,一些研究者还使用近端梯度下降 等人[48]将保真度问题转化为压缩图像恢复问题,再
法来展开算法,并依据展开算法来设计可解释网络
通过改进的布雷格曼迭代法解决压缩图像恢复问题,
模型。例如,Fu 等人[38]提出了一种模型驱动的 JPEG
实现了良好的去块效果。受传统迭代阈值重建算法
压缩伪影去除深度展开算法,该算法使用卷积字典
的启发,Aghabiglou 等人[49]在每次迭代时使用网络
建立了一个用于去块伪影的最大后验模型,该算法
输出和初始零填充估计之间的误差来计算噪声水平
还继承了数据驱动的深度学习方法的强大建模能力
参数,将自适应噪声水平参数引入到展开结构中。在
和传统模型驱动方法的可解释性,该方法可以自动
展开算法的迭代过程中,噪声水平参数充当网络的
地探索 JPEG 伪影和图像内容的表征。ISTA-Net++[39]
通过制定一种动态展开策略来处理具有不同观测率 图像操作强度的演化正则化器,从而提高了图像重
的压缩感知重建问题,该方法能够显著提高压缩感 建质量。根据上述分析可知,可解释的深度学习模型
[50-51]
知的恢复质量。MADUN[40]提出了一种记忆增强深度 能够极大提升图像增强模型的性能。
展开算法,该算法设计了一种包含高通量短期存储 2.3 网络优化方法
器和跨级长期存储器记忆增强的近端映射模块来减 深度学习通常需要模型优化使其能够有效地提
取特征。一般来说,深度学习模型优化包括两个部
少相邻级之间的信息丢失,这样就能增强网络表达
分:数据项优化和正则化项优化。数据项优化是通
能力。COAST[41]提出了一种投影增强策略,该策略
过最小化损失函数来优化模型的参数,使其能够更
可以实现在采样空间中任意采样,此外还提出一种
好地预测训练数据。数据项通常包括均方误差、交叉
可控近端映射模块来动态调整网络,从而有效地消 熵等。数据项优化依赖于大量的数据集来训练模型。
除伪影。OPINE-Net[42]使用可学习的采样矩阵,并将 这些模型可用于解决去噪、超分辨率、去雾等问题。
正交约束和二元约束同时纳入到采样矩阵的构建中, 例如,Zhang 等人[15]提出了一种基于残差学习的卷积
同时通过图像块联合重建策略来有效地去除图像块 神经网络来去除图像噪声。正则化项优化是通过添
赵利军等:压缩图像增强方法研究综述 7

加额外的约束条件来优化模型的参数,以减少过拟 提取数据的特征并进行分类、聚类等任务。Michal[12]
合现象。正则化项通常使用先验知识或模型约束来 提出了一种 K-SVD 字典学习算法,该算法通过迭代
提高图像增强结果的鲁棒性和稳健性。例如,Zhang 更新字典中的基向量和系数来训练字典。PCA 是一
等人[52]提出了一种基于 CNN 的图像恢复方法,通过 种线性的降维技术,它通过寻找数据的主成分来将
在优化目标函数中增加一个 TV 正则化项来保持图 高维数据转换为低维空间。PCA 通常被用来降低数
像的边缘结构。Wang 等人[53]提出了一种基于结构相 据的维度、提取数据的主要特征等。与字典学习不同
似性的图像质量评价方法,该方法使用一个正则化 的是,PCA 是一种无监督学习方法,不需要人工标
项来对图像质量进行修正。在实际应用中通常将数 注的训练数据。Pearson 等人[55]提出了一种基于最小
据项和正则化项进行加权组合,得到总的损失函数, 平方误差原则的多元统计分析方法,用于分析数据
并使用梯度下降等方法对该函数进行优化,以获得 中变量之间的线性关系成为现代统计学和机器学习
最佳的模型参数。 中一个重要的数据降维技术。Di 等人[56]在投影域和
为了消除压缩图像像素间的冗余,一般采用对 图像域进行主成分分析来提高图像的彩色表征能力,
神经网络模型优化技术来解决压缩图像像素间的冗 从而获取清晰的图像。
余消除问题。另外,还可以通过低秩优化、字典学习 除上述方法外,一些学者从计算机硬件方向提
和主成分分析(Principal Component Analysis,PCA)方 高图像的处理速度,如 Xiao 等人[57]提出一种基于
法来解决该问题。低秩优化方法将数据进行矩阵分 GPU 平台的直方图统计图像增强算法,大大提升了
解,通过将高维数据映射到较低维空间来减少计算 处理大幅面数字图像的处理速度。与 CPU 串行算法
复杂度和存储需求,有效地提高数据处理和分析的 相比,该算法有两个数量级的提高。对于深度学习解
效率。Candes 等人[54]利用了矩阵的低秩性和观测数 决计算机视觉问题需要海量的数据作为支撑的问题,
据的稀疏性,通过求解凸优化问题来填充缺失的矩 研究了如何在少量或者低质量的训练数据中进行数
阵元素证明了最优的复杂度的问题。字典学习是一 据增广也是一项具有重大意义的工作,对于深度学
种稀疏表示方法,它通过构建基向量集合或字典,寻 习解决计算机视觉问题需要海量的数据作为支撑的
找数据的最优稀疏表示。与低秩优化不同的是,字典 问题,Lin 等人[58]研究了如何在少量或者低质量的训
学习更关注数据的稀疏性和表达能力,它可以用来 练数据中进行数据增广的问题。
表2 可解释的压缩图像增强网络模型总结
Table 2 The Model Summary of Interpretable Compressed-Image Enhancement Networks
展开算 代表性方法 方法的优缺点
法 方法名称 方法特点 优点 缺点
动量梯 可能引入抖动现象,导致收敛过程
深度特征空间展开和多尺度正则化,促进图 以加速梯度下降的收敛速度,
度下降 DUMRN[34] 不稳定;在处理大数据集时也需要
像在转换域中的稀疏表示 有助于跳出局部极小值
法 考虑内存的限制问题
MoG-DUN [35] 轻量化和非局部自回归的图像先验
MMNet[36] 适用于大规模神经网络的训
半二次 全局和局部隐式先验 不一定能够收敛到全局最优解,
USRNet[50] 练,能够有效避免海森矩阵计
分裂法 最小化数据拟合误差和结构先验,多对比度 收敛速度较慢
算的复杂性
MGDUN[37]
学习策略
MDUJAR[38]
卷积字典-最大后验模型,稀疏表示
RCDNet[51]
ISTANet++ [39]
近端梯 MADUN[40] 使用不学习/可学习的观测矩阵;改进展开 收敛速度较快,能够应用于多 需要事先明确正则项的形式,对
度下降 COAST[41] 网络的梯度下降模块和近端模块;在不同阶 种不同的可微凸优化问题,比 于非凸问题可能无法得到全局最
法 OPINE-Net[42] 段使用/不使用跨阶段特征 较容易理解和实现 优解
DGUNet[43]

InDuDoNet+ [44] 先验特征网络,仅使用简单运算符进行求解

全变差正则化去噪方法;引入中间变量进行
UTVNet[45] 能够处理带有约束条件的优化
交替优 求解
问题,尤其适用于矩阵和稀疏 在处理高维数据时,计算量较大
化算法 DAN[46] 恢复器和估计器反复交替展开
向量的优化问题
URetinexNet[47] 引入两个新的辅助变量,拟合隐式先验
8 Computer Engineering and Applications 计算机工程与应用

3 压缩图像增强方法的深度学习关键技术
随着深度学习模型的快速发展,学者们不再只
是关注于复杂的网络拓扑结构设计,而是将更多的
工作重心放在深度学习关键技术如对比学习、强化
学习、课程学习、知识蒸馏、对抗学习和网络架构搜
索。接下来,将依次介绍这些关键技术
3.1 对比学习
对比学习[59]是指在没有标签的情况下,直接利
用数据本身学习得到一个模型使得正样本与预测样
本的相似度远远大于负样本与预测样本的相似度,
如图 2(a)所示。对比学习是一种无监督或自监督
的学习方法。对比学习包括两种方法:生成式方法和
对比式方法。其中,生成式方法以变分自编码器
(Variational Auto-Encoder,VAE)[60]和生成对抗网
络(Generative adversarial network,GAN)为代表,
这类方法关注的是像素级重构,也就是说,将网络中
的数据编码成特征再进行重构,重构的效果是通过
像素级损失来进行定量化的衡量。对比式方法也称
判别式方法[61],这类方法是将数据分别与正样本和
负样本在特征空间进行对比,进而学习样本的特征
表示。对比学习的难点在于如何构造正负样本、如何
设计模型结构以及如何防止模型坍塌。为了解决这
些问题,He 等人[62]提出了将队列和动量编码器归结
为一个大的字典,从而帮助对比学习。Grill 等人[63]
提出一种引导自身潜力的自监督学习方法,该方法
使用在线网络和目标网络来实现相互作用并相互学
习,这里没有使用负样本,仅仅使用正样本学习。类
似地,SimSiam[64]解决了没有负样本的问题,并且不
需要动量编码器和批大小。Ji 等人[65]将对比学习应
用于低级视觉的图像超分辨率任务中,将低质量的
图像作为负样本,将真实图像作为正样本,并且没有
使用预训练的网络就可用于解决图像增强任务。Wu 图 2 图像增强的关键技术
等人[66]将对比学习从三个视图将图像分解为噪声部 Fig.2 The Key Techniques for Image Enhancement
分和背景部分来构造负样本用于图像恢复任务中。Ji
等人[67]将对比正则化与自编码器结合用于图像去模 习技术使得增强图像更接近于真实图像,从而极大
糊,对比正则化确保恢复后的图像更接近真实图像。 地提升了图像增强任务的性能。
Li 等人[68]引入了一种类内对比正则化方法构造类内 3.2 强化学习
负样本,将其作为图像恢复网络解空间的约束。 在智能体与环境的交互过程中,强化学习 [70]通
Kaelbling 等人[69]提出了一种由基于对比学习的退化 过学习策略以实现特定目标的方法。智能体要通过
编码器和退化引导恢复网络构成的图像恢复网络, 不断试错的方式来获得最佳策略,而不是像有监督
该码器和退化引导恢复网络构成的图像恢复网络, 学习直接告诉智能体在什么环境下应该做出什么动
该网络可以在一个网络中恢复各种退化的图像。根 作。强化学习就是通过学习一序列最优动作得到最
据上述讨论可知,通过构造正负样本的方式,对比学 大的长期奖励。对于强化学习而言,任一状态下做出
赵利军等:压缩图像增强方法研究综述 9

的动作对当前状态和下一个状态都是有影响的,从 人[80]将雨纹去除问题纳入到课程学习范式中,以一
而对整个执行过程的奖励造成一定影响,这一问题 种从粗到细、从易到难的引导方式逐步学习雨纹信
是具有挑战的。如图 2(b)所示,从当前的状态 St 息预测。Shu 等人[81]提出了一种局部到全局、容易
出发,在做出一个行为 At 之后,对环境产生了一些影 到困难的课程学习策略,以确保神经网络首先关注
响,它首先给智能体反馈了一个奖励信号 Rt ,接下来 噪声抑制,然后消除模糊,以实现退化图像的重
建。很显然,课程学习也能够用于解决压缩图像的
智能体更新环境状态智能体 St +1 ,进而进入一个新的
增强问题。
状态,再做出新的行为,形成一个循环。DQN[70]解
3.4 知识蒸馏
决了强化学习存在高维状态空间的问题,但对于连
知识蒸馏[82]使用的是“教师-学生网络”的训练方
续动作空间的效果不好。 于是,DDPG[71]引入了 actor-
法进行模型的压缩。教师网络可以看作是“知识”的
critic 架构来解决这一问题的。在训练过程中,Lillic- 输出者,其模型相对复杂,可以有多个模型集合而成,
rap 等人[72]利用奖励函数单调递增来解决 DDPG 网 可以完整地学习真实数据内容,学生网络可以看作
络参数更新步长不易确定的问题。 “知识”的接受者,可以学习教师网络的分布和真实
除了机器人控制、交通、能源、金融、游戏等 数据内容,其模型相对简单、参数量较少,最后将学
领域外,强化学习能够用于解决图像增强问题。例如, 生网络应用于实际应用部署中,而不是教师网络,如
Yu 等人[73]构建了一个功能强大且轻量级的工具箱, 图 2(d)所示。Huang 等人[83]认为神经元是具有选
首先代理从该工具箱中选择一个工具并且使用它来 择性的,从而提出让教师网络和学生网络选择性迁
恢复图像,然后代理根据之前的结果选择另一个工 移。Passalis 等人[84]利用匹配空间的概率分布进行特
征的迁移。Lee 等人[85]利用特征图之间的相关性进行
具重复恢复直到代理决定停止为止,这样就解决了
蒸馏,并通过奇异值分解来提取特征。Zhu 等人[86]提
现有网络只能完成单一任务的问题。 Zhang 等人[74]提
出了一种针对单图像超分辨率任务的与模型无关的
出了一种将多个传统的去噪器集成为一个强的去噪 元知识精馏方法,该方法通过具有可学习参数的知
器的深度强化学习方法,该方法将图像恢复问题转 识表示网络,提供了一种更灵活和更准确的方法,帮
化为马尔可夫决策过程,该方法可以恢复具有多重 助教师根据学生的能力传递知识。Xia 等人[87]提出一
组合失真的图像。Yu 等人[75]使用具有难度调节奖励 种基于知识蒸馏的盲超分网络,该网络的教师网络
的强化学习来选择最优路径进行图像恢复。Furuta 等 将成对的高分辨率图和低分辨率图作为输入,学生
人[76]将深度强化学习扩展到像素级强化学习,该方 网络只输入低分辨率图,实现了任意退化图像超分
法不仅考虑到了自身像素未来的状态,而且考虑到 变率的提高。Li 等人[88]提出两种异构蒸馏策略,能
了相邻像素未来的状态,对图像压缩伪影去除、图像 够提高轻量级模型和高噪声模型的图像增强性能。
Cui 等人[89]利用知识蒸馏的方法实现了从合成图像
去噪、图像恢复等任务效果显著。由此可见,强化学
和真实雨图像中提取的雨条纹特征分布的一致性,
习是进一步提升压缩图像增强任务的关键技术之一。
可以缓解真实雨图中雨条纹过度去除或者去除不干
3.3 课程学习 净的问题。很显然,知识蒸馏技术能够被用于解决压
类似于人类学习的过程,课程学习首先给简 缩图像增强问题,并且该研究具有很大发展空间。
单的样本较高的权重,随着训练的进行,艰难的样 3.5 对抗学习
本的样本权重被逐步提高,将从容易的样本开始学 在神经网络模型的训练过程中,加入对抗损失
习再进阶到复杂样本的训练过程称之为课程学习 能够减少数据标注的需求量,让有标签的图像与无
[77]
,如图 2(c)所示。课程学习可以加速网络模型 标签的图像同时优化模型。对抗损失分为一般对抗
的训练,减少网络训练的迭代次数,提高网络模型 损失、随机对抗损失和虚拟对抗损失。一般对抗损失
的泛化能力,可以让网络训练到更好的局部最优状 对数据进行两次损失计算,依次是对输入数据进行
态。早期的课程学习主要依靠人工干预,不使用数 损失计算以及噪声图与输入向量的和的损失,这两
据驱动的方法。例如,Kocmi 等人[78]利用课程学习 次损失计算可以加强模型的鲁棒性。随机对抗损失
翻译生僻的单词和句子,这是一种比较困难的任 随机生成一个形状与嵌入相同的向量,接着进行掩
务。自动的课程学习的出现很好地解决了人工学习 码操作,然后使用 L2 损失进行正则化处理生成噪声,
的弊端,如 Kumar 等人[79]提出一种自步学习,根据 最后将生成的噪声与输入向量相加进行损失计算。
样本的难易程度来实现由易到难的学习。Chang 等 虚拟对抗与随机损失有点相似,但是引入了 KL 散
10 Computer Engineering and Applications 计算机工程与应用

度。对抗损失的计算流程及结构如图 2(e)所示。 结构,并对其评估,根据评估结果进行下一轮的搜索。


对抗损失的计算公式为: Lee 等人[97]提出了一种包含外部学习和内部学
min maxV ( D,G ) = 习的神经结构搜索算法,外部学习通过初始化网络,
G D
(6)
(  )
Ex ~ Pdata ( x ) ln D ( x )  + Ez ~ Pnoise ( z ) ln 1 − D ( G ( z ) ) 
 使其能够适应图像的内部特征,而内部学习过程为
其中,公式的第一部分为判别器的损失函数,ln D ( x ) 测试图像找到一个有效的网络架构,并训练网络权
表示判别器将真实数据判定为真的概率, 值。Cheng 等人[98]提出了一种即插即用的神经结构
搜索方法来研究单图像超分辨率任务,该算法不仅
( )
ln 1 − D ( G ( z ) ) 为判别器将虚假数据仍判定为假的概
搜索了网络架构,还搜索了网络结构中中的每个节
率。大多数的压缩伪影去除方法一般使用均方误差 点的激活函数、从节点和跳跃连接节点,隐式地控制
损失,经过仅仅使用该损失函数训练的网络增强之 网络结构中的节点数量,避免大量跳跃连接的出现。
后的图像往往会出现图像过平滑效果。为了解决该 Wu 等人[99]提出了一种编译器感知的 NAS 图像超分
问题, Galteri 等人 [90] 提出利用 GAN 损失来训练 辨率算法,该算法使用自适应超分辨率块进行深度
JPEG 压缩图像增强网络,该方法通过交叉训练全分 搜索和每层宽度搜索,大大提高了收敛速度,满足了
辨率图像与小尺寸的子图像来更好地优化压缩伪影 小型移动设备的需求。Cai 等人[100]将多尺度架构搜
去除模型。为了实现高感知质量的图像压缩,Zhang 索和注意力搜索纳入统一的神经架构搜索框架中实
等人[91]根据比特率-失真-感知优化理论来设计损失 现图像去雨任务,该任务通过基于梯度的搜索算法
函数,总损失包括三个部分:均方误差损失、VGG 损 自动搜索网络的内部多尺度注意架构,同时联合优
失和对抗损失。在基于 WGAN 的图像恢复任务中, 化外部损失、内部损失、架构损失、正则化损失和模
Ma 等人[92]引入了一个额外的约束,用于校正生成器 型复杂度损失,实现鲁棒去雨性能和可控复杂度的
的训练梯度,提高了图像恢复任务的视觉质量。 模型。Ning 等人[101]提出了一种结合模型引导设计与
Zhang 等人[93]发现在合成高分辨率图像的过程中总 NAS 的算法,该算法采用高度可重用的宽度搜索策
是存在块伪影,于是引入了小波鉴别器在频谱域进 略和密集连接的搜索块,通过梯度下降自动选择各
行判别来有效地减少图像伪影的出现。Yu 等人[94]提 层的操作以及网络的宽度和深度,有效地增强图像
出了一种用于视频压缩伪影去除的对抗生成网络, 去噪和压缩伪影减少的效果。Zhang 等人[102]提出了
该网络包含一个具有递归框架的生成器和一个相对 一种有效的硬件感知神经结构搜索的图像超分辨率
论判别器。这里,生成器用于提升增强视频的一致性, 算法,该算法支持在一个大的网络体系结构空间中
而相对论判别器用于度量原始高质量视频帧和生成 进行搜索,包括网络的宏拓扑结构(例如,块的数量)
帧之间的关系。根据上述可知,对抗损失不仅用于解 和微观结构(例如,卷积核类型、通道维度和激活类
决压缩图像的增强问题,而且用于解决压缩视频的 型),能够适应多种小型移动设备的应用。不同于前
增强问题。由此可见,对抗损失约束学习是压缩图像 面介绍的六种技术,网络架构搜索不仅能够极大地
增强网络性能提升的关键技术之一。 减少研究者设计网络所需要的时间,而且减少了研
3.6 网络架构搜索 究者的模型调参工作量。
在网络模型训练的过程中,网络模型的参数严
重影响着其性能的好坏。网络参数主要有两类:一类 4 研究展望
是训练的参数(如批大小,学习率,延迟因子等), 如今压缩图像增强已广泛应用于自动驾驶、安
另一类是网络结构的参数(如网络的层数,卷积的数 防监控和数字媒体、医学图像处理等众多领域。压缩
量,卷积核的大小等)。然而,这些参数的设置往往 图像增强未来还面临一些挑战:
需要经过大量的实验验证或者依靠人工经验的设置, (1) 随着 5G 时代的到来,图像视频的数据量也
这个工作量无疑是巨大而繁重的。因此,网络架构搜 飞速提升,仅仅提高计算机存储量以及网络带宽并
索(Neural Architecture Search,NAS)[95-97]技术解决 不是解决数据量大的唯一方法,消除图像像素间的
了这一难题,它将这一任务交给机器,让机器学习一 冗余信息,提高压缩效率并提升重建图像的质量可
个最优的架构。NAS 的搜索过程为:首先确定搜索 以更好的减少计算机存储空间,占用较少的网络带
的空间,然后通过一定的搜索策略找出较优的网络 宽。因此,如何消除图像间的像素冗余,如何在低比
特率的情况下实现压缩效率的增强以及如何提升压
赵利军等:压缩图像增强方法研究综述 11

缩图像的质量成为未来研究的课题之一。
(2) 压缩图像增强旨在处理经过压缩编码的图 参考文献
像,然而这些图像在不同压缩质量下的失真程度是 [1] 颜兵,王金鹤,赵静.基于均值滤波和小波变换的图像去
不同的,而且不同的压缩算法对不同类型的图像也 噪技术研究[J].计算机技术与展,2011,21(2):51-53+57.
YAN B, WANG J H, ZHAO J. Research on image de-
会产生不同的影响。此外,现存的压缩图像增强算法 noising technology based on mean filter and wavelet
还存在参数量大,模型复杂度高的特点。因此,需要 transform[J]. Computer Technology and Exhibition, 2011,
21 (2): 51-53+57.
研究不同类型压缩失真图像的增强问题、轻量化的
[2] 刘广迪.基于 Kinect 的案件现场三维重建方法研究[D].
小模型和低复杂度的深度学习模型。
北京:中国人民公安大学,2017.
(3) 现有的大部分压缩图像增强模型常常根据 LIU G D. Research on Kinect based 3D reconstruction
实践经验来设计神经网络的拓扑结构,使得这些网 method for case scenes[D]. Beijing: People's Public Secu-
rity University of China, 2017.
络成为一种黑盒模型。很明显,这些模型往往缺乏数 [3] 李鸿林,张忠民,羿宗琪.中值滤波技术在图像处理中的
学模型支撑,并且缺乏合理的可解释性,这将极大地 应用[J].信息技术,2004,28(7):26-27+52.
限制面向压缩图像增强的深度学习模型性能。尽管 LI H L, ZHANG Z M, YI Z Q. The application of median
目前少数专家已经开始研究可解释的压缩图像增强 filtering technology in image processing[J]. Information
Technology, 2004 (7): 26-27+52.
模型并且取得一些初步的成果,但是这些方法还不 [4] TOMASI C, MANDUCHI R. Bilateral filtering for gray
能满足需求。由此可见,需要深入研究可解释的压缩 and color images[C]//International Conference on Com-
puter Vision. 7 Jan 1998, Bombay, IEEE: 2002.
图像增强模型。 [5] ZHANG J, XIONG R, ZHAO C, et al. CONCOLOR: Con-
(4) 随着深度学习的发展,学者们研究的课题不 strained non-convex low-rank model for image deblock-
ing[J]. IEEE Transactions on Image Processing, 2016,
仅仅只是为了提升压缩图像的质量,而更多的是用 25(3): 1246-1259.
于实际场景,如检测、识别、定位和图像修复等方面, [6] CHANG H, NG M, ZENG T. Reducing artifacts in JPEG
decompression via a learned dictionary[J]. IEEE Transac-
因此,如何将压缩后的图像应用于实际场景也是未 tions on Signal Processing, 2013, 62(3): 718-728.
来的研究课题之一。 [7] BUADES A, COLL B, MOREL J M. A non-local algorithm
面对以上问题和挑战,不仅需要科研工作者从 for image denoising[C]//Computer Vision and Pattern
Recognition, 2005. CVPR 2005. IEEE Computer Society
计算机硬件方向着手研究计算速度更快、内存更大、 Conference on. IEEE, 2005, 2: 60-65.
价格更加低廉的硬件设备,而且还需要研究高效的 [8] MA X, ZOU J, LI W, et al. Miniature spectrometer based
on a Fourier transform spectrometer chip and a com- mer-
压缩算法使其更好的应用于小型的移动端设备和各 cial photodetector array[J]. Chinese Optics Letters, 2019,
种复杂多变的场景。此外,对于深度学习解决计算机 17(12): 123001.
[9] HERRREO B A, LI J, KHAZAEI M, et al. On-chip Fou-
视觉问题需要海量的数据作为支撑的问题,研究如 rier-transform spectrometers and machine learning: a new
何进行训练数据增广也是一项具有重大意义的工作。 route to smart photonic sensors[J]. Optics Letters, 2019,
44(23): 5840- 5843.
综上所述,压缩图像增强的研究还面临着诸多挑战,
[10] 付华,李楠,高楠.数字信号处理[M].北京:电子工业出版
需要充分利用现有的算法和技术手段,并且需要结 社,2018:231-240.
合实际应用场景和需求,才能实现高效和高质量的 FU H, LI N, GAO N, et al. Digital signal processing[M].
压缩图像增强处理。 Beijing: Electronic Industry Press, 2018:231-240.
[11] COIFMAN R, WICKERHAUER V. Entropy-based algo-
rithms for best basis selection[J].IEEE Transactions on In-
5 结束语 formation Theory,1992,38(2):713-718.
本文主要从传统的压缩图像增强方法和深度学 [12] MICHAL A, MICHAL E, ALFRED B. K-SVD: An algo-
rithm for designing overcomplete dictionaries for sparse
习的压缩图像增强的方法两类方法入手介绍图像增 representation[J]. IEEE Transactions on Signal Processing:
强技术的发展与分类,并比较它们的优缺点。其次, A publication of the IEEE Signal Processing Society, 2006,
54(11).
介绍并分析了压缩图像增强的几种关键性技术。这 [13] DABOV K, FOI A, KATKOVNIK V, et al. Image de-
些关键技术的深入研究能够推动压缩图像增强技术 noising by sparse 3D-transform domain collaborative fil-
tering[J]. IEEE Transactions on Image Processing, 2007,
的深入发展,从而使图像增强技术在各个领域发挥 16 (8): 2080–2095.
重要作用。随着网络技术和硬件技术的不断快速发 [14] DONG C, DENG Y, CHEN CHANG L, et al. Compression
artifacts reduction by a deep convolutional net-
展,图像增强不仅追求图像质量的提高,而且追求将 work[C]//Proceedings of the IEEE International Confer-
其应用于各种场所并且方便人类生产和生活。 ence on Computer Vision. 2015: 576-584
12 Computer Engineering and Applications 计算机工程与应用

[15] ZHANG K, ZUO W, CHEN Y, et al. Beyond a Gaussian learning framework for parameterized image operators[J].
denoiser: Residual learning of deep CNN for image de- IEEE Transactions on Pattern Analysis and Machine Intel-
noising[J]. IEEE Transactions on Image Processing, 2017, ligence, 2019, 43(1): 33-47.
26 (7): 3142–3155. [32] HE J, DONG C, QIAO Y. Interactive multi-dimension
[16] JIN Z, MUHAMMAD Z I, BOBKOV D, et al. A flexible modulation with dynamic controllable residual learning for
deep CNN framework for image restoration[J]. IEEE image restoration[C]//Computer Vision–ECCV 2020: 16th
Transactions on Multimedia, 2019, 22 (4): 1055-1068. European Conference, Glasgow, UK, August 23–28, 2020,
[17] TODERICI G, O'MALLEY S M, HWANG S J, et al.Vari- Proceedings, Part XX 16. Springer International Publish-
able rate image compression with recurrent neural net- ing, 2020: 53-68.
works[J]. arXiv:1511.06085, 2015. [33] WANG W, GUO R, TIAN Y, et al... CFSNet: Toward a
[18] TODERICI G, VINCENT D, JOHNSTON N, et al. Full controllable feature space for image restoration [C]//Pro-
resolution image compression with recurrent neural net- ceedings of the IEEE/CVF International Conference on
works[C]// Proceedings of the IEEE Conference on Com- Computer Vision. 2019: 4140-4149.
puter Vision and Pattern Recognition,2017:5306-5314 [34] XU J, YUAN M, YAN D M, et al. Deep unfolding multi-
scale regularizer network for image denoising[J]. Compu-
[19] RIPPEL O, BOURDEV L. Real-time adaptive image com- tational Visual Media, 2023, 9(2): 335-350.
pression[C]//Proceedings of the 34th International Confer- [35] NING Q, DONG W, SHI G, et al. Accurate and lightweight
ence on Machine Learning-Volume 70,2017:2922-2930. image super-resolution with model-guided deep unfolding
[20] WANG Z, CUN X, BAO J, et al. Uformer: A general U- network[J]. IEEE Journal of Selected Topics in Signal Pro-
shaped transformer for image restoration[J]. arXiv: cessing, 2020, 15(2): 240-252
2106.03106 (2021) [36] YAN K, ZHOU M, ZHANG L, et al. Memory-augmented
[21] LIANG J, CAO J, SUN G, et al. SwinIR: Image restoration model-driven network for pansharpening[C]//Computer
using swin transformer[J]. arXiv:2108.10257 (2021) Vision–ECCV 2022: 17th European Conference, Tel Aviv,
[22] WANG Z, LIU D, CHANG S, et al. D3: Deep dual-domain Israel, October 23–27, 2022, Proceedings, Part XIX. Cham:
based fast restoration of JPEG-compressed im- Springer Nature Switzerland, 2022: 306-322.
ages[C]//Proceedings of the IEEE Conference on Com- [37] YANG G, ZHANG L, ZHOU M, et al. Model-guided
puter Vision and Pattern Recognition. 2016: 2764- 2772. multi-contrast deep unfolding network for MRI super-res-
[23] LIU P, ZHANG P, ZHANG K, et al. Multi-level wavelet- olution reconstruction[C]//Proceedings of the 30th ACM
CNN for image restoration [C]//Proceedings of the IEEE International Conference on Multimedia. 2022: 3974-3982.
Conference on Computer Vision and Pattern Recognition [38] FU X, WANG M, CAO X, et al. A model-driven deep un-
Workshops. 2018: 773-782. folding method for JPEG artifacts removal[J]. IEEE Trans-
[24] CHEN H, HE X, QING L, et al. DPW-SDNet: Dual pixel- actions on Neural Networks and Learning Systems, 2021,
wavelet domain deep CNNs for soft decoding of JPEG- 33(11): 6802-6816.
compressed images, [C]//Proceedings of the IEEE Confer- [39] YOU D, XIE J, ZHANG J. ISTA-Net++: flexible deep un-
ence on Computer Vision and Pattern Recognition Work- folding network for compressive sensing[C]//2021 IEEE
shops. 2018: 711-720. International Conference on Multimedia and Expo (ICME).
[25] KIRMEMIS O, BAKAR G, TEKALP A M. Learned com- IEEE, 2021: 1-6.
pression artifact removal by deep residual networks [C]// [40] SONG J, CHEN B, ZHANG J. Memory-augmented deep
Proceedings of the IEEE Conference on Computer Vision unfolding network for compressive sensing[C]// Proceed-
and Pattern Recognition Workshops. 2018: 2602-2605. ings of the 29th ACM International Conference on Multi-
[26] ZHANG X, YANG W, HU Y, et al. DMCNN: Dual- do- media. 2021: 4249-4258.
main multi-scale convolutional neural network for com- [41] YOU D, ZHANG J, XIE J, et al. COAST: Controllable ar-
pression artifacts removal[C]//The 25th IEEE International bitrary-sampling network for compressive sensing[J].
Conference on Image Processing (ICIP) . IEEE, 2018: 390- IEEE Transactions on Image Processing, 2021, 30: 6066-
394. 6080.
[27] ZHANG B, CHEN Y, TIAN X, et al. Implicit dual-domain [42] ZHANG J, ZHAO C, GAO W. Optimization-inspired com-
convolutional network for robust color image compression pact deep compressive sensing[J]. IEEE Journal of Se-
artifact reduction[J]. IEEE Transactions on Circuits and lected Topics in Signal Processing, 2020, 14(4): 765- 774.
Systems for Video Technology, 2020, 30: 3982-3994. [43] MOU C, WANG Q, ZHANG J. Deep generalized unfold-
[28] ZHANG K, ZUO W, ZHANG L. Learning a single convo- ing networks for image restoration[C]//Proceedings of the
lutional super-resolution network for multiple degrada- IEEE/CVF Conference on Computer Vision and Pattern
tions[C]//Proceedings of the IEEE Conference on Com- Recognition. 2022: 17399-17410.
puter Vision and Pattern Recognition, 2018, pp. 3262– [44] WANG H, LI Y, ZHANG H, et al. InDuDoNet+: a model-
3271. driven interpretable dual domain network for metal artifact
[29] BAI Y, YANG X, LIU X, et al. Towards end-to-end image reduction in CT images[J]. arXiv preprint
compression and analysis with transformers[C] //Proceed- arXiv:2112.12660, 2021.
ings of the AAAI Conference on Artificial Intelligence. [45] ZHENG C, SHI D, SHI W. Adaptive unfolding total varia-
2022, 36(1): 104-112. tion network for low-light image enhancement[C]// Pro-
[30] GUO J, CHAO H. One-to-many network for visually ceedings of the IEEE/CVF International Conference on
pleasing compression artifacts reduction[C]//Proceedings Computer Vision. 2021: 4439-4448.
of the IEEE Conference on Computer Vision and Pattern [46] HUANG Y, LI S, WANG L, et al. Unfolding the alternating
Recognition. 2017: 3038-3047. optimization for blind super resolution[J]. Advances in
[31] FAN Q, CHEN D, YUAN L, et al. A general decoupled Neural Information Processing Systems, 2020, 33: 5632-
赵利军等:压缩图像增强方法研究综述 13

5643. 304.
[47] WU W, WENG J, ZHANG P, et al. URetinex-Net: Retinex- [60] KINGMA D P, WELLING M. Stochastic gradient VB and
based deep unfolding network for low-light image en- the variational auto-encoder[C]//Second International
hancement[C]//Proceedings of the IEEE/CVF Conference Conference on Learning Representations, ICLR. 2014, 19:
on Computer Vision and Pattern Recognition. 2022: 5901- 121.
5910. [61] CARON M, MISRA I, MAIRAL J, et al. Unsupervised
[48] REN C, HE X, QING L, et al. Deep deblocker driven adap- learning of visual features by contrasting cluster assign-
tive iteration scheme for compressed image recov- ments[J]. Advances in Neural Information Processing Sys-
ery[C]//2021 IEEE International Conference on Multime- tems, 2020, 33: 9912-9924.
dia and Expo (ICME). IEEE, 2021: 1-6. [62] HE K, FAN H, WU Y, et al. Momentum contrast for unsu-
[49] AGHABIGLOU A, EKSIOGLU E M. Deep unfolding ar- pervised visual representation learning[C]// Proceedings of
chitecture for MRI reconstruction enhanced by adaptive the IEEE/CVF Conference on Computer Vision and Pat-
noise maps[J]. Biomedical Signal Processing and Control, tern Recognition. 2020: 9729-9738.
2022, 78: 104016. [63] GRILL J B, STRUB F, ALTCHÉ F, et al. Bootstrap your
[50] ZHOU M, YAN K, PAN J, et al. Memory-augmented deep own latent-a new approach to self-supervised learning[J].
unfolding network for guided image super- resolution[J]. Advances in Neural Information Processing Systems, 2020,
International Journal of Computer Vision, 2023, 131(1): 33: 21271-21284.
215-242. [64] WU G, JIANG J, LIU X, et al. A practical contrastive
[51] Wang H, Xie Q, Zhao Q, et al. RCDNet: An interpretable learning framework for single image super-resolution[J].
rain convolutional dictionary network for single image de- arXiv:2111.13924, 2021.
raining[J]. IEEE Transactions on Neural Networks and [65] JI H, FENG X, PEI W, et al. U2-former: A nested U-shaped
Learning Systems, 2023. transformer for image restoration[J]. arXiv: 2112.02279,
[52] ZHANG K, ZUO W, GU S, et al. Learning deep CNN de- 2021.
noiser prior for image restoration[C]//Proceedings of the [66] WU H, QU Y, LIN S, et al. Contrastive learning for com-
IEEE Conference on Computer Vision and Pattern Recog- pact single image dehazing[C]//Proceedings of the
nition. 2017: 3929-3938. IEEE/CVF Conference on Computer Vision and Pattern
[53] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality Recognition. 2021: 10551-10560.
assessment: from error visibility to structural similarity[J]. [67] LI F, SHEN L, MI Y, et al. DRCNet: Dynamic image res-
IEEE Transactions on Image Processing, 2004, 13(4): 600- toration contrastive network[C]//Computer Vision –
612. ECCV 2022: 17th European Conference, Tel Aviv, Israel,
[54] CANDÈS E J, TAO T. The power of convex relaxation: October 23 – 27, 2022, Proceedings, Part XIX. Cham:
Near-optimal matrix completion[J]. IEEE Transactions on Springer Nature Switzerland, 2022: 514-532.
Information Theory, 2010, 56(5): 2053-2080. [68] LI B, LIU X, HU P, et al. All-in-one image restoration for
[55] PEARSON K. LIII. On lines and planes of closest fit to unknown corruption[C]//Proceedings of the IEEE/CVF
systems of points in space[J]. The London, Edinburgh, and Conference on Computer Vision and Pattern Recognition.
Dublin Philosophical Magazine and Journal of Science, 2022: 17452-17462.
1901, 2(11): 559-572. [69] KAELBLING L P, LITTMAN M L, MOORE A W. Rein-
[56] 邸云霞,孔慧华,牛晓伟.基于主成分分析的多能谱 CT 图 forcement learning: A survey[J]. Journal of Artificial Intel-
像 分 析 方 法 研 究 [J].CT 理 论 与 应 用 研 究 ,2022,31(6): ligence Research, 1996, 4: 237-285.
749-760. [70] RODERICK M, MACGLASHAN J, TELLEX S. Imple-
Di Yunxia, Kong Huihua, Niu Xiaowei. Research on mul- menting the deep q-network[J]. arXiv preprint
tispectral CT image analysis method based on principal arXiv:1711.07478, 2017.
component analysis[J]. CT Theory and Application Re- [71] CASAS N. Deep deterministic policy gradient for urban
search, 2022,31 (6): 749-760 traffic light control[J]. arXiv preprint arXiv:1703.09035,
2017.
[57] 肖汉,孙陆鹏,李彩林,周清雷. 面向 GPU 的直方图统计
[72] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous
图像增强并行算法[J]. 计算机科学与探索, 2022, 16(10): control with deep reinforcement learning[J].
2273-2285. arXiv:1509.02971, 2015.
XIAO H, SUN L P, LI C L, ZHOU Q L. GPU oriented [73] YU K, DONG C, LIN L, et al. Crafting a toolchain for im-
parallel algorithm for histogram statistical image en- age restoration by deep reinforcement learning[C]// Pro-
hancement [J] Computer Science and Exploration, 2022, ceedings of the IEEE Conference on Computer Vision and
16 (10): 2273-2285 Pattern Recognition. 2018: 2443-2452.
[58] 林成创,单纯,赵淦森,等. 机器视觉应用中的图像数据 [74] ZHANG J, ZHANG Q, ZHAO X, et al. Boosting denoisers
增广综述[J]. 计算机科学与探索, 2021, 15(4): 583-611. with reinforcement learning for image restoration[J]. Soft
Computing, 2022, 26(7): 3261-3272.
LIN C C, CHUN C, ZHAO G S, et al Overview of image [75] YU K, WANG X, DONG C, et al. Path-restore: Learning
data augmentation in machine vision applications [J] network path selection for image restoration[J]. IEEE
Computer Science and Exploration, 2021, 15 (4): 583- 611 Transactions on Pattern Analysis and Machine Intel- li-
[59] GUTMANN M, HYVÄRINEN A. Noise-contrastive esti- gence, 2021, 44(10): 7078-7092.
mation: A new estimation principle for unnormalized sta- [76] FURUTA R, INOUE N, YAMASAKI T. PixelRL: Fully
tistical models[C]//Proceedings of the thirteenth interna- convolutional network with reinforcement learning for im-
tional conference on artificial intelligence and statistics. age processing[J]. IEEE Transactions on Multimedia, 2019,
JMLR Workshop and Conference Proceedings, 2010: 297- 22(7): 1704-1719.
14 Computer Engineering and Applications 计算机工程与应用

[77] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Cur- 知 图 像 压 缩 方 法 [J]. 东 北 大 学 学 报 ( 自 然 科 学 版 ),


riculum learning[C]//Proceedings of the 26th Annual Inter- 2022, 43(6): 783-791.
national Conference on Machine Learning. 2009: 41-48.. ZHANG X F , XU H W. A high perception image com-
[78] KOCMI T, BOJAR O. Curriculum learning and minibatch pression method based on conditional generative adver-
bucketing in neural machine translation[J]. arXiv:1707. sarial networks[J] Journal of Northeast University (Natu-
09533, 2017. ral Science Edition), 43 (6): 783
[79] KUMAR M, PACKER B, KOLLER D. Self-paced learn- [92] MA H, LIU D, WU F. Rectified wasserstein generative ad-
ing for latent variable models[J]. Advances in Neural In- versarial networks for perceptual image restoration[J].
formation Processing Systems, 2010. IEEE Transactions on Pattern Analysis and Machine Intel-
[80] CHANG Y, CHEN M, YU C, et al. Direction and residual ligence, 2022.
awareness curriculum learning network for rain streaks re- [93] ZHANG B, GU S, ZHANG B, et al. StyleSwin: Trans-
moval[J]. IEEE Transactions on Neural Networks and former-based GAN for high-resolution image genera-
Learning Systems, 2023. tion[C]//Proceedings of the IEEE/CVF Conference on
[81] SHU J, XIE C, GAO Z. Blind restoration of atmospheric Computer Vision and Pattern Recognition. 2022: 11304-
turbulence-degraded images based on curriculum learn- 11314.
ing[J]. Remote Sensing, 2022, 14(19): 4797. [94] YU S, CHEN B, XU Y, et al. HEVC compression artifact
[82] HINTON G, VINYALS O, DEAN J. Distilling the reduction with generative adversarial networks[C]//2019
knowledge in a neural network[J]. arXiv:1503.02531, 11th International Conference on Wireless Communi- cat-
2015, 2(7). ions and Signal Processing (WCSP). IEEE, 2019: 1-6.
[83] HUANG Z, WANG N. Like what you like: Knowledge dis- [95] NAYMAN N, NOY A, RIDNIK T, et al. XNAS: Neural
till via neuron selectivity transfer[J]. arXiv:1707. 01219, architecture search with expert advice[J]. Advances in neu-
2017. ral information processing systems, 2019, 32.
[84] PASSALIS N, TEFAS A. Learning deep representations [96] CHEN Y, MENG G, ZHANG Q, et al. RENAS: Reinforced
with probabilistic knowledge transfer[C]//Proceedings of evolutionary neural architecture search[C]// Proceedings
the European Conference on Computer Vision (ECCV). of the IEEE/CVF Conference on Computer Vision and Pat-
2018: 268-284. tern Recognition. 2019: 4787-4796.
[85] LEE S H, KIM D H, SONG B C. Self-supervised [97] LEE B, KO K, HONG J, et al. Domain-agnostic single-
knowledge distillation using singular value decomposi- image super-resolution via a meta-transfer neural architec-
tion[C]//Proceedings of the European Conference on Com- ture search[J]. Neurocomputing, 2023, 524: 59-68.
puter Vision (ECCV). 2018: 335-350. [98] CHENG G, MATSUNE A, DU H, et al. Exploring more
[86] ZHU H, CHEN Z, LIU S. Learning knowledge representa- diverse network architectures for single image super-reso-
tion with meta knowledge distillation for single image su- lution[J]. Knowledge-Based Systems, 2022, 235: 107648.
per-resolution[J]. arXiv preprint arXiv:2207. 08356, 2022. [99] WU Y, GONG Y, ZHAO P, et al. Compiler-aware neural
[87] XIA B, ZHANG Y, WANG Y, et al. Knowledge distillation architecture search for on-mobile real-time super-reso- lu-
based degradation estimation for blind super-resolution[J]. tion[C]//Computer Vision–ECCV 2022: 17th European
arXiv:2211.16928, 2022.
Conference, Tel Aviv, Israel, October 23–27, 2022, Pro-
[88] LI J, YANG H, YI Q, et al. Multiple degradation and re-
ceedings, Part XIX. Cham: Springer Nature Switzerland,
construction network for single image denoising via
2022: 92-111.
knowledge distillation[C]//Proceedings of the IEEE/CVF
[100] CAI L, FU Y, HUO W, et al. Multi-scale attentive image
Conference on Computer Vision and Pattern Recognition.
de-raining networks via neural architecture search[J].
2022: 558-567.
IEEE Transactions on Circuits and Systems for Video
[89] CUI X, WANG C, REN D, et al. Semi-supervised image
Technology, 2022.
deraining using knowledge distillation[J]. IEEE Transac-
[101] NING Q, DONG W, LI X, et al. Searching efficient model-
tions on Circuits and Systems for Video Technology, 2022,
guided deep network for image denoising[J]. IEEE Trans-
32(12): 8327-8341.
actions on Image Processing, 2022.
[90] GALTERI L, SEIDENARI L, BERTINI M, et al. Deep uni-
[102] ZHANG X, ZENG H, ZHANG L. Efficient hardware-
versal generative adversarial compression artifact re-
aware neural architecture search for image super-reso- lu-
moval[J]. IEEE Transactions on Multimedia, 2019, 21(8):
tion on Mobile Devices[C]//Proceedings of the Asian Con-
2131-2145.
ference on Computer Vision. 2022: 721-738.
[91] 张雪峰, 许华文. 一种基于条件生成对抗网络的高感

You might also like