基于感兴趣区域的图像感知哈希技术研究伍旭军

分类号


ｉｓ ＾  Ａ ｕ ° 

ｃ
Ｉ
Ｓ ｍｉ

 ＿
鄭？ａ．


硕士研宄生学位论文


基于感兴趣区域的图像感知哈希技术研究


申请人：
伍旭军


学 号：２１９１８３８


培养单位：数据科学与技术学院


学科专业：网络空间安全


研究方向：
图像感知哈希


指导教师：
崔晨副教授


完成日期：２０２２年４月２８ 

日
摘要
中文摘要
文字和图像一直以来都是人们传递信息的两种主要方式。随着进入信息化时
代，相比与文字叙述，人们更加倾向使用图像来代替文字来更快的表述信息。同
时计算机软件的发展，例如：Photoshop 等图像编辑工具应运而生使得图像修改变
得更加容易。其次图像在传输过程中由于信道噪声等影响会带来一定的影响。同
时，在日常的图像传输过程中，往往传输的不是原始图像，而是经过编辑后的图
像。例如：图像的亮度调整，去噪和校正等。图像感知哈希技术使用哈希向量对
图像进行表示，并通过哈希向量的匹配来寻找对应的图像，能够较好的适用于现
实生活。目前，图像感知哈希技术在区分视觉上相同和不同方面有一定进展，但
是仍然存在诸如对图像目标没有区分，不能很好的符合人类对图像的直观感受。
本文根据人类视觉感受机制——人类一般只对图像感兴趣区域（ROI，Region Of
Interest）聚焦。同时现有的图像感知哈希算法大多数只考虑 2D 图像上的感知哈
希向量提取，并没有针对基于深度图绘制（ Depth Image Based Rendering ，
DIBR） 3D 图像上的提取方案。作为提取感兴趣区域的一种方法，基于人眼视觉
特征的检测方案中的显著图模型能够好的表示图像中的目标信息。现有的基于图
像显著图的感知哈希算法并没有解决对图像旋转操作不鲁棒的问题。
基于上述观点提出基于图像显著性区域的图像感知哈希算法。本文的主要研
究工作以及创新点如下：
（1）提出以基于吸收马尔科夫链的视觉显著图算法（Abosorbing Markov
chain，AMC）为模板进行改进，以提升对旋转操作的鲁棒性。
（2）提出一种基于改进后的 AMC 模型与 NMF 图像感知哈希算法。改进后
的 AMC 模型基本达到对图像旋转的鲁棒性。对感兴趣区域中的像素数据按序排
列并构建二次图像，对二次图像和原始图像分别进行 NMF 操作，以获得两个系
数矩阵，并将两者串联构成最后的哈希向量。在实现对图像旋转鲁棒性的同时，
也实现了对图像篡改检测操作，同时相比于现有的图像感知哈希算法在综合性能
上具有一定的优势。
I
黑龙江大学硕士学位论文
（3）提出一种基于改进后的 AMC 模型和特征点相结合的图像感知哈希算

法。该方式对感兴趣区域的外接矩形中特征点进行筛选，并利用描述子与密钥内
积来构建最后的哈希向量。在实现对图像旋转鲁棒性的同时，也实现了对图像篡
改检测操作，同时相比于现有的图像感知哈希算法在综合性能上具有一定的优
势。
（4）提出一种基于改进后的 AMC 模型和像素分组的图像感知哈希方案应用
于 DIBR 3D 图像中。该方案分别提取感兴趣区域和整幅图像素，分别构建灰度直
方图，再进行分组操作。最后对分组构建的二次图像采用 NMF 分解，获得最后
的哈希向量。实验结果表明，本章提出的算法在 DIBR 3D 图像上具有良好的鲁棒
性和区分性，同时具有一定的篡改检测能力。相比于现有的依赖于中心视点不变
的感知哈希算法具有更好的性能。
关键字：图像安全；感知哈希；感兴趣区域；NMF；显著图；SIFT；DIBR 3D
II
Abstract
Abstract
Text and images have always been the two main ways for people to convey
information. With the advent of information technology, people prefer to use images
instead of words to express information faster than textual narratives. At the same time,
the development of computer software, for example, Photoshop and other image editing
tools have emerged to make image modification easier. Secondly, images are affected
by channel noise in the transmission process. At the same time, in the daily image
transmission process, often the transmission is not the original image, but the edited
image. For example, the brightness of the image is adjusted, denoised and corrected, etc.
Image-aware hashing technology uses hash vectors to represent images and finds the
corresponding images by matching the hash vectors, which can be better applied to real
life. At present, image perception hashing techniques have made some progress in
distinguishing visually identical and different, but there are still problems such as no
distinction between image targets, which cannot well match the human intuitive
perception of images. In this paper, according to the mechanism of human visual
perception - humans generally focus only on the region of interest (ROI, Region Of
Interest) of an image. Meanwhile, most of the existing image perception hashing
algorithms only consider the perceptual hash vector extraction on 2D images, and there
is no extraction scheme for the depth image based rendering (DIBR) 3D images. As a
method for extracting regions of interest, the saliency map model in human eye visual
feature-based detection schemes can represent the target information in images well.
The existing perceptual hashing algorithm based on image saliency map does not solve
the problem of not being robust to image rotation operations.
Based on the above viewpoint, the image perceptual hashing algorithm based on image
saliency region is proposed. The main research work as well as the innovation points of
this paper are as follows.
(1) A visual saliency map algorithm (Abosorbing Markov chain, AMC) based on
the absorption Markov chain is proposed as a template for improvement to enhance the
III
robustness to rotation operations.

(2) Propose an improved AMC model based on the improved AMC with NMF
image perception hashing algorithm. The improved AMC model basically achieves
robustness to image rotation. The pixel data in the region of interest are arranged in
order and a quadratic image is constructed, and NMF operations are performed on the
quadratic image and the original image respectively to obtain two coefficient matrices,
and the two are concatenated to form the final hash vector. While achieving robustness
to image rotation, the image tampering detection operation is also achieved, and at the
same time has certain advantages in comprehensive performance compared with
existing image-aware hashing algorithms.
(3) An image-aware hashing algorithm based on the combination of the improved
AMC model and feature points is proposed. This approach filters the feature points in
the outer rectangle of the region of interest and uses the descriptor and key inner
product to construct the final hash vector. While achieving robustness to image rotation,
the image tampering detection operation is also achieved, while having certain
advantages over existing image-aware hashing algorithms in terms of comprehensive
performance.
(4) An image-aware hashing scheme based on the improved AMC model and pixel
grouping is proposed for application to DIBR 3D images. The scheme extracts the
region of interest and the whole image pixel separately, constructs the grayscale
histogram separately, and then performs the grouping operation. Finally, NMF
decomposition is applied to the secondary image constructed by grouping to obtain the
final hash vector. The experimental results show that the algorithm proposed in this
chapter has good robustness and distinguishability on DIBR 3D images with some
tamper detection capability. It has better performance compared with existing perceptual
hashing algorithms that rely on invariant central viewpoints.
Keywords: image security; perceptual hashing; Region Of interest; NMF; Saliency

Map; SIFT; DIBR 3D
IV
目录
目录
中文摘要 ...........................................................................................................................I
Abstract .........................................................................................................................III
目录 ..................................................................................................................................V
第 1 章绪论 .................................................................................................................... 1
1.1 研究背景及意义 .................................................................................................... 1

1.2 国内外研究现状 .................................................................................................... 2
1.2.1 基于变换域的图像哈希 ................................................................................. 2
1.2.2 基于统计特征的图像哈希 ............................................................................. 3
1.2.3 基于矩阵分解的图像哈希 ............................................................................. 3
1.2.4 其他方式的图像哈希 ..................................................................................... 4
1.3 图像感知哈希概述 ................................................................................................ 5
1.3.1 感知哈希框架 ................................................................................................. 5
1.3.2 评价指标 ......................................................................................................... 6
1.3.3 评价方式 ......................................................................................................... 7
1.4 本文的主要研究内容与结构 ................................................................................ 8
第 2 章图像感兴趣区域提取 ....................................................................................... 10
2.1 引言 ...................................................................................................................... 10
2.2 显著图 .................................................................................................................. 10
2.2.1 基于 ITTI 视觉显著性检测...........................................................................11
2.2.2 基于光谱残差的显著性检测 ....................................................................... 13
2.2.3 基于吸收马尔科夫链的显著性检测 ........................................................... 14
2.2.4 显著图算法的选择 ....................................................................................... 15
V
2.3 AMC 显著图算法的改进 .................................................................................... 19

2.3.1 模型准确性分析 ........................................................................................... 20
2.3.2 模型鲁棒性分析 ........................................................................................... 21
2.3.3 时间成本分析 ............................................................................................... 22
2.4 本章小结 .............................................................................................................. 23
第 3 章基于感兴趣区域的 2D 图像感知哈希算法 .................................................... 24
3.1 引言 ...................................................................................................................... 24
3.2 基于感兴趣区域和 NMF 相结合的图像感知哈希算法.................................... 24
3.2.1 非负矩阵分解（NMF）介绍 ...................................................................... 25
3.2.2 图像哈希算法描述 ....................................................................................... 25
3.2.3 实验结果与分析 ........................................................................................... 27
3.3 基于感兴趣区域和特征点的图像感知哈希算法 .............................................. 33
3.3.1 尺度不变特征变换 ....................................................................................... 34
3.3.2 图像哈希算法描述 ....................................................................................... 35
3.3.3 实验结果与分析 ........................................................................................... 36
3.4 本章小结 .............................................................................................................. 43
第 4 章基于感兴趣区域的 DIBR 3D 图像感知哈希算法 ......................................... 44
4.1 引言 ...................................................................................................................... 44
4.2 图像哈希算法描述 .............................................................................................. 45
4.3 实验结果与分析 .................................................................................................. 47
4.3.1 区分性分析 ................................................................................................... 47
4.3.2 鲁棒性分析 ................................................................................................... 48
4.3.3 算法性能比较 ............................................................................................... 49
4.3.4 图像篡改敏感性 ........................................................................................... 49
4.4 本章小结 .............................................................................................................. 50
第 5 章总结与展望 ....................................................................................................... 51
VI
目录
5.1 总结 ...................................................................................................................... 51
5.2 展望 ...................................................................................................................... 51
致谢 ................................................................................................................................ 53
参考文献 ........................................................................................................................ 54
攻读硕士期间取得的成果 ............................................................................................ 58
独创性声明 .................................................................................................................... 59
学位论文版权使用授权书 ............................................................................................ 59
VII
第 1 章绪论
第 1 章绪论
1.1 研究背景及意义
互联网的发展改变了人类交流的方式，图像和视频作为一种传播信息的媒
介，逐渐从信息传送的辅助地位变成和文字同等重要。各种社交软件等流行，如
微博、微信，Twitter 等社交软件的出现，人们交流变得更加密切。互联网上充斥
着成千上万张图片，并且每天都在大量产生。有用的信息被大量的无用信息淹
没，用户缺乏一种好的信息筛选手段。同时，图像编辑工具的流行如：
Photoshop，美图 APP 等工具的出现，图像的编辑变得越来越简单。图像的真实
性和完整性受到了很大的冲击。现有的技术缺乏一个明确的方式来对图像的内容
进行一个准确的描述，这为图像的检索、识别和认证等带来了巨大的困难。
传统的哈希是绝对的对应规则——即使是 1 比特哈希值的改变，都认为整个
哈希值发生了改变。在文字信息传输过程中，这种方式是比较安全。考虑到现有
的计算机网络中，通信信道并不是绝对稳定，往往会带来一定的传输噪声。人们
对图像的合法编辑也会造成图片的像素的改变，如图 1-1 中所示的加噪、亮度调
整和剪切等图像编辑操作都会造成哈希向量的改变。可见传统密码学中的哈希概
念并不适合于多媒体领域。
图 1-1 内容保持操作示意图
Fig.1-1 Content retention operation diagram
1
感知哈希技术作为一个来源于传统密码学，在继承其哈希及概念的基础上允
许哈希向量发生改变。图像感知哈希的提取步骤一般分为：输入图像标准化，特
征提取和哈希向量生成三个阶段。在预处理阶段一般都是对图像进行尺寸固定以
及滤波处理已获得标准化图像。对于特征提取阶段，现有的大多数算法都是对整
幅图像进行提取，并没有考虑到对图像中感兴趣区域单独提取。根据研究可知，
人通常是对图像的特定区域聚焦，即图像的感兴趣区域（ ROI ， Region Of
Interest）。本课题研究的主题是将感兴趣区域与图像感知哈希相结合，从而构成
一个最终的图像感知哈希算法。现有的基于感兴趣区域的感知哈希算法并没有实
现对旋转操作的鲁棒。同时随着 3D 技术的发展，如何对 DIBR 3D 图像的感知哈
希提取也成为了一个重要的研究课题。由于 DIBR 3D 图像的中间图像和左右眼虚
拟图像中心视点不一样，现有的大多数感知哈希算法不能直接应用于 DIBR 3D 图
像中。对于中间图像和左右眼虚拟图像而言，图像的感兴趣区域往往不会发生明
显的变化。因此，可以很好的将图像的感兴趣区域提取算法应用于图像感知哈希
技术中。
1.2 国内外研究现状
图像感知哈希技术发展至今，众多研究者从图像特征提取和哈希生成的各个
阶段入手，提出了众多的感知哈希方案。为此，本文将目前绝大多数的文献分为
以下四类：基于变换域、基于统计特征、矩阵分解和其他方式。接下来对每一个
分类进行详细的介绍。
1.2.1 基于变换域的图像哈希
在频域上进行图像哈希的提取，主要基于离散余弦变换(DCT)[1-4]和离散小波
变换(DWT)[5-7] 等。Swaminathan 等人 [8] 提出一种基于旋转不变性的图像哈希算
法，对 Fourier-Mellin 变换提出一种新的框架，研究现有图像哈希的安全性问题。
其对几何攻击以及各种内容保持操作具有良好的鲁棒性。Ouyang 等人[9]根据图像
低频部分信息更加稳定，首次将四元傅里叶变换和极坐标变换相结合，提取
2
第 1 章绪论
QDFT 低频系数作为特征，并根据系数之间的相关性生成最后的哈希向量。F.
Ahmed 等人[10]提出一种基于小波变换的图像哈希算法。该方案首先将输入图像分
割成不重叠的区域块，每个块内像素进行有序排列和小波变换。对生成的小波系
数进行排列形成最终的图像哈希，该方案对大多数内容保持操作具有鲁棒性。在
后续的文献[11-13]中，研究人员继续使用基于 DWT 或 DCT 方式来获得最终的哈希
序列，并且取得了一定的成果。
1.2.2 基于统计特征的图像哈希
Xiang 等人[14]研究发现直方图在诸如亮度变换等其他操作中，形状不会发生
明显的改变，提出将两个相邻像素组内的像素数量比值关系作为哈希向量，该方
案在面对不改变直方图形状的攻击下表现表过较好。如：亮度变化等，但在面对
诸如加噪，旋转和滤波等操作时表现的效果较差。直方图形状发生改变而引起最
终哈希向量的改变。研究人员通过不同的方式重构直方图[15-19]来增强直方图形状
的不变性，进而增强感知哈希算法的鲁棒性。对不变矩而言，Tang 等人[20]通过提
取图像中的不变矩作为最终的哈希，并在后续的工作中[20,21]，通过不同的方式构
建二次图像，再从中提取不变矩等方式，也都获得了较好的效果。后续不少研究
者将不变矩作为构架哈希序列的重要步骤，也都是举得了一个较好的效果。
在特征点检测方面，V.Monga 等人[22]通过对比 Harris 检测器和其变体 Hessian
仿射变换、最大稳定极值区域（MSER）检测器和 end-stopped 小波检测器在图像
内容保持操作中的鲁棒性，选择性质最好的 end-stopped 作为最终的检测器。X.Lv
等人[23]通过对比发现 SIFT、SIFT-Harris 检测器和 end-stopped 小波检测器，发现
SIFT-Harris 检测器具有更加稳定的性能。并通过改进形状上下文的方式，使得该
算法具有一定的篡改定位能力。在之后的研究中，研究人员通过改进探测器在内
容保持操作中的稳定性，进而提出更加鲁棒的感知哈希算法[24-27]。
1.2.3 基于矩阵分解的图像哈希
在图像处理中常见使用矩阵分解有基于奇异值分解（SVD），非负矩阵分解
3
（NMF）和 QR 分解等。Kozat 等人[28]使用基于 SVD 的方式来构建图像哈希序

列。作者通过提取左右奇异值向量作为哈希向量构建的基础。其在大多数常规的
图像处理中具有良好的性质。在后续中，Ghouti 等人[29]提出使用四元奇异值分解
（QSVD）来代替 SVD，从而获得相比于 SVD 更好的哈希向量。Khelifi 等人[30]
提出使用基于 NMF 方式来得到哈希序列，该方式对大多数常见的几何攻击具有
很好的鲁棒性。Tang 等人[31]提出一种基于张量分解的图像感知哈希算法，其先对
图像进行非重叠划分以此构建多个小图像区域，对每个区域使用 Tucker 分解，将
因子矩阵作为提取哈希的基础，也取得了一定的进步。从上述分析可以看出，矩
阵分解无论作为一种单独的手段，还是作为提取哈希序列中的一部分都是具有良
好的性质。
1.2.4 其他方式的图像哈希
在 2013 年，Tang 等人[32]提出一种基于图像中心环形划分的图像哈希方案，

该方案通过构建面积相等的同心圆，获取圆环中的像素并以此构建二次图像。对
二次图像进行非负矩阵分解，获取系数矩阵。该方案在大多数内容保持操作上都
是具有良好的性质。在后续工作中，Tang 等人[33]在此基础上又提出一些基于此方
案上的图像哈希算法，也都取得了一定的效果。不过，基于环形划分的方案都默
认图像的中心视点不会放生改变，因此在 DIBR（Depth-image-based rendering）
3D 图像绘制上，中间图像和左右眼虚拟图像的中心视点不一样，造成环形划分会
发生重大误判。因此其不适合于 DIBR 3D 图像处理中。
研究人员根据人类视觉注意力机制，人往往对图像中感兴趣部位更加聚焦。
对此，图像哈希与图像的显著图结合是一个比较好的方向。Zhao 等人[34]提出利用
显著图提取局部特征并结合全局特征的方式来提取图像哈希。该方案对于大部分
内容保持操作都具有良好的鲁棒性，但是其默认一幅图像中的显著性区域不多于
6 个，造成了一定的局限性。后续也有不少研究者基于显著图方向进行研究
[35,36]
，但由于显著图提取算法并不考虑图像的旋转，加噪和滤波等图像攻击，因
此使用未经改进的算法也对上述操作并不鲁棒，尤其是图像的旋转操作。
4
第 1 章绪论
虽然已经有众多的图像哈希算法提出，但是在哈希算法设计上依旧存在着问
题。需要研究人员不断的改进并提出更加高效的算法，在算法的鲁棒性和区分性
之间达到一个较好的平衡。
1.3 图像感知哈希概述
在感知哈希众多的性质中，研究人员公认算法对图像的区分性和鲁棒性是感
知哈希算法的最基本也是最重要的需求。这两者的性质决定了一个感知哈希算法
是否可以很好的区分视觉上相同和不同图像。在本文中，主要围绕这两个性质进
行研究。
1.3.1 感知哈希框架
图像的感知哈希技术发展到现在已经逐渐的成熟，并且形成了一个完整的流
程。如图 1-2 所示，从图像的预处理到最终的哈希生成，以及如何判定接收图像
是否与原始图像相同做了一个大致的评判流程。感知哈希一般分为三个阶段：图
像预处理，特征提取和哈希编码。对于图像的预处理，不同的研究人员可能会有
不同的操作，一般是对图像进行尺寸固定和降噪处理。在特征提取的过程中，只
要提取的描述符可以很好的表示整幅图像，并且能够很好的满足算法的鲁棒性和
区分性，一般就认为其是一个很好的特征。最后的哈希生成阶段，一般采用数据
量化操作，以达到哈希向量的简短。从而较好的满足哈希的摘要性。
图 1-2 感知哈希算法框图
Fig.1-2 Block diagram of the perceptual hashing algorithm
5
如图 1-2 所示，一个优秀的感知哈希算法应该能够很好的区分视觉上相同和
不同的图片，表现在实验上应该是算法的区分性与鲁棒性在保证性能优异的前提
下维持一个均衡的关系。对于篡改后的图片，传输图像和接收图像各自的感知哈
希距离应该大于视觉上相同图片的感知哈希距离。
1.3.2 评价指标
同传统的哈希评价指标类似，感知哈希也具有哈希性质：鲁棒性、摘要性、
单向性、区分性、篡改敏感性和安全性[37]。假设传输图像为 I1 ，生成的哈希向量
为 H ( I1 ) 。接收图像为 I 2 ，生成的哈希向量为 H ( I 2 ) 。则用 Dis ( H ( I1 ), H ( I 2 )) 表示
两个哈希向量之间的感知距离。一般使用的距离有欧式距离、汉明矩和相关系数
等。感知哈希相应的名词定义如下：
（ 1 ）鲁棒性：假设我们对图像 I1 进行内容保持操作，操作记为：
I1′ = Ocp(I1 ) ，则：
( )
Dis H( I1 ), H ( I1' ) < Threshold1 (1-1)
上述公式表示，原始图像经过内容保持操作后的哈希向量与原始图像的哈希
向量之间的感知距离小于设定的阈值。即若传输图像和接收图像在视觉上相同，
则两者之间的感知距离应该小于设定的阈值 Threshold1 。
（2）区分性：假设 I1 和 I 2 分别表示两个不同的图像， H ( I1 ) 和 H ( I 2 ) 表示两
幅图像提取出来的哈希值。则：
Dis ((H( I1 ), H( I 2 ))) > Threshold1 (1-2)
区分性实验主要是验证哈希向量对于不同的图像是否会产生相近的值，主要
体现哈希算法的一个抗碰撞性。即两幅不一样的图片不应该具有相似的哈希向
量。
（ 3）篡改敏感性：假设我们对图像 I1 进行一个内容篡改操作，记为：
I1tamp = Otamp ( I1 ) ，则：
6
第 1 章绪论
(( ))
Dis H( I1 ), H ( I1tamp ) > Threshold1 (1-3)
上述公式表示，对一个图像进行内容的篡改操作，那么最终得到的哈希向量
应与原始哈希之间的距离大于设定的阈值。
（4）摘要性：通过我们提出的感知哈希提取算法，最终得到的哈希向量长
度应该尽可能的短，所占的内存较小。
（5）安全性：一般在哈希向量生成过程中通过添加密钥来保证感知哈希算
法的安全性。
1.3.3 评价方式
感知哈希算法的测试一般分为类内测试与类间测试两种方式[38]，类内测试为
探究感知哈希算法的鲁棒性，类间测试探究对不同图像的区分性。首先为了探究
算法的鲁棒性，需要对原始图像数据集中的图片进行内容保持操作。内容保持操
作包括但不限于缩放、加噪、对比度调整、亮度调整、水印嵌入以及旋转等。其
次，为了探究算法的区分性（类间测试）。对原始图像中的图像数据进行两两比
较，计算两幅图像之间的感知距离，从而来判定算法的区分好坏。
目前主流的图像感知哈希算法评价方式有：ROC 曲线、FAR（ False Accept
Rate）、FRR（False Reject Rate）、准确率和柱状图分析等。在本文中，我们主要
采用 ROC 曲线、准确率和柱状图来进行算法性能的评价。
1.3.3.1 ROC 曲线
接收者操作特性曲线（receiver operating characteristic curve，简称 ROC 曲线
[39]
）用来判断图像感知哈希算法的鲁棒性与区分性。横坐标为假阳性概率
（FPR），纵坐标为真阳性概率（TPR）。这两者的计算方式如公式(1-4)所示，
P ( FPR ) = n1 / N1 , P (TPR ) = n2 / N 2 (1-4)
其中 n1 是在选取的相似图像数据集中算法判断为相同的图像数量， N1 是数据
集中实际相同的图像数量。 n2 是在选取的不同图像数据集中判断为相同的图像数
量， N 2 是所有图片都不相同的数据集中总的图像数量。在 ROC 曲线中，越接近
7
左上角表面算法区分性判断更准的情况下，算法的鲁棒性能更优。因此，ROC 曲
线的应用可以很好的表面各个算法之间的优劣程度。
1.3.3.2 准确率
准确率可以很直观的表示当一个阈值确定的情况下，算法在区分性和鲁棒性
方直观的感受。对于评判各个算法性能具有很直观的展示。
1.3.3.3 柱状图
柱状图在测试算法的区分性时具有直观的感受，可以很清晰的观测到所提方
案的稳定性和效果。可以帮助研究人员更好的确定初始阈值范围，从而更好的进
行后续实验步骤。由于区分性实验的图片数据集是随机挑选，那么一个好的感知
哈希算法得到的区分性柱状图应该尽可能的符合正态分布。
1.4 本文的主要研究内容与结构
现有的哈希算法，很多都是基于图像自身的性质，并没有考虑到人对图像的
注意力机制。基于此观点，本文引入图像感兴趣区域检测，并且提出新的结合方
式。所提的方法在 2D 图像和 DIBR 3D 图像上都是具有较好的性质。图 1-2 展示
了本文的主要内容以及行文结构。
第 1 章介绍了感知哈希技术的背景及意义。总结分析了感知哈希技术的国内
外现状。介绍了图像感知哈希框架以及对于的评价指标以及对应的评价方式。
第 2 章根据人类对感兴趣区域更加聚焦的特性，本文采用图像显著图对感兴
趣区域进行表示，结合图像显著性区域检测算法，对图像显著性区域的特征进行
提取。针对现有基于图像显著图的感知哈希算法并没有对图像旋转操作取得良好
鲁棒性的问题，对基于吸收马尔科夫链的显著图提取方法（ Abosorbing Markov
chain，AMC）进行改进，使得检测到的显著性区域对旋转操作具有良好的稳定
性。实验对改进后的显著图模型和现有的两个优秀的模型比较。分别对 2D 图像
和 DIBR 3D 图像进行了性能、鲁棒性和时间成本进行比较。实验结果表明，改进
后的显著图提取算法综合性能优异，较原始算法性能未明显下降，并且对旋转的
鲁棒性得到了提升。
8
第 1 章绪论
第 3 章中提出一种基于改进后的 AMC 显著图与 NMF 相结合的图像感知哈希

算法和一种基于显著图和特征点相结合的图像感知哈希算法。基于改进后的
AMC 显著图和 NMF 相结合的图像感知哈希算法利用改进后的 AMC 显著区域提
取算法较好的解决了图像感知哈希中对图像旋转较差的问题。在提取的显著性区
域上，重构一幅二次图像。对二次图像以及原始图像都使用 NMF 进行降维得到
相应的哈希向量，将两个哈希向量进行串联组成最后的哈希向量。通过与现有的
几种经典的感知哈希算法进行比较，实验结果表明该算法在区分性和鲁棒性方面
具有较好的性能。基于改进后的 AMC 显著图与特征点相结合的图像感知哈希方
案首先提取图像的显著性区域，获取显著性区域最小外接矩形内的特征点，并对
显著区域的特征点进行筛选，从而获取更加稳定的特征点。通过实验验证，该方
案相比其他哈希算法在综合性能上更具有优势。
第 4 章提出一种直方图与显著图相结合的方式，并且应用于 DIBR 3D 图像
中。实验表明，在大多数现有的感知哈希算法在面对图像中心视点变化造成的性
能急剧下降，本章提出的基于感兴趣区域的算法在面对 DIBR 3D 图像上依旧有良
好的性能。
第 5 章中总结本文的研究课题，并针对基于图像的显著性区域做出一个展
望。
9
第 2 章图像感兴趣区域提取
2.1 引言
人在观察某一图像时，由于图像中存在着特定的目标，使得人不自觉的忽略
图像的背景信息，只将注意力集中在图像的感兴趣区域当中。目前篡改通常是对
图像的局部信息进行修改，如图 2-1 所示，对图像的目标进行目标增加、减少和
替换。可见感兴趣的提取和表示会有助于感知哈希算法的设计和实现。
图 2-1 图像的恶意篡改
Fig.2-1 Malicious tampering of images
现有的感兴趣区域检测算法大致可以分为以下三类：（1）基于交互的 ROI 检
测；（2）基于变换的 ROI 检测；（3）基于视觉特征的 ROI 检测。本文则采用基于
视觉特征的 ROI 检测中的显著图（Saliency Map，SM）检测来对图像感性区域进
行提取和表示。在本章中，首先介绍显著图的提取原理，以及现有的几种优秀的
显著图提取算法。在设计图像感知哈希算法的过程中，需要考虑图像的各种内容
保持操作对算法性能的影响，如：亮度调整、加噪和旋转等，而在现有的显著图
提取过程中并不需要考虑这些问题。为此，本章分析了显著图提取算法在各种内
容保持操作下的性能变化，并提出相应的改进方法。
2.2 显著图
人类对所观看到的图像内容并不是都感兴趣，尤其是在面对复杂的场景时，
10
第 2 章图像显著区域提取原理
往往会不自觉的忽视一些不重要的信息。可以理解为人类观测图像时大多数时候
会忽视背景信息。这种行为方式是基于人类的心理和生理共同决定，在人类的视
觉处理信息中是一个十分重要的机制[40]。显著性检测是提取图像中人类最感兴趣
或者称之为视觉表现力最强的图像区域，可以很直观的表示人的视觉感受。现有
的较为公认的一些数据集有 MSRA、MSRA-B[41]和 ASD[42]等。显著图理论可以较
好的表示人类的视觉注意力机制，即在一幅图像中，往往关注的是图像中的目
标，而不是背景信息。
从显著图提取方式不同来看，一般分为：由上而下（Top-dowm）和由下而上
（ Bottom-up ）两种方式。由下而上的方式是利用图像中的数据信息来提取，例
如：提取图像中的颜色、亮度、纹理等信息来构建显著图。其中较为出名的有
RC[43]，HC[44]和 SR[45]等。其中 RC 和 HC 两者都是利用图像的对比度来获得显著
性区域。SR 提出从数学的角度来提取显著图，利用光谱残差获得一个较好的效
果。自上而下的方式往往是根据人的经验而决定，更多依赖于人的主观意识。
经典的基于显著图的图像感兴趣区域方法已经提出许多，本文以此介绍基于
ITTI 视觉模型的显著性检测、基于光谱残差视觉模型的显著性检测和基于吸收马
尔科夫链视觉模型的显著性检测。下面将对这三种方法进行详细的介绍与分析。
2.2.1 基于 ITTI 视觉显著性检测
ITTI 模型[40]是根据人类视觉神经系统设计的一种视觉模型[46]，比较符合人类
神经生物学和视觉心理学理论[47,48]。该方式是对图像的颜色，亮度和方向三个分
量进行提取，并获得最终的显著图。该显著图计算框图如图 2-2 所示。
首先对输入图像进行一个标准化操作，包含尺寸固定，彩色图像转化成灰度
图像和线性滤波。对颜色、亮度和方向分量进行高斯金字塔操作。具体操作流程
包含三部分：高斯金字塔的构建、特征图构建和显著图的构建。
11
图 2-2 ITTI 模型框图

Fig.2-2 Block diagram of the ITTI model
2.2.1.1 高斯金字塔的构建
如图 2-2 所示，高斯金字塔包含三部分：亮度、颜色和方向。首先对 RGB 图
像的 R、G 和 B 三通道进行降采样处理，生成 27=3*9 幅图像即九个尺度下的三通
道图像。按照公式(2-1)所示，构建亮度金字塔。
I ( σ ) = ( r (σ ) + g (σ ) + b ( σ )) / 3 (2-1)
按照公式(2-2)构建各个颜色分量的颜色金字塔。其中构建颜色金字塔时需要
在 RGB 颜色分量的基础上增加一个黄色分量 Y。
R (σ ) = r (σ ) − ( g (σ ) + b (σ )) / 2;
G (σ ) = g (σ ) − (r (σ ) + b (σ )) / 2;
(2-2)
B (σ ) = b (σ ) − ( g (σ ) + r (σ )) / 2;
Y (σ ) = ( g (σ ) + r (σ )) / 2− | r (σ ) − g (σ ) | /2 − b (σ )
最后构建方向金字塔，包含 0°，45° ,90° 和 135°，四个角度方向。在九个尺度

下共计 36 幅图像。这里使用的滤波器是 Gabor 滤波器。
2.2.1.2 特征图的构建
对上述生成的亮度、颜色和方向高斯金字塔按照中央周边差归一化原则（中
12
央为小尺度(c)，周边为大尺度(s)）生成特征图。具体的计算方案按照公式(2-3)所
示进行。
I (c, s ) = | I (c) I ( s ) |
RG (c, s ) = | ( R(c) − G (c))  (G ( s ) − R( s )) |
(2-3)
BY (c, s ) = | ( B(c) − Y (c))  (Y ( s ) − R( s )) |
O ( c, s , θ ) = | O (c , θ )  O ( s , θ ) |
根据上述公式，可以得到上述四个角度和 3 个颜色和亮度共计 42 张图片。为

了更好的展示图像的显著性效果，使用步骤 3 来构建最后的显著图。
2.2.1.3 显著图的构建
对上个步骤中产生的特征图进行归一化处理，用  ( • ) 表示，范围为 [ 0, M ] 。
其中 M 是该特征图的全局最大值，并找到其他所有局部最大值 m，求解其均值
m ，最后所有特征图都与 ( M − m) 2 相乘。各个分量采用公式(2-4)进行求解获取对
应的特征图。
4 c+4
I = ⊕ ⊕  ( I (c, s ))
c = 2 s =c + 2
4 c+4
C = ⊕ ⊕ [  ( RG (c, s )) +  ( BY (c, s )) ] (2-4)
c = 2 s =c + 2
4 c+4
O=   ( ⊕ ⊕  (O(c, s, θ )))
c = 2 s =c + 2
θ ∈{0 ,45 ,90 ,135 }
最后对得到的特征图进行线性叠加即可，本章采用原始算法中按公式(2-5)求
解最后的显著图。
S = (  ( I ) +  (C ) +  (O)) / 3 (2-5)
2.2.2 基于光谱残差的显著性检测
在 2010 年，Hou 等人[45]根据有效编码理论提出光谱残差计算模型（Spectral

Residual，SR）。作者根据前人的研究发现，图像的统计特征并不是随机分布，而
是符合某种特征。该模型认为一幅自然图像应该是可以服从一种概率分布。一般
一幅自然图像的傅里叶谱服从公式(2-6)所示。
E{ ( f )} ∝ 1/ f (2-6)
13
其中 f 表示频率，算法的具体计算步骤如下。
（1）使用公式(2-7)计算图像的 Log 谱线
A( f ) = R (ΓI [ x])
(2-7)
L( f ) = log( A( f )))
其中 Γ( I ) 表示图像 I 的傅里叶变换， R() 表示获取实数部分。
（2）利用公式(2-8)进行模板卷积操作获取图像背景数据。
C ( f ) = h ∗ L( f ) (2-8)
其中 h 表示 k*k 的平滑滤波器，本章中采用 3*3 卷积核进行平滑滤波。
（3）按照公式(2-9)计算图像的光谱残差。
R ( f ) = L( f ) − C ( f ) (2-9)
（4）最后对获得的原图剪切背景信息后的残差图，进行逆傅里叶变换。
 ( f ) = ℑ (Γ[ I ( x)])
(2-10)
(
S ( x) = g ( x) ∗ Γ −1 exp( R( f ) + P( f )) 2
其中 ℑ() 表示获取虚部，g(x)表示高斯滤波器， Γ −1 表示傅里叶逆变换。
2.2.3 基于吸收马尔科夫链的显著性检测
在显著图提取算法中，基于吸收马尔科夫链的显著图（ Abosorbing Markov

chain ， AMC ）提取算法 [49] 是一个较为经典的自下而上算法。该方法主要利用
SLIC[50]（Simple Linear Iterative Clustering）对图像进行超像素分割，并且默认图
像的显著性区域不包含图像边缘。因此，作者复制图像与四周边缘接触的超像素
块作为吸收马尔可夫链中的吸收节点。SLIC 方法对图像的处理是在 CIELAB 颜色
空间上进行像素聚类。以像素间的空间距离和颜色距离作为距离度量。通过判定
每个聚类点的位置是否发生变化来确定是否终止迭代。
在 AMC 模型中，作者将图像四周边缘超像素块认为不包含显著性区域，如
图 2-3 所示，假设这些超像素数量为 k。将这些超像素节点进行复制并作为吸收
节点（黄色矩形框外面的超像素块）。通过判断图中的所有节点（超像素块）到
这些虚拟的吸收节点之间的时间，进而对每个超像素块进行显著性计算。对于该
14
算法，其主要步骤如下：
图 2-3 原算法中展示图[49]
Fig.2-3 The graph shown in the original algorithm[49]
（1）对原始图像使用 SLIC 算法，获得超像素块的划分；
（2）建立一个节点数量为 n = k + m 的无向图 G (U , E ) ，其中，U 是超像素块
节点集合，E 是节点之间边的集合。
（3）构建边上的权重值。用公式(2-11)表示两个节点之间边上的权重：
ti − t j
wij = e σ
2
(2-11)
其中 i 和 j 分别表示相邻两个关联节点， ti 与 t j 表示该超像素块的颜色均值。
б是用于调节权重系数。
（4）图中的 k 个虚拟的节点类内不关联，但是与其他的节点都是相连。因此
对应的关联矩阵 A 为：
 wij j ∈ N (i ),1 ≤ i ≤ n

aij =  1 i= j (2-12)
0 其他

（5）将图像的四条边都当作吸收节点，并根据公式(2-12)的关联矩阵获得相
应的吸收矩阵： P = D −1 × A 。其中 D 是对应的出度矩阵。

（6）通过吸收马尔可夫链转移矩阵，可以很容易获得概率转移矩阵 Q，由
此可以获得一个基本矩阵 N = ( I − Q) −1 ， nij 表示是从转移节点 i 到转移节点 j 的预
期吸收时间。至此，计算出所有的转移节点的吸收时间 y = N * I 。吸收时间越
15
短，表明与吸收节点的距离越近，意味着其与背景更相近。最后将 y 进行归一化
获得显著图 S。从上可见吸收节点的确定好坏，直接决定了显著区域定位的准确
性。
2.2.4 显著图算法的选择
感知哈希一个重要的特性是对图像内容保持操作的鲁棒性，因此选择一个好
的显著图提取算法首先应该具备对图像内容保持操作的鲁棒性。其次才是显著图
评价方法中对一个优良的算法的评价指标——计算速度和显著性区域准确性。综
合可知，一个良好的显著图提取算法应该在计算速度、显著性区域准确性和鲁棒
性方面都达到一个较好的均衡效果。本章将从模型的显著性区域准确性、鲁棒性
和计算速度三个方面进行对比分析。
2.2.4.1 图像显著性区域准确性
选择 MSRA 数据集中的五张图片，观察三种模型的显著性区域准确性，如图
2-4 所示。
图 2-4 ITTI，SR 和 AMC 模型生成的显著图

Fig.2-4 Salienct map of ITTI, SR and AMC model
如图 2-4 所示，AMC 模型下的显著图相比于其他两种模型在显著区域准确性
方面更加优异。为了进一步定量分析各个模型在具体性能，使用精准率和召回率
来评估算法的显著性定位准确性。假设 result 表示显著图提取算法对原图提取的
16
显著性区域，GT 表示该图像的准确区域，则对应的精准率和召回率计算公式如
下所示。
result ∩ GT
precision = (2-13)
result
result ∩ GT
recall = (2-14)
GT
Fβ =
(1 + β ) precision ⋅ recall
2
(2-15)
β 2 ⋅ precision + recall
其中 β 2 在本文中设置为 0.3 。在本阶段选择 MSRA 数据集作为原始数据集，
并选择对应中所有图片进行显著区域准确性实验，结果如图 2-3 所示。图中明显

的表示在图像的显著区域定位的准确性方面，AMC 模型要明显优于 ITTI 模型和
SR 模型。
图 2-3 三种模型的 Precision-Recall 曲线图

Fig 2-3 Precision-recall graphs for the three models
2.2.4.2 图像显著性区域鲁棒性
在图像感知哈希算法性能测试中，需要对图像进行各种内容保持操作攻击，
如：加噪、滤波、亮度调整以及旋转等。因此，在图像的感知哈希算法中，不仅
需要一个精准的显著区域定位算法，更需要算法在图像进行内容保持操作之后，
显著区域提取位置没有明显的变化。在传统的显著区域提取算法中，并不考虑算
法对图像进行内容保持操作后的性能，因此本文设计了一种方式来评价算法对内
容保持操作的鲁棒性能。假设显著图提取算法对原始图像的显著图表示为 GT，
17
对图像内容保持操作后的显著图表示为 result。对两次得到的显著图进行二值化
处理，并 Fβ 来表示算法的鲁棒性。从 MSRA 数据集中随机选择 100 张图片，并
对所有图片进行内容保持操作，总共产生 32*100 = 3200 张图片。在所有的内容

保持操作中，对所有的图片进行尺寸标准化为 512*512 大小。在图像旋转过程
中，将原始图像的显著图旋转对应的角度，从而保证原始显著图与旋转之后在提
取的显著图位置一样。
其中的内容保持操作及参数强度具体如下：高斯噪声（GN）强度为 0.0005
和 0.005，椒盐噪声（SPN）和斑点噪声（SN）强度为 0.001 和 0.01，高斯模糊
（GB）强度为 0.5 和 5，运动模糊（MB）参数为（1，1。）和（0，45。），伽马校
正（GC）强度为 0.75 和 1.25，亮度调整（BA）比值为 0.8 和 1.2，对比度调整
（CA）比值为 0.8 和 1.2，JPEG 压缩（JP）质量因子为 30 和 100，水印嵌入
（WE）质量因子为 10 和 100，缩放（RE）比值为 0.5 和 2，旋转（RA）角度为
15。和 45。。
图 2-5 图像内容保持操作对三种模型的影响
Fig.2-5 Effect of image content retention operations on the three models
如图 2-5 所示，三种显著图提取算法在面对图像旋转时相比于其他操作性能
下降明显。其中 ITTI 模型表现最好，其次是 SR 模型，最后是 AMC 模型。综合
前面 AMC 准确性比 ITTI 和 SR 模型都好，且在面对旋转操作时相差不是很大。
2.2.4.3 图像显著性区域计算时间
在计算图像的感知哈希的过程中，时间成本也是一个重要的因素。因此，本
18
章选择 MSRA 数据集中的 100 张图片，计算每个模型产生单幅显著图的时间均

值，本文采用的设备为 Intel(R) Core(TM) i5-10200H CPU @ 2.40GHz ，
Matlab2019a 软件进行计算，绘制如下表格。
表 2-1 三种模型单幅图像时间消耗
Table.2-1 Single image time consumption for the three models
模型名称 ITTI SR AMC

时间/秒 2.2870 0.0218 0.1496
从表格 2-1 中可以看出， SR 模型计算速度最快， ITTI 模型计算最慢，而

AMC 模型计算速度适中。因此综合考虑各个模型的显著区域鲁棒性、显著区域
准确性和计算时间，选择 AMC 模型作为显著图提取算法。从上述分析可知，图
像的显著性区域提取算法在内容保持操作中，图像的旋转表现最差，因此在后续
的章节中，首先对模型进行改进以提升模型对图像旋转操作的鲁棒性。
2.3 AMC 显著图算法的改进

在上一节的分析中可知，AMC 模型对诸如加噪、模糊、缩放和 JPEG 压缩等
内容保持操作具有较好的鲁棒性，但是在对旋转操作中效果很差。图 2-6 很好的
阐明了该现象出现的原因。
图 2-6 旋转对显著区域的影响
Fig.2-6 Effect of rotation on significant areas
如图 2-6 所示，图像的旋转操作会造成图像四个角区域像素的缺失，图像感
19
知哈希评价中常用的工具 Strimark[51]对该 4 个区域使用像素 0 进行填充。图像旋

转之后引入的黑色填充区域，在使用 SLIC 超像素提取算法之后，图像的边缘超
像素块会逐渐的变换为黑色超像素块。在 AMC 模型中将图像的四周边缘的超像
素块视为吸收节点，而对真实图像中背景区域选择较少。因此随着旋转角度的增
大，AMC 模型会将大部分黑色边缘超像素块视为吸收节点，从而间接的导致了
真正的背景区域超像素块未被视为吸收节点，最后导致图像显著性区域定位不准
确。
基于上述分析可知，本章所引用的 AMC 显著区域提取算法主要是吸收节点
超像素块的选择。改变吸收节点的选择，将直接影响算法的显著区域定位准确性
与旋转鲁棒性。借鉴环形分割感知哈希算法[21,32]的思想，只考虑对图像中心圆形
区域进行特征提取并生成感知向量，本文选择图像最大内切圆外的超像素块作为
吸收节点，具体示意图如图 2-7 所示。
图 2-7 吸收节点选择示意图
Fig.2-7 Schematic diagram of absorption node selection
2.3.1 模型准确性分析
改进后的显著区域算法由于增加了吸收节点的数量，因此在显著区域准确性
方面有一定的变化。为了对比模型改进前后与原始模型和其他模型的性能，选择
MSRA 数据集中的所有图片，对改进后的显著图提取算法进行实验验证，并且绘
制对应的实验结果。
20
图 2-8 改进后的 AMC 模型与其他三种模型对比

Fig.2-8 Comparison of the improved AMC model with the other three models
如图 2-8 所示，由于吸收节点的增加，改进后的算法会将更多的区域认为是
图像的背景区域，从而造成图像显著性区域的减少，进而造成算法整体性能的下
降。不过从整体上看，虽然改进后的显著图提取算法在性能上相比于原始版本的
显著图提取算法性能有一定的下降。但是相比于其他两种算法还是有较大的优
势。
2.3.2 模型鲁棒性分析
（1）对 2D 图像的鲁棒性分析:如图 2-9 所示，观察改进后的 AMC 模型对图

像显著性区域的定位准确性，相比于图 2-6 中的旋转后显著区域已经有一个明显
的改善。
图 2-9 改进后的 AMC 模型的显著区域变化

Fig.2-9 Significant regional changes in the improved AMC model
21
进一步使用精准率和召回率来定量的解释说明改进后的算法对旋转操作后的
表现。从 MSRA 数据集中随机选择 100 张图片，并对所有图片进行内容保持操
作，总共产生 32*100 = 3200 张图片。分别计算原始的 AMC 模型和改进后的
AMC 模型在数据集上的图像显著性区域鲁棒性。
表 2-2 原始 AMC 模型和改进后的 AMC 模型
Table.2-2 Original AMC model and improved AMC model
AMC 模型改进后 AMC 模型

操作
Precision Recall F Precision Recall F
内容保持操作
0.9680 0.9693 0.9666 0.9597 0.9624 0.9576
（不含旋转）
旋转 0.7860 0.8377 0.7683 0.8737 0.8632 0.8588
从表 2-2 中可知，改进后的 AMC 模型在对旋转操作有一个较大的进步，同

时面对其他内容保持操作没有一个明显的下降。
（3）对 DIBR 3D 图像的鲁棒性分析：不同于 2D 图像的单张图片表示，
DIBR 3D 图像，由中间图像和左右眼虚拟图像组成。在 DIBR 3D 图像中，左右眼
虚拟图像的中心视点发生变化，并且图像的整体像素发生平移。在一幅图像中，
一般图像中的目标只是位置发生了改变，但是目标本身并没有像素点的变化。同
时对于改进后的 AMC 模型，图像的最大内切圆区域并没有发生明显的改变，对
应的图像中目标没有发生明显的变化。从 Microsoft Research 3D Video Datasets [52]
选择 4 幅图像。对于每一幅图像，都构建其左右眼虚拟图像，攻击后的虚拟图像
和攻击后的中间图像，具体参数按照上节鲁棒性分析具体参数进行。以 DIBR 中
的中间图片和左右眼虚拟图片构成一组，生成 4*101 = 404 组图片，一共 3*404 =
1212 张图片数据集。以每组图片的中间图像对应的显著图作为真值图。实验结果
如图 2-10 所示。
22
图 2-10 DIBR 3D 图像显著性区域鲁棒性

Fig.2-10 DIBR 3D Image Saliency Region Robustness
如图 2-10 所示，AMC 模型和改进后的 AMC 模型生成的显著图，在面对中
心视点发生改变后的左右眼虚拟图像上，图像的显著性区域并没有发生明显的改
变。改进后的显著图提取算法在其他内容保持操作性能未明显下降的情况下，图
像的旋转性能有一定的上升。
2.3.3 时间成本分析
时间成本在图像的显著性区域提取过程中也是一个重要指标。为了比较改进
后的 AMC 方案相比于原始 AMC 方案在时间成本上的差异性。随机选择 MSRA
数据集中的 200 幅图片，生成对应的显著图，计算每个模型产生单幅显著图的时
间均值。本文采用的设备为 Intel(R) Core(TM) i5-10200H CPU @ 2.40GHz ，
Matlab2019a 软件进行计算。结果如表 2-3 所示。
表 2-3 原始 AMC 模型和改进后的 AMC 模型计算一幅图像时间
Table.2-3 The original AMC model and the improved AMC model calculate an image time
模型名称 AMC 改进后的 AMC

时间/秒 0.1495 0.1514
从表 2-3 中，可以看到在时间消耗上，原始的 AMC 模型耗费时间为 0.1495

秒。改进后的 AMC 模型，由于吸收节点数量的增加，导致计算量的增加，进而
时间成本有一定的上升。
23
2.4 本章小结
图像显著区域提取算法并不考虑图像的加噪、缩放和旋转等内容保持操作对
图像显著区域的影响。现有的基于显著图的感知哈希算法也是使用现有的显著图
提取算法，并没有进一步去改进显著图提取算法。针对目前显著图提取算法对图
像旋转操作不具有鲁棒性。本文以一种较为先进的传统图像显著性区域提取算法
为模板，对其进行修改，以提高其对图像旋转操作的鲁棒性。通过重新调整吸收
节点数量和区域，从而在尽量保持显著图提取算法性能的基础上提升对图像旋转
鲁棒性。实验对比结果展示，改进后的显著图提取算法在其他内容保持操作性能
未明显下降的情况下，图像的旋转性能有一定的上升。
24
第 3 章基于显著图的 2D 图像感知哈希算法
第 3 章基于感兴趣区域的 2D 图像感知哈希算法
3.1 引言
根据人眼注视机制[40]——人往往对图像中的某些区域更加感兴趣。作为提取
感兴趣区域的一种方法，基于人眼视觉特征的检测方案中的显著图模型能够好的
表示图像中的目标信息。基于此观点，不少研究学者提出众多基于显著图的图像
哈希算法，并都取得较好的效果。现有的基于显著图提取哈希算法也具有一定的
局限性。主要集中在两方面。一是选取的显著图提取算法性能过于简单[36,38]，这
会造成算法在面对复杂图像背景时显著性区域定位不准确。二是默认图像的显著
性区域个数有限[35,53,54]，显著性区域个数的固定会造成图像信息的损失。本章选
取的改进后的显著区域提取算法对图像的亮度，对比度和选择等其他一些内容保
持操作具有良好的鲁棒性。
基于上述观点，本章提出两种基于改进后的显著区域提取算法的感知哈希方
案。（1）提出一种基于改进后的 AMC 模型和 NMF 相结合的图像感知哈希方案，
该方案不固定显著区域的数量，从而使得算法具有一定的普适性。（2）提出一种
基于改进后的 AMC 模型和特征点相结合的图像感知哈希方案。该方案只提取图
像显著性区域的特征点，并对所提取特征点进行筛选，从中选择最稳定的特征
点。最后使用密钥 key 对每个特征点的描述子进行内积操作，以获得最后的哈希
向量。
3.2 基于感兴趣区域和 NMF 相结合的图像感知哈希算法

在本节中提出一种基于图像感兴趣区域和 NMF 相结合的图像感知哈希算
法。本算法分为两部分，一部分是从图像的感兴趣区域中提取哈希向量；一部分
是从整体图像中提取。首先采用改进后的 AMC 模型提取图像的感兴趣区域，并
对感兴趣区域提取其外接矩形中的所有像素点。其次对这些像素点进行顺序排
序，并将该像素点依次放入一个宽度固定的矩阵中，不足用 0 进行填充，从而构
25
建一幅二次图像。最后使用 NMF 获取二次图像和原始图像中的系数矩阵 H，并

将其串联在一起，从而获得最终的哈希值。
3.2.1 非负矩阵分解（NMF）介绍
在 1999 年，Lee 和 Seung 在自然杂志上提出了一种矩阵分解方式——非负矩

阵分解[55]。因其得到的所有值都是非负值，所以广泛的应用于图像处理等各种数
据处理的科学研究中。NMF 的算法原理是使用两个矩阵的乘积来近似表示原始矩
阵。假设 V 表示原始矩阵， V ' 表示矩阵分解之后基数矩阵与系数矩阵的乘积，即
V ' ≈ W * H ，其中 W 是基数矩阵，H 是系数矩阵。则该矩阵分解问题，即转化成
两个矩阵之间距离最小化问题。在 NMF 中，该距离使用欧几里得矩阵，即：
min V − V ′2 = (Vij − Vij′ )

2
(3-1)
ij
则相应的系数矩阵 H 的更新规则为：
(W V ) T
aμ
H aμ ← H aμ (3-2)
(W T
WH )
aμ
其中其中 α 和 μ 是指矩阵的第 α 行第 μ 列元素，当 (W T WH ) = 0 时，对应位

aμ
置元素不做更新。相应的 W 的更新准则如公式(3-3)所示：
Wia ← H ia
(VH ) T
ia
(3-3)
(WHH ) T
ia
对于图像来说，可以将灰色图像近似认为是一个值为０到 255 ，大小为

M * N 的矩阵。将输入图像定义为 img ( x, y ) 。此时的原始矩阵 V 即是输入图像
img ( x, y ) 。因此， img ( x, y ) ≈ W * H 。在本章节中，我们选择系数矩阵 H 作为提
取的哈希向量步骤中的一部分。
3.2.2 图像哈希算法描述
在本章中，将改进后的 AMC 模型与 NMF 相结合，以此构建一个感知哈希向

量。本章算法框图如图 3-1 所示。
26
图 3-1 基于 AMC 与 NMF 哈希算法框图

Fig.3-1 Block diagram of hash algorithm based on AMC and NMF
（ 1）图像标准化。对输入的原始图像按照线性插值的方式固定尺寸为
512*512 大小。对尺寸固定后的图像进行高斯低通滤波处理，以获得图像的低频
分量，从而增强提取的哈希向量对一些内容保持操作的鲁棒性[56]。原始的中间图
像的低频分量获取如公式(3-4)所示：
IClow ( x, y ) = G ( x, y, σ ) ∗ I ( x, y ) (3-4)
其中的*表示卷积操作，并且低通滤波高斯函数 G ( x, y, σ ) 表示如公式(3-5)所
示：
1 2
+ y 2 /2σ 2
G ( x, y , σ ) = e− x (3-5)
2πσ 2
其中 σ 是标准差，并且根据文献[56]设置 σ = 1 。
（2）构建二次图像。获取预处理后的图像的显著性区域的最小外接矩形。
由于每个图像中的显著性区域的数量并不固定，因此对显著性区域中的所有数据
进行一个从小到大的排序处理，并且将所有数据放入一个宽度固定大小的矩阵
中，从而保证了图像进行非负矩阵分解时系数矩阵大小的固定，进而保证了最后
得到的哈希向量长度的固定。像素提取示意图如图 3-2 所示：
图 3-2 提取外接矩形框中数据示意图
Fig.3-2 Schematic diagram of extracting data in a bounding rectangle
27
（3）构建最终哈希向量。上述步骤中固定了二次图像的宽度，从而确保了
NMF 中系数矩阵大小的固定。假设得到的二次图像的宽度设定为 m，NMF 中的
秩设定为 r，则得到第一部分的哈希向量 Hash1 ，且其长度为 L = m * r 。预处理后
的图像使用 NMF 量化，并提取对应的系数矩阵 Hash2 。使用公式(3-6)获取最终的
哈希向量。
h = [ Hash1 Hash2 ] (3-6)
（4）感知距离评价方式。在本章节中，为了评价前后两幅图像之间的感知
距离，我们使用相关性系数 S 来评定。假设原始的哈希向量为 hash1 ，待判定的哈
希向量为 hash2 ，则两者之间的相关性系数定义如公式(3-7)所示：
cov ( hash1 , hash2 )

S ( hash1 , hash2 ) = (3-7)
Var [ hash1 ]Var [ hash2 ]
其中 cov ( hash1 , hash2 ) 是 h1 和 h2 的协方差， Var [ hash1 ]Var [ hash2 ] 是 hash1 和
hash2 的方差。当两个哈希值的相似性距离大于预先设定的阈值时，则认为为同
一幅图像，反之亦反。
3.2.3 实验结果与分析
在本章实验中，选择 MSRA 数据库作为图像来源，该数据集中包含建筑、人

物、汽车、水果、动物等。图 3-3 展示数据中的一部分图片。
图 3-3 MSRA 数据集中部分数据

Fig.3-3 Part of the data in the MSRA dataset
从该数据库中随机选取一定数量的图片作为内容保持操作和区分性的数据
28
集。对所有初始输入图片进步标准化操作，其中每个操作的具体参数如下：高斯
低通滤波（标准的 3*3 低通高斯滤波，标准差 0.3 ）和输入图像尺寸固定为
512*512 大小。对本章节哈希算法参数设定如下： m = 32，r = 2 。最终的到的哈
希向量长度为： L = m * r * 2 = 32* 2* 2 = 128 。
3.2.3.1 区分性分析
为了探究算法的区分性性能，我们从 MSRA 数据集中选择 1000 幅图像作为
初始数据集。图像中包含人物、建筑、植物、动物、水果等各种目标图像。图像
的大小有： 300* 400 ， 400*300 和 400* 400 等多种尺寸图像。在区分性实验中，
每幅图像都于其他图片进行比较，计算图像之间的感知距离。因此总共构成
1000*（1000-1）/2 = 499500 图像对。最终实验结果如图 3-4 所示，横坐标表示一
对图像之间的相关系数 S，纵坐标表示对应的图像对数量。
图 3-4 本节提出的感知哈希算法区分性效果
Fig.3-4 The perceptual hashing algorithm proposed in this section distinguishes the effect of sex
如图 3-4 所示，S 的最大值为 1，最小值为-0.3833。所有 S 的均值为 0.5035，
标准差为 0.1710。当 S>0.9 时，会有 0.210%的图像对会被错误的认为是相同的图
片，当 S>0.93 时，有 0.0428%的图像对被错误判断，当 S>0.95 时，有 0.0088%的
图像对会被错误判断。
3.2.3.2 鲁棒性分析
从 MSRA 数据集中选择 200 幅图像进行鲁棒性实验。本章中对所有的图像进
行 12 种图像内容保持操作，包含用 Stirmark 工具对图像进行几何攻击，用
29
Photoshop 对图像的亮度和对比度进行调整，用 Matlab 对图像进行加噪，模糊和

伽马校正等。各个操作的参数强度采用表 3-1 所示参数强度进行操作。最终得到
一个 200*101=20200 张内容保持操作之后的图片数据集。
表 3-1 图像进行何种内容保持操作以及参数强度
Table.3-1 Image for content retention and parameter strength
操作参数设置数量
高斯噪声方差 ∈ (0.0005 ∼ 0.005) 10
椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10
斑点噪声方差 ∈ (0.001 ∼ 0.01) 10
高斯模糊高斯核：3*3 σ ∈ (0.5 ∼ 5) 10
运动模糊 len = 1, 2,3 θ = 0 , 45 ,90 9
伽马校正 0.75, 0.9, 1.1, 1.25 4
旋转 θ ∈ (−90,90) 16
缩放 factor ∈ (0.5 ∼ 2.0) 6
亮度调整 -20,-10,10,20 4
对比度调整 -20,-10,10,20 4
JPEG 压缩 QF ∈ (30 ∼ 100) 8
水印嵌入 QF ∈ (10 ∼ 100) 10
总数 101
对每组图片提取相应的哈希向量，并使用相关系数来评估每组图像间的感知
距离。图 3-5 展示了不同的内容保持操作下的平均相关系数值。其中 x 轴表示具
体内容保持操作的参数值，y 轴是每个参数下的平均哈希距离。从图像中可以看
出，本章提出的感知哈希算法算法在图像的对比度调整、亮度变化和旋转等操作
上，所有内容相似的图像的感知哈希向量的相关性都是大于 0.94。在图像的旋转
过程中，虽然整体性能要比其他内容保持操作差，但是还是可以很明显区分视觉
上相似图片和不同图片。可见本章提出的算法在图像的鲁棒性上整体性能优异。
30
图 3-5 不同的内容保持操作下的感知哈希的鲁棒性
Fig.3-5 Robustness of perceptual hashing under different content-preserving operations
同时，为了更好的评价感知哈希算法的鲁棒性，我们分别计算每个内容保持
操作下的统计性质，结果如表 3-2 所示。从中可知，本章提出的哈希提取算法在
上述提及的内容保持操作下，相关性最大为 1 ，均值都大于 0.97 ，方差都小于
0.1。表明本章提出的算法在性能和稳定性上都具有较好的表现。根据上一节中区
分性实验可知，当阈值 T>0.9 时，仅有 0.210% 的图像对会被误判，而当阈值
S>0.93 时，只有 0.0428%的图像对误判。可见阈值设定在 0.9 与 0.93 之间较为合
适。
31
表 3-2 不同图像处理操作下哈希距离的统计值
Table.3-2 Statistics of hash distance under different image processing operations
操作 Min Max Mean 方差

高斯噪声 0.4720 0.9999 0.9868 0.0163
椒盐噪声 0.5026 1.0000 0.9885 0.0225
斑点噪声 0.3530 1.0000 0.9886 0.0164
高斯模糊 0.4967 1.0000 0.9850 0.0169
运动模糊 0.5008 1.0000 0.9905 0.0155
旋转 0.4012 0.9798 0.9700 0.0325
伽马校正 0.6122 0.9998 0.9800 0.0495
水印嵌入 0.3990 1.0000 0.9853 0.0175
缩放 0.4308 0.9999 0.9838 0.0261
亮度调整 0.7735 1.0000 0.9875 0.0161
对比度调整 0.6542 1.0000 0.9889 0.0155
JPEG 压缩 0.5565 0.9998 0.9854 0.0172
3.2.3.3 不同参数对算法的影响
在 NMF 中需要设定秩的大小 r，并且在构建二次图像的过程中，需要设定一
个固定的宽度值 m。因此，不同的参数值对最后的哈希向量构建会造成不同的影
响。为了寻找最优的参数值。我们探究在不同的参数值下，分别以相关系数
S>0.92 和 S>0.94 作为阈值来进行评判，计算各自的图像识别准确率。最后的结果
如表格 3-3 所示。从中可知，不同的系数对算法的区分性与鲁棒性有较大的区
别。可以看出在当 r = 2 和 m = 32 时，对图像的鲁棒性和区分性都达到了一个较好
的准确度。虽然当 r = 2 和 m = 64 时，在阈值设定为 0.94 时，性能相比于 m = 32
有一定的提升，但是小于当阈值设定为 0.92 时，因此本章最终选择 r = 2 和
m = 32 本文构建感知哈希的参数值。当 r=2 和 m=32 时，T 设置为 0.94 时，相比
于 T=0.92，虽然区分性有所上升，但是鲁棒性下降很多。因此选择 0.92 作为本节
算法的阈值。
32
表 3-3 不同参数值下算法性能
Table.3-3 Algorithm performance for different parameter values
T=0.92 T=0.94
r m
鲁棒性区分性鲁棒性区分性
2 16 85.24% 99.97% 79.76% 100%
2 32 99.80% 99.96% 94.66% 99.99%
2 64 98.96% 99.94% 98.89% 99.98%
3.2.3.4 算法性能比较
为了更好的证明本章提出基于显著图的图像哈希算法更优于现有的一些哈希
算法。选择以下四个目前优秀的哈希方案：基于 NMF 的哈希算法[57]，基于环形
切割方案[21,32]。基于拉普拉斯的图像哈希算法。
我们选取每个算法中，按照作者设定的算法最优参数值进行实验，从而尽可
能的保证算法对比的公平性。分别计算各个算法在该数据集下的感知距离。实验
结果如图 3-6 所示。
True positive rate
True positive rate
图 3-6 AMC-NMF 方案性能对比图

Fig.3-6 AMC-NMF scheme performance comparison chart
如图 3-6 所示，本节提出的算法虽然与其他算法有一定的交集，但是在综合
性能上相比于现有的几种具有代表性以及性能优秀的算法都具有一定的优势。
33
3.2.3.5 图像篡改敏感性
当一个图片在视觉上的主要目标发生改变，应当认为图像已经被篡改。诸如
包括：目标数目的增加，删减和替换等。一个好的图像感知哈希算法应该对图像
的篡改操作敏感。在本章中选择以下三张图片，并分别进行目标的增加，删减和
替换。并计算与原始图像的感知距离，最后计算如图 3-7 所示。
图 3-7 篡改后的图像距离计算
Fig.3-7 Tampered image distance calculation
如图 3-7 所示，上述三种情况下的图像篡改操作，相关系数均小于 0.9。可见
本章提出的算法在图像篡改检测方面，可以很清晰的检测图像是否被篡改。
3.3 基于感兴趣区域和特征点的图像感知哈希算法
不少研究者使用特征点来构建图像感知哈希[7,24]，并且都获得不错的效果。
特征点的使用已从最初的直接使用所有特征点来构建哈希值，到后来先对特征点
进行筛选再来选择相对稳定的特征点来构建一个更加稳定的哈希。从特征点的选
择方面来看，研究人员把所有的特征点赋予相同的权重，即对所有的特征点统一
对待。如图 3-8 所示，现有的基于特征点构建图像感知哈希的算法没有特征点所
属区域，本章提出只提取图像感兴趣区域的特征点，并进一步对图像感兴趣区域
的特征点进行筛选方案。
34
图 3-8 特征点选择示意图
Fig.3-8 Schematic diagram of feature point selection
3.3.1 尺度不变特征变换
尺度不变特征变换（Scale Invariant Feature Transform，SIFT）[58]是 Lowe 在

在 2004 年提出。SIFT 算法在多尺度上来提取极值点作为特征点，从而保证了特
征点在面对图像的缩放和平移具有不变性，同时设定主方向保证了对图像旋转的
不变性。SIFT 因此受外在影响较小，应用领域已经涉及目标检测、图像哈希和三
维建模等方面。SIFT 算法主要包含以下四个部分：高斯金字塔构建，特征点检测
和特征点描述，特征点匹配。在本文中，并没有使用特征匹配，因此对 SIFT 特
征点匹配不做说明。
（1）高斯金字塔构建：通过高斯卷积核对图像进行卷积操作，不断的降低
图像的尺寸大小，从而构建一个多尺度空间。其中高斯金字塔的组数用公式(3-8)
计算。
O = [log min( M , N )] − 3, S = n + 3 (3-8)
其中 M 和 N 是输入图像的长和宽，n 是提取多少特征，一般设置为 2，S 是
每组的层数。假设用 I ( x, y ) 表示输入图像，则
L ( x , y , σ ) = G ( x, y , σ ) ⊗ I ( x, y ) (3-9)
其中 L( x, y, σ ) 表示高斯金字塔的尺度图像， G ( x, y, σ ) 是高斯核。其中 σ 更新
采用公式(3-10)所示。
1
σ (o, s ) = 2o −1 k ( s −1)σ , k = 2 S (3-10)
其中 o 是组坐标，s 是每组中的层坐标， σ (o, 0) 是第 o 组的初始尺度，S 为每
35
组层数。
（2）特征点检测：通过步骤 1 创建的多尺度下的图像进行相减操作，从而
构建相应的差分高斯金字塔 DOG（Difference-of-Gaussian），每个极值点从本图像
和上下两幅图像中 3*3 的邻域中，即在一个 3*3*3 的立方体中选择极值点。其中
高斯差分金字塔构建用公式(3-11)表示。
D( x, y, σ ) = (G ( x, y, kσ ) − G ( x, y, σ )) ⊗ I ( x, y )
(3-11)
= L( x, y, kσ ) − L( x, y, σ )
（3）分配方向：利用图像的局部梯度方向特性为每一个特征点指定一个或
多个方向参数。用公式(3-12)计算该特征点的梯度模值，(3-13)计算梯度方向。
m( x, y ) = ( L( x + 1, y ) − L( x − 1, y )) 2 + ( L( x, y + 1) − L( x, y − 1)) 2 (3-12)
L( x, y + 1) − L( x, y − 1)
θ ( x, y ) = tan −1 (3-13)
L( x + 1, y ) − L( x − 1, y )
（4）特征点描述子：如图 3-9 所示，以步骤 3 中的主方向作为 0 度建立坐标
系，从而保证了描述子面对旋转时具有不变性。从每个特征点的 8*8 邻域中，将
此邻域分割成 4 个 4*4 的小区间，每个小区间有 8 个方向值，计算各个方向的梯
度之和作为一个种子点，则形成一个 32 维的描述子。在原文中，作者建议寻找
每个特征点的 16*16 邻域，因此组后形成一个 128 维的描述子。
图 3-9 SIFT 特征向量生成示意图[58]

Fig.3-9 Diagram of SIFT feature vector generation[58]
3.3.2 图像哈希算法描述
本节所提出的感知哈希方案包含四个模块：特征提取，筛选，量化，编码。
具有如图 3-10 所示。
36
获取图像显著
输入图像标准化选择特征点构建哈希值H
性区域
密钥Key
图 3-10 算法框图
Fig.3-10 Block diagram of algorithm
（1）预处理：按照上一节中的图像标准化操作，对图像进行预处理。包括
对所有图像进行高斯低通滤波和图像尺寸固定。
（2）特征点提取：使用 SIFT 特征点提取算法，参数使用原始参数，提取图
像汇总的所有特征点。使用改进后的 AMC 模型提取图像的显著性区域，只显著
区域的 SIFT 特征点以及描述子，表示为 Pmap = { p1 , p2 ,..., pn } 。
（3）特征点筛选：在更高维度提取的特征点对内容保持操作具有更强的鲁
棒性。因此，对步骤 2 中提取的特征点，按照如下准则来判断该特征点是否保
留：(1) 对候选点特征点进行排序。将向量 Pmap 的所有关键点按 σ 从大到小排序。
因为尺度越大，图像越模糊，所以点越稳定；（2）删除重复的点。在同一尺度 σ
下，不同方向 φ 的关键点被删除。最后所有的特征点用 PmapSelect = { p1 , p2 ,..., pk } 表
示。对于不足 k 个特征点使用 0 进行填充。

（4）构建哈希值：选择一个密钥 Key 与每个特征点的描述子做内积操作，
将内积操作后的到的所有值作为最后的哈希向量。
3.3.3 实验结果与分析
在本章实验中，选择 MSRA[41]数据集作为图像来源。对初始输入图片统一采
用如下操作：图像标准化（高斯低通滤波：标准的 3*3 低通高斯滤波，标准差为
0.3 ）和图像尺寸固定为 512*512 大小。显著区域最大特征点数量选取设置为
K = 120 。最终的到的哈希值长度为： L = K = 120 。用两个哈希向量之间的相关
系数作为距离度量。
3.3.3.1 SIFT 特征点稳定性分析
虽然 SIFT 特征点是从差分高斯金字塔中提取，对常见的几种内容保持操作
37
具有一定的鲁棒性，但是其在面对滤波等操作时表现较差。为了探究初始 SIFT
算法面对内容保持操作时的性能。假设 Po 表示原始图像的所有特征点， Pm 表示接
收图像与原始图像相匹配的特征点，则使用公式(3-16)来表示特征点鲁棒性。
Po ∩ Pd
F= (3-16)
Po ∪ Pd
其中 | . | 表示取其绝对值。当 F 的值接近 1 时，则表明该方式提取的 SIFT 特
征点具有很好的鲁棒性。因此 F 可以很好的评价特征点在各种攻击下的鲁棒性。
本节内容保持操作及参数强度具体设置如下：水印嵌入（WE）质量因子为
10 和 100，旋转（RA）角度为[-90,90]共 16 个角度值，亮度调整（BA）比值为
0.8 和 1.2，对比度调整（CA）比值为 0.8 和 1.2，JPEG 压缩（JP）质量因子为 30
和 100，伽马校正（GC）强度为 0.75，高斯噪声（GN）强度为 0.0005 和 0.005，
椒盐噪声（SPN）和斑点噪声（SN）强度为 0.001 和 0.01，高斯模糊（GB）强度
。。
为 0.005 和 0.05，运动模糊（MB）参数为（1，1 ）和（0，45 ）。共计 12 中内容
保持操作。如图 3-11 所示，SIFT 特征点在图像进行内容保持操作中，整体稳定
性较差。在这高斯噪声效果很差，可见由于噪声的加入，会导致在计算局部极值
点中会选择错误，从而造成特征点选取的错误。因此，需要选择一个好的方式来
对从全图中选取的特征点进行筛选，从而保证最后算法性能的鲁棒性。
图 3-11 SIFT 特征点稳定性分析

Fig.3-11 SIFT feature point stability analysis
38
3.3.3.2 区分性分析
为了探究算法的区分性性能，我们从 MSRA 数据集中选择 1000 幅图像作为
初始数据集。图像中包含人物、建筑、植物、动物、水果等各种目标图像。图像
的大小有： 300* 400 ， 400*300 和 400* 400 等多种尺寸图像。在区分性实验中，
每幅图像都于其他图片进行比较，计算两幅图像之间的感知距离。因此总共构成
1000*（1000-1）/2 = 499500 图像对。最终实验结果如图 3-12 所示，横坐标表示
一对图像之间的相关系数 S，纵坐标表示对应的图像对数量。
图 3-12 AMC-SIFT 算法区分性

Fig.3-12 AMC-SIFT algorithm distinguishability
如图 3-12 所示，在基于 AMC 模型和特征点的感知哈希方案在区分性实验
中，得到的实验结果基本符合正态分布，具有较好的区分效果。从具体的实验数
据可知，区分性的相关系数最小值为-0.8013，最大值为 0.9616。当阈值 T=0.85
时，算法对内容相似的图像识别准确率可以达到 99.87%，当阈值 T=0.9 时，本节
提出的方案误判率仅为 0.02%，当阈值设置为 T=0.92 时，内容相似的图像识别准
确率为 99.99%。
3.3.3.3 鲁棒性分析
从 MSRA 数据集中选择 200 幅图像进行鲁棒性实验。在本节中对所有图像进
行 12 种图像内容保持操作，包含用 Stirmark 工具对图像进行几何攻击，用
39
Photoshop 对图像的亮度和对比度进行调整，用 Matlab 对图像进行加噪，模糊和

伽马校正等。各个操作的参数强度采用表 3-4 所示参数，得到一个 200*91= 18200
张内容保持操作之后的图像数据集。
表 3-4：图像进行何种内容保持操作以及参数强度
Table.3-4: Image for content retention and parameter strength
高斯噪声方差 ∈ (0.0005 ∼ 0.005) 10
椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10
斑点噪声方差 ∈ (0.001 ∼ 0.01) 10
运动模糊 len = 1, 2,3 θ = 0 , 45 ,90 9
伽马校正 0.75, 0.9, 1.1, 1.25 4
旋转 θ ∈ (−90,90) 16
缩放 factor ∈ (0.5 ∼ 2.0) 6
亮度调整 -20,-10,10,20 4
对比度调整 -20,-10,10,20 4
JPEG 压缩 QF ∈ (30 ∼ 100) 8
水印嵌入 QF ∈ (10 ∼ 100) 10
总数 91
对每组图片提取相应的哈希向量，并使用相关系数来计算每组图像之间的感
知距离。图 3-13 展示了不同的内容保持操作下的平均相关系数值。其中 x 轴表示
具体内容保持操作的参数值，y 轴是每个参数下的平均感知距离。从图像中可以
看出，本章提出的感知哈希算法算法在图像的对比度调整、亮度变化和旋转等操
作上，内容相似的图像感知哈希的相似性都是大于 0.92。在图像的加噪和旋转过
程中，虽然整体性能要比其他内容保持操作差，但是还是可以很明显区分视觉上
相同图片和不同图片。可见本章提出的算法对内容保持操作的鲁棒性良好。
40
图 3-13 不同的内容保持操作下的感知哈希的鲁棒性
Fig.3-13 Robustness of perceptual hashing under different content-preserving operations
为了更好的展示本节所提方案的总体性能，使用统计方式对图像内容保持操
作后的数据集进行统计，其中包含：最小值、最大值、均值、方差。这些参数可
以定量的展示算法的性能。从表 3-5 中可知，本章提出的感知哈希提取算法在上
述提及的内容保持操作下，相关性最大都为 1 ，均值都大于 0.98 ，方差都小于
0.1。根据上一节中区分性实验可知，当阈值 T=0.85 时，算法对内容相似的图像
识别准确率可以达到 99.87% ，当阈值 T=0.9 时，本节提出的方案误判率仅为
0.02%，当阈值设置为 T=0.92 时，内容相似的图像识别准确率为 99.99%。因此本
节所提出的方案在区分性和鲁棒性实验中都具有良好的性质。
41
表 3-5 不同图像处理操作下哈希距离的统计值
Table.3-5 Statistics of hash distance under different image processing operations
操作 Min Max Mean 方差

高斯噪声 0.5248 0.9989 0.9725 0.0435
椒盐噪声 0.4097 0.9998 0.9507 0.0807
斑点噪声 0.6653 0.9998 0.9896 0.0204
运动模糊 0.8841 1.0000 0.9928 0.0096
旋转 0.6123 0.9996 0.9814 0.0306
伽马校正 0.8517 0.9997 0.9932 0.0132
水印嵌入 0.9015 1.0000 0.9977 0.0062
缩放 0.8066 1.0000 0.9916 0.0144
亮度调整 0.8779 0.9999 0.9952 0.0088
对比度调整 0.8781 1.0000 0.9965 0.0070
JPEG 压缩 0.7859 1.0000 0.9934 0.0131
3.3.3.4 算法性能比较
图 3-14 不同算法的 ROC 曲线图

Fig.3-14 ROC curves for different algorithms
为了更好的证明本章提出基于显著图的图像哈希算法更优于现有的一些哈希
42
算法。选择以下 4 个目前优秀的哈希方案：基于 NMF 的哈希算法[57]，基于环形

切割方案[21,32]。基于拉普拉斯的图像哈希算法。绘制相应的 ROC 曲线图，实验
结果如图 3-14 所示，本节提出的方案在性能上大于现有的三个较为优秀的方案。
3.3.3.5 算法时间比较
时间成本也是图像感知哈希算法的一个重要指标。选择上述三种方案进行时
间成本计算。从 MSRA 数据集中随机选择 200 个不同的图像，各个算法分别生成
哈希向量，并计算每个算法的平均生成时间，结果见表 3-6。由于 SIFT 计算需要
耗费大量的时间，因此从表中可知，本节提出的方案比基于 NMF-NMF-SQ ，
Ring-NMF，Lap-Hash 和 Ring-IVD 哈希较慢，但都小于 1 秒。
表 3-6 本节算法与其他图像哈希算法的时间成本比较。
Table.3-6 Time cost comparison between the proposed algorithm and other image hashing
algorithms.
[32]
算法名称本节算法 Ring-IVD[21] NMF-NMF-SQ[28] Ring-NMF Lap-Hash[59]
时间(秒) 0.9169 0.4492 0.0527 0.0430 0.0095
综上所述，本节提出的算法相比于现有的一些优秀的感知哈希算法在综合性
能上要更加优异。
3.3.3.6 图像篡改敏感性
当一个图片在视觉上的主要目标发生改变，应当认为图像已经被篡改。诸如
包括：目标数目的增加，删减和替换等。一个好的图像感知哈希算法应该对图像
的篡改操作敏感。在本章中选择以下三张图片，并分别进行增加，删减和替换目
标。并计算与原始图像的相似距离，如图 3-15 所示，上述三种情况下的图像篡改
操作，相关系数均小于 0.92。可见本章提出的算法在图像篡改检测方面，可以很
清晰的检测图像是否被篡改。
43
图 3-15 篡改后的图像距离计算
Fig.3-15 Tampered image distance calculation
3.4 本章小结
本章提出了两种基于显著图的图像感知哈希方案——基于改进后的 AMC 模
型和 NMF 相结合的图像感知哈希方案和基于改进后的 AMC 模型和 SIFT 相结合
的图像感知哈希方案。在基于改进后的 AMC 模型和 NMF 相结合的图像感知哈希
方案中，通过提取显著性区域外接矩形框中的数据，从而构建一个宽度值固定的
二次图像。对二次图像与原始图像进行 NMF 矩阵分解操作，提取两个 NMF 操作
后获得的系数矩阵，将其作为哈希向量的一部分。对两次得到的哈希向量进行串
联。实验结果表明，算法的鲁棒性和区分性表现良好，并且与其他感知哈希提取
算法进行对比也优于对比实验。在基于改进后的 AMC 模型和 SIFT 相结合的图像
感知哈希方案中，提取图像的显著性区域中的特征点，并对特征点进行进一步的
筛选。实验结果表明，算法的鲁棒性和区分性表现良好，并且与其他感知哈希提
取算法进行对比也优于对比实验。该方案也有一些不足之处。SIFT 本身计算速度
较慢，因此对于构建哈希向量时速度相比于现有的一些哈希算法不具有优势。对
于这个缺点，本章中对 SIFT 使用 C 语言编写，并在 Matlab 中调用程序，在时间
上已经有了一个较大的进步。
44
第 4 章基于显著图的 DIBR 3D 图像感知哈希算法
第 4 章基于感兴趣区域的 DIBR 3D 图像感知哈希算

法
4.1 引言
现有的图像哈希算法大多数是针对 2D 图像进行处理，并没有考虑到 3D 图像
上。在本章中，主要是讨论对 DIBR 3D 图像的哈希算法。DIBR 3D 图像包含中间
图像、左眼虚拟图像和右眼虚拟图像。如图 4-1 展示了中间图像的关系，以及
DIBR 操作生成的虚拟图像。
图 4-1: 左眼虚拟图像、右眼虚拟图像和中间图像之间的像素关系
Fig.4-1: The relationship of pixel in the left image, center image, and right image.
假设 P 是空间中的一个点， Cc ， Cl 和 Cr 代表中心视点、左视点和右视点，f
分别表示中心视点的焦距，Z 代表深度， xc ， xl 和 xr 代表中间图像中像素的 x 坐
标，虚拟左图像和虚拟右图像。 t x 代表基线距离，其值等于距离在左右视点之
间。作为几何关系如图 4-1 所示，虚拟图像中像素的 x 坐标计算为：

tx f
xl = xc + ,
2 Z (4-1)
t f
xr = xc − x ,
2 Z
Z near − Z far
Z (v) = Z far + v × , v ∈ [0, 255] (4-2)
255
45
实际上，深度图像中像素的灰度值并不是真正的深度值。将灰度值接近 255
的像素表示 P 接近于剪裁平面。另一方面，灰度值接近 0 的像素表示 P 接近远剪
裁平面。根据公式(4-2)计算 P 的深度值，其中 v 代表灰度值。
4.2 图像哈希算法描述
本章提出的 DIBR 3D 图像哈希方案如图 4-2 所示的算法框图所示。首先对原
始图像进行高斯低通滤波操作；其次获取图像显著性区域中的所有像素，对获取
到的像素与原始图像所有像素构建灰度直方图，并随机选取灰度直方图中 M 个灰
度级。对所选择的 M 个灰度级进行像素分组操作。将每个分组作为一列，从而构
建一个二次图像；对二次图像采用非负矩阵分解操作获得系数矩阵；最终的哈希
值由这些系数矩阵进行构造。
图 4-2 本章所提方案哈希算法框图
Fig.4-2 Block diagram of the hashing algorithm for the scheme proposed in this chapter
（1）预处理
采用第 3 章中的图像预处理方案对所有图像进行预处理。主要包含图像尺寸
固定和高斯低通滤波。
（2）像素分组
首先使用改进后的 AMC 模型提取图像的显著性区域，获取显著性区域的外
接矩形中所有数据，将提取到的像素值数据与原图整体数据组合构建一个新的灰
度直方图。从该直方图中随机选择 M 个灰度级（本章中 M=240）来进行构建最后
的哈希向量。使用密钥 Key 对 M 个灰度级进行置乱处理以调整各个灰度级之间的
相邻关系，将置乱后的 M 个灰度级进行分组处理，将每个分组中的像素作为二次
图像 V 的一列。在本文中分成 40 个灰度级分组。
（3）哈希构造
46
直方图在几何失真的情况下，形状基本保持不变，对 DIBR 操作也是只有轻

微的改变，因此，提取出来的二次图像 V 也是具有这个性质。对二次图像进行
NMF 操作获得基数矩阵 W 和系数矩阵 H。本章中选择系数矩阵 H 构建哈希值。
则最终的哈希向量的长度 L = n * r 。其中 n 是像素组的组数，r 是 NMF 中的秩。
在本章中 n=40，r=2。
在本章中，评价两个哈希向量之间的距离使用相关系数来表示。在对 DIBR
3D 图像计算感知距离时，将中间图像作为原始图像，中间图像、中间图像进行内
容保持操作后的图像、虚拟图像和虚拟图像进行内容保持操作后的图像作为接收
图像，计算两者之间的距离，从而来判断这两者是否是同一幅图像。
（4）直方图的近似不变性
在对 2D 图像进行哈希值的设计时，首先需要考虑哈希值对几何攻击的鲁棒
性，尤其是图像的旋转操作。根据文献可知，直方图的形状对旋转、剪切和其他
内容保持操作具有鲁棒性。因此，在设计一个 DIBR 3D 图像哈希时，虚拟图像的
鲁棒性也是一个重要指标。
虚拟图像的直方图与原始图像直方图的区别是影响最终哈希向量产生的关键
所在。在文献[60]中，作者提出从原始图像中裁剪掉一部分，则原始图像与变化后
的图像之间的直方图形状是不一样。更加严格来说，直方图形状的变化取决于裁
剪区域位置。因此，裁剪后的图像的直方图不变性是一种近似不变性。同样，对
于 DIBR 3D 图像而言，虚拟图像是通过中间图像和深度图像计算而成，直方图的
鲁棒性取决于中间图像、基线距离和选择的灰度级。因此，虚拟图像的直方图不
变性也是一种近似不变性。
[52]
数据集采用 Microsoft Research 3D Video Datasets 中的 4 张图片。固定像素
分组为 40 组时，分别计算中间图像和左右眼虚拟图像像素分组后各个组内灰度
级数量。实验结果如图 4-3 所示，左右眼虚拟图像每组像素数量与中间图像进行
对比区别不是很大。通过进一步使用 NMF 处理，获得最终的虚拟图像与中间
图像的哈希值。表 4-1 展示中间图像与虚拟图像的感知距离的统计值，这些统计
值显示本章提出的算法在 DIBR 3D 图像上对虚拟图像以及中间图像的鲁棒性。
47
表 4-1 中间图像与虚拟图像的感知距离统计值
Table.4-1: Statistics of perceptual distance between the center image and the virtual image.
最大值最小值均值标准差

左眼虚拟图像 0.9983 0.9664 0.9753 0.0016
右眼虚拟图像 0.9972 0.9571 0.9762 0.0025
图 4-3 中心图像和虚拟图像的不同组别中的像素数量。
Fig.4-3The number of pixels in different groups of center image and virtual images.
4.3 实验结果与分析
[52]
选择 MSRA 和 Microsoft Research 3D Video Datasets 数据集作为实验数据
集，其中包含中间图像和深度图像，图像大小范围从 450*375 到 1390*1110。
4.3.1 区分性分析
从 MSRA 数据集中随机选择 100 张图片用于区分性测试。两两图像构成一组

图像对，则构成 100*（100-1）/2 = 4950 幅图像对。通过计算两两图像之间哈希
值的相似性。最后实验结果可知两者之间的最大相似性为 0.9773 ，最小值为 -
0.3201。阈值 T 设置为 0.93 时，0.34%的图像对被是为视觉上相同的图像。当阈
48
值 T 设置为 0.95 时，大约 0.07%的图像对被误判。
4.3.2 鲁棒性分析
从上述深度图数据集中选择四张图片，分别是： Breakdancers 、 Books 、

Dolls 和 ballet。根据这四张图像信息和其深度图各自构建左右眼虚拟图像。对上
述构建的数据集进行如表 4-2 所示的操作。实验结果如图 4-4 所示。
表 4-2：图像进行何种内容保持操作以及参数强度
Table.4-2: Image for content retention and parameter strength
高斯噪声方差 ∈ (0.0005 ∼ 0.005) 10
椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10
斑点噪声方差 ∈ (0.001 ∼ 0.01) 10
Motion 模糊 len = 1, 2,3 θ = 0 , 45 ,90 9
伽马校正 0.75, 1.1, 1.25 3
旋转 θ ∈ (−90,90) 16
缩放 factor ∈ (0.5 ∼ 2.0) 6
JPEG 压缩 QF ∈ (30 ∼ 100) 8
总数 72
图 4-4：4 幅图像的鲁棒性
Fig.4-5: Robustness test based on four test images.
49
4.3.3 算法性能比较
为了更好的证明本章提出基于 DIBR 3D 图像上的哈希算法更优于传统的 2D

图像哈希算法。选择以下三个 2D 图像上的哈希方案：基于 NMF 的哈希算法[57]，
基于环形切割方案[21,32]。对上述三种对比方案参数值采用原文中作者建议的参数
值，以求达到公平对待。
对 DIBR 3D 而言，图像数据中包含中间图像和虚拟图像，因此需要重新构建
一个数据集。以中间图像为原始图像数据集，中间图像和虚拟图像经过内容保持
操作后的图像作为接收图像数据集。本章阈值设定为 0.95，对比算法使用各自原
文给定的阈值，比较各个算法在这两个数据集上的识别准确率均值，实验结果如
表 4-3 所示。从这三个表格中可见，本章提出的算法在对中心视点变换的 DIBR
3D 图像方面的准确率优于对比算法。
表 4-3 不同方法对中间图像和虚拟图像的识别准确率
Table.4-3 Identification accuracy performances for center and virtual image by different methods.
操作本章算法文献[32] 文献[21] 文献[57]

高斯噪声 97.74% 78.95% 77.02% 86.61%
椒盐噪声 97.65% 81.47% 78.80% 88.59%
斑点噪声 97.72% 80.08% 78.51% 89.61%
高斯模糊 97.72% 81.21% 76.68% 91.82%
运动模糊 96.23% 79.83% 78.61% 92.51%
旋转 96.73% 70.35% 66.65% 33.35%
缩放 98.98% 79.37% 80.82% 91.91%
JPEG 压缩 98.93% 80.25% 78.81% 89.90%
本章实验结果表明，传统的哈希算法对 2D 图像具有良好的性质，但由于其
未考虑图像中心视点的变化，因此在 DIBR 3D 图像上性能较差。尤其是对于文献
[21,32]
提出的基于中心视点的环形分割算法更是会造成哈希算法性能的下降。
4.3.4 图像篡改敏感性
50
选择 6 幅图像分别对各自的中间图像和左右眼虚拟图像进行篡改操作。篡改
操作包含：目标的删减、目标的增加和目标的替换三种。，如图 4-5 所示，展示其
中一种篡改操作，并计算篡改后的显著图。
图 4-5 图像篡改后展示
Fig.4-5 Display after image tampering
计算篡改后的图像与原始中间图像的哈希向量之间的相关性来判断图像是否
被篡改。实验结果如表 4-4 所示。
表 4-4 原始图像和篡改后图像的相关系数
Table.4-4 Correlation coefficients of the original and tampered images
图片标号 1 2 3 4 5 6
中间图像 0.5258 0.6580 0.7712 0.5257 0.6988 0.8224
左眼虚拟图像 0.3661 0.5046 0.5660 0.5984 0.6773 0.7386
右眼虚拟图像 0.3892 0.4045 0.6235 0.4469 0.6370 0.8571
从表 4-4 中可知，1-6 号图像与原始中间图像哈希向量的相似性均小于 0.92，

可以本章提出的算法可以很好的识别图像是否被篡改。
4.4 本章小结
在本章中，我们提出了一种基于图像显著图和像素分组相结合的 DIBR 3D 图
像感知哈希方案，该方案可用于虚拟图像识别，检索和认证等。低通滤波和基于
直方图形状的像素分组是关键步骤。直方图形状对剪裁的近似不变性和 DIBR 操
51
作的不变性确保我们的 DIBR 3D 图像哈希方案在虚拟图像识别方面也有更好的表

现。实验结果表明，所提出的 DIBR 3D 图像哈希方案能够抵御常见的内容保持操
作，包括信号失真攻击和几何失真攻击。同时应该看到，当两幅不一样的原始图
像灰度直方图和显著区域灰度直方图都相同时，则本章提出的方案可能会进行误
判。
52
第 5 章总结与展望
第 5 章总结与展望
5.1 总结
本文完成的工作如下：
1、针对图像显著图对图像的旋转操作并不鲁棒，在基于吸收马尔科夫链的
显著图提取基础上，对其在吸收节点的确定阶段进行更改，从而在算法总体性能
未发生明显的变化下基本达到对图像旋转操作的鲁棒。
2、提出一种基于改进后的 AMC 显著图和 NMF 相结合的感知哈希方案。该
方案并没有固定每一幅图像中显著区域的数量，对所有的显著区域外接矩形中的
像素数据进行排序处理，再使用 NMF 获得系数矩阵。实验结果表明，基于改进
后的显著图和 NMF 相结合的感知哈希方案在感知哈希的区分性和鲁棒性方面相
比于现有的一些代表性算法具有更好的性能。
3、提出一种基于改进后的 AMC 显著图和 SIFT 相结合的感知哈希方案。该
方案针对现有的基于 SIFT 检测方案，都是将整幅图像中的特征点进行构建哈希
值。算法提出只提取显著区域中的特征点，并将特征点描述子与密钥做内积从而
获得最后的哈希向量。该方案在感知哈希区分性和鲁棒性方面相比于现有的算法
具有更加优良的性质。
4、针对现有的 2D 图像感知哈希算法方案大多数没有考虑到中心视点的变
化，因此在 DIBR 3D 图像上感知哈希算法表现的都是比较差。通过第二章的实验
验证，中心视点的变化并不会引起图像的显著性区域发生明显的改变。因此，提
出一种基于改进后的 AMC 显著图和像素分组相结合的图像感知哈希方案。实验
结果表明，文中提出的方案在 DIBR 3D 图像上具有良好的鲁棒性与区分性，并且
具有一定的篡改检测能力。
5.2 展望
本文提出的基于感兴趣区域的图像感知哈希研究虽然取得了一些成果，但是
53
也具有一定的局限性。比如在过度依赖显著图提取算法的性能。未来基于显著图
的研究方向个人觉得有以下几点。
1、进一步提高显著图在旋转等内容保持操作下的鲁棒性。
2、进一步对显著图算法进行改进，以达到其对复杂背景情形下显著区域定
位的准确性。
3、使用别的特征点与显著图结合，探究更优秀的感知哈希算法。
54
致谢
致谢
行文至此，求学生涯也暂时告一段落。本科四年，研究生三年，都是在黑龙
江大学度过。黑龙江大学还是很漂亮，有机会要常来逛逛，看看这里的花花草
草。
在硕士生涯中，我有幸遇到了恩师崔晨老师。在过去的三年里，我的导师在
他百忙之中依旧孜孜不倦的指导我，领我进入科研的大门。在为人处世方面，不
停的教导我，让我受益匪浅。老师的宽容和开放让学生看到了学者的风度和气
度，也让学生了解了与人打交道的道理。老师的言行举止深刻的影响了我，让我
逐渐的形成一个成熟的人生观。
感谢黑龙江大学数据科学与技术学院的各位老师在我求学期间的帮助与指
导。
感谢贾尧师弟，在学习和生活中可以互相讨论。同门之间的讨论，也时常是
我灵感与思路的来源。
感谢我的室友们和朋友们，他们在我求学生活中给与了一抹不一样的颜色。
让我的生活多姿多彩。同时还有我大兄弟吴宇晗，有事没事聊聊天，挺有意思。
感谢我的父母，感谢他们的养育之恩。感谢他们在我求学期间无私的支持
我。感谢我的姐姐，每次有烦心事，总是和她聊聊天。她也时常开导我，分享一
下我那两个外甥（禹诚和嘉诚）的有趣视频。
55
参考文献
[1] Tang Z, Wang S, Zhang X, et al.Lexicographical framework for image hashing with
implementation based on DCT and NMF[J].Multimedia Tools and
Applications,2010, 52 (2-3): 325-345.
[2] Tang Z, Yang F, Huang L, et al.Robust image hashing with dominant DCT
coefficients[J].Optik,2014, 125 (18): 5102-5107.
[3] Tang Z, Lao H, Zhang X, et al.Robust image hashing via DCT and
LLE[J].Computers & Security,2016, 62: 133-148.
[4] Jie Z J a P A.A novel block-DCT and PCA based image perceptual hashing
algorithm[J],2013.
[5] Hu Y, Niu X. DWT based robust image hashing algorithm[C].INC2010: 6th
International Conference on Networked Computing,2010: 1-4.
[6] Karsh R K, Laskar R H J E J O I, Processing V.Robust image hashing through
DWT-SVD and spectral residual method[J],2017, 2017 (1): 1-17.
[7] Vadlamudi L N, Vaddella R P V, Devara V.Robust image hashing using SIFT feature
points and DWT approximation coefficients[J].ICT Express,2018, 4 (3): 154-159.
[8] Swaminathan A, Mao Y, Wu M J I T O I F, et al.Robust and secure image
hashing[J],2006, 1 (2): 215-230.
[9] Ouyang J, Coatrieux G, Shu H J D S P.Robust hashing for image authentication
using quaternion discrete Fourier transform and log-polar transform[J],2015, 41:
98-109.
[10] Ahmed F, Siyal M Y, Abbas V U J S P.A secure and robust hash-based scheme for
image authentication[J],2010, 90 (5): 1456-1470.
[11] Tang Z, Zhang H, Pun C M, et al.Robust image hashing with visual attention
model and invariant moments[J],2020, 14 (5): 901-908.
[12] Tang Z, Huang Z, Yao H, et al.Perceptual image hashing with weighted DWT
features for reduced-reference image quality assessment[J],2018, 61 (11): 1695-
1709.
[13] Tang Z, Zhang X, Dai Y, et al.Perceptual image hashing using local entropies and
DWT[J],2013, 61 (2): 241-251.
[14] Xiang S, Kim H-J, Huang J. Histogram-based image hashing scheme robust
against geometric deformations[C].Proceedings of the 9th workshop on
Multimedia & security,2007: 121-128.
[15] Choi Y S, Park J H.Image hash generation method using hierarchical
histogram[J].Multimedia Tools and Applications,2011, 61 (1): 181-194.
[16] Tang Z, Dai Y, Zhang X, et al. Perceptual image hashing with histogram of color
vector angles[C].International Conference on Active Media Technology,2012: 237-
246.
[17] Vadlamudi L N, Vaddella R P V, Devara V.Robust hash generation technique for
content-based image authentication using histogram[J].Multimedia Tools and
Applications,2015, 75 (11): 6585-6604.
56
参考文献
[18] Gharde N D, Thounaojam D M, Soni B, et al.Robust perceptual image hashing

using fuzzy color histogram[J].Multimedia Tools and Applications,2018, 77 (23):
30815-30840.
[19] Zong T, Xiang Y, Natgunanathan I, et al.Robust histogram shape-based method for
image watermarking[J].IEEE Transactions on Circuits and Systems for Video
Technology,2014, 25 (5): 717-729.
[20] Tang Z, Dai Y, Zhang X.Perceptual hashing for color images using invariant
moments[J].Appl. Math,2012, 6 (2S): 643S-650S.
[21] Tang Z, Zhang X, Li X, et al.Robust Image Hashing With Ring Partition and
Invariant Vector Distance[J].IEEE Transactions on Information Forensics and
Security,2016, 11 (1): 200-214.
[22] Monga V, Evans B L.Perceptual image hashing via feature points: performance
evaluation and tradeoffs[J].IEEE Trans Image Process,2006, 15 (11): 3452-65.
[23] Lv X, Wang Z J J I T O I F.Perceptual Image Hashing Based on Shape Contexts
and Local Feature Points[J].IEEE Transactions on Information Forensics and
Security,2012, 7(3): 1081-1093.
[24] Ouyang J, Liu Y, Shu H.Robust hashing for image authentication using SIFT
feature and quaternion Zernike moments[J].Multimedia Tools and
Applications,2016, 76 (2): 2609-2626.
[25] Zhao X, Li Z, Yi J.SIFT Feature-Based Second-Order Image Hash Retrieval
Approach[J].Journal of Software,2018, 13 (1): 103-116.
[26] 崔晨. 基于深度图绘制 3D 图像的认证技术研究[D]. 哈尔滨工业大学,2016.
[27] Zheng S, Wang L, Ling B, et al. Coverless information hiding based on robust
image hashing[C].International conference on intelligent computing,2017: 536-547.
[28] Kozat S S, Venkatesan R, Mihçak M K. Robust perceptual image hashing via
matrix invariants[C].2004 International Conference on Image Processing, 2004.
ICIP'04.,2004: 3443-3446.
[29] Ghouti L. Robust perceptual color image hashing using quaternion singular value
decomposition[C].2014 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP),2014: 3794-3798.
[30] Khelifi F, Jiang J J I S P L.Analysis of the security of perceptual image hashing
based on non-negative matrix factorization[J].IEEE Signal Processing Letters,2009,
17 (1): 43-46.
[31] Tang Z, Chen L, Zhang X, et al.Robust Image Hashing with Tensor
Decomposition[J].IEEE Transactions on Knowledge and Data Engineering,2019,
31 (3): 549-560.
[32] Tang Z, Zhang X, Zhang S.Robust Perceptual Image Hashing Based on Ring
Partition and NMF[J].IEEE Computer Society,2014: 711-723.
[33] Karsh R K, Laskar R, Richhariya B B J S.Robust image hashing using ring
partition-PGNMF and local features[J],2016, 5 (1): 1-20.
[34] Karsh R K, Saikia A, Laskar R H J M T, et al.Image authentication based on robust
image hashing with geometric correction[J],2018, 77 (19): 25409-25429.
[35] Qin C, Chen X, Dong J, et al.Perceptual image hashing with selective sampling for
salient structure features[J].Displays,2016, 45: 26-37.
[36] Xue M, Yuan C, Liu Z, et al.SSL: A Novel Image Hashing Technique Using SIFT
57
Keypoints with Saliency Detection and LBP Feature Extraction against

Combinatorial Manipulations[J].Security and Communication Networks,2019,
2019: 1-18.
[37] 牛夏牧, 电子学报焦 J.感知哈希综述[J],2008, 36 (7): 1405.
[38] 刘兆庆. 图像感知哈希若干关键技术研究 [D][D]. 哈尔滨工业大学,2013.
[39] Fawcett T J P R L.An introduction to ROC analysis[J],2006, 27 (8): 861-874.
[40] Itti L, Koch C, Niebur E J I T O P A, et al.A model of saliency-based visual
attention for rapid scene analysis[J],1998, 20 (11): 1254-1259.
[41] Jiang H, Wang J, Yuan Z, et al. Salient object detection: A discriminative regional
feature integration approach[C].Proceedings of the IEEE conference on computer
vision and pattern recognition,2013: 2083-2090.
[42] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region
detection[C].2009 IEEE conference on computer vision and pattern
recognition,2009: 1597-1604.
[43] Cheng M-M, Mitra N J, Huang X, et al.Global contrast based salient region
detection[J],2014, 37 (3): 569-582.
[44] Cheng M M, Mitra N J, Huang X, et al.Global Contrast Based Salient Region
Detection[J].IEEE Trans Pattern Anal Mach Intell,2015, 37 (3): 569-82.
[45] Guo C, Zhang L.A novel multiresolution spatiotemporal saliency detection model
and its applications in image and video compression[J].IEEE Trans Image
Process,2010, 19 (1): 185-98.
[46] Gao D, Mahadevan V, Vasconcelos N J J O V.On the plausibility of the
discriminant center-surround hypothesis for visual saliency[J],2008, 8 (7): 13-13.
[47] Seo H J, Milanfar P J I T O P A, Intelligence M.Training-free, generic object
detection using locally adaptive regression kernels[J],2009, 32 (9): 1688-1704.
[48] Seo H J, Milanfar P J J O V.Static and space-time visual saliency detection by self-
resemblance[J].Journal of vision,2009, 9 (12): 15-15.
[49] Jiang B, Zhang L, Lu H, et al. Saliency Detection via Absorbing Markov
Chain[C].2013 IEEE International Conference on Computer Vision,2013: 1665-
1672.
[50] Achanta R, Shaji A, Smith K, et al.SLIC superpixels compared to state-of-the-art
superpixel methods[J],2012, 34 (11): 2274-2282.
[51] Petitcolas F a J I S P M.Watermarking schemes evaluation[J],2000, 17 (5): 58-64.
[52] Wang Z, Bovik A C, Sheikh H R, et al.Image quality assessment: from error
visibility to structural similarity[J],2004, 13 (4): 600-612.
[53] Qin C, Chen X, Luo X, et al.Perceptual image hashing via dual-cross pattern
encoding and salient structure detection[J].Information Sciences,2018, 423: 284-
302.
[54] Yan Z, Shuozhong W, Xinpeng Z, et al.Robust Hashing for Image Authentication
Using Zernike Moments and Local Features[J].IEEE Transactions on Information
Forensics and Security,2013, 8 (1): 55-63.
[55] Lee D D, Seung H S J N.Learning the parts of objects by non-negative matrix
factorization[J],1999, 401 (6755): 788-791.
[56] Xiang S, Kim H J, Huang J J I T O C, et al.Invariant image watermarking based on
statistical features in the low-frequency domain[J],2008, 18 (6): 777-790.
58
参考文献
[57] Monga V, Mihçak M K J I T I F S.Robust and Secure Image Hashing via Non-
Negative Matrix Factorizations[J],2007, 2 (3-1): 376-390.
[58] Lowe D G J I J O C V.Distinctive image features from scale-invariant
keypoints[J],2004, 60 (2): 91-110.
[59] Hamid H, Ahmed F, Ahmad J.Robust Image Hashing Scheme using Laplacian
Pyramids[J].Computers & Electrical Engineering,2020, 84.
[60] Zong T, Xiang Y, Natgunanathan I, et al.Robust histogram shape-based method for
image watermarking[J],2014, 25 (5): 717-729.
59
攻读硕士期间取得的成果
（一）发表学术论文
[1] Xujun Wu, Chen Cui, Shen Wang. Perceptual hashing based on salient region and
NMF[C]. International Conference on Intelligent Information Hiding and
Multimedia Signal Processing,2021,2021.
[2] Cui C, Wu X, Yang J, et al. A novel DIBR 3D image hashing scheme based on pixel
grouping and NMF[J]. Wireless Communications and Mobile Computing, 2020,
2020.
[3] Robust Image Hash for Tamper Detection Based on Region of Interest. (已投稿)
[4] A novel DIBR 3D image hashing scheme based on pixel grouping and Region of
Interest. (已投稿)
（二）参与科研项目
[1] 李菊雁等. 多云共享系统中格基门限代理重加密方案研究。开放基金（重点
项目）。课题编号:GCIS201904。
60

基于感兴趣区域的图像感知哈希技术研究 伍旭军

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于感兴趣区域的图像感知哈希技术研究 伍旭军

Uploaded by

Copyright:

Available Formats

分 类号

（3）提出一种基于改进后的 AMC 模型和特征点相结合的图像感知哈希算

robustness to rotation operations.

Keywords: image security; perceptual hashing; Region Of interest; NMF; Saliency

1.1 研究背景及意义 .................................................................................................... 1

2.3 AMC 显著图算法的改进 .................................................................................... 19

第 3 章 基于感兴趣区域的 2D 图像感知哈希算法 .................................................... 24

第 4 章 基于感兴趣区域的 DIBR 3D 图像感知哈希算法 ......................................... 44

（NMF）和 QR 分解等。Kozat 等人[28]使用基于 SVD 的方式来构建图像哈希序

在 2013 年，Tang 等人[32]提出一种基于图像中心环形划分的图像哈希方案，

为 H ( I1 ) 。接收图像为 I 2 ，生成的哈希向量为 H ( I 2 ) 。则用 Dis ( H ( I1 ), H ( I 2 )) 表示

I1′ = Ocp(I1 ) ，则：

I1tamp = Otamp ( I1 ) ，则：

P ( FPR ) = n1 / N1 , P (TPR ) = n2 / N 2 (1-4)

量， N 2 是所有图片都不相同的数据集中总的图像数量。在 ROC 曲线中，越接近

第 3 章中提出一种基于改进后的 AMC 显著图与 NMF 相结合的图像感知哈希

2.2.1 基于 ITTI 视觉显著性检测

图 2-2 ITTI 模型框图

最后构建方向金字塔，包含 0°，45° ,90° 和 135°，四个角度方向。在九个尺度

根据上述公式，可以得到上述四个角度和 3 个颜色和亮度共计 42 张图片。为

在 2010 年，Hou 等人[45]根据有效编码理论提出光谱残差计算模型（Spectral

其中 Γ( I ) 表示图像 I 的傅里叶变换， R() 表示获取实数部分。

其中 ℑ() 表示获取虚部，g(x)表示高斯滤波器， Γ −1 表示傅里叶逆变换。

在显著图提取算法中，基于吸收马尔科夫链的显著图（ Abosorbing Markov

（2）建立一个节点数量为 n = k + m 的无向图 G (U , E ) ，其中，U 是超像素块

应的吸收矩阵： P = D −1 × A 。其中 D 是对应的出度矩阵。

此可以获得一个基本矩阵 N = ( I − Q) −1 ， nij 表示是从转移节点 i 到转移节点 j 的预

图 2-4 ITTI，SR 和 AMC 模型生成的显著图

并选择对应中所有图片进行显著区域准确性实验，结果如图 2-3 所示。图中明显

图 2-3 三种模型的 Precision-Recall 曲线图

对所有图片进行内容保持操作，总共产生 32*100 = 3200 张图片。在所有的内容

章选择 MSRA 数据集中的 100 张图片，计算每个模型产生单幅显著图的时间均

模型名称 ITTI SR AMC

从表格 2-1 中可以看出， SR 模型计算速度最快， ITTI 模型计算最慢，而

2.3 AMC 显著图算法的改进

知哈希评价中常用的工具 Strimark[51]对该 4 个区域使用像素 0 进行填充。图像旋

图 2-8 改进后的 AMC 模型与其他三种模型对比

（1）对 2D 图像的鲁棒性分析:如图 2-9 所示，观察改进后的 AMC 模型对图

图 2-9 改进后的 AMC 模型的显著区域变化

AMC 模型 改进后 AMC 模型

从表 2-2 中可知，改进后的 AMC 模型在对旋转操作有一个较大的进步，同

图 2-10 DIBR 3D 图像显著性区域鲁棒性

模型名称 AMC 改进后的 AMC

从表 2-3 中，可以看到在时间消耗上，原始的 AMC 模型耗费时间为 0.1495

3.2 基于感兴趣区域和 NMF 相结合的图像感知哈希算法

建一幅二次图像。最后使用 NMF 获取二次图像和原始图像中的系数矩阵 H，并

在 1999 年，Lee 和 Seung 在自然杂志上提出了一种矩阵分解方式——非负矩

min V − V ′2 = (Vij − Vij′ )

其中其中 α 和 μ 是指矩阵的第 α 行第 μ 列元素，当 (W T WH ) = 0 时，对应位

对于图像来说，可以将灰色图像近似认为是一个值为０到 255 ，大小为

img ( x, y ) 。因此， img ( x, y ) ≈ W * H 。在本章节中，我们选择系数矩阵 H 作为提

在本章中，将改进后的 AMC 模型与 NMF 相结合，以此构建一个感知哈希向

图 3-1 基于 AMC 与 NMF 哈希算法框图

的图像使用 NMF 量化，并提取对应的系数矩阵 Hash2 。使用公式(3-6)获取最终的

希向量为 hash2 ，则两者之间的相关性系数定义如公式(3-7)所示：

cov ( hash1 , hash2 )

其中 cov ( hash1 , hash2 ) 是 h1 和 h2 的协方差， Var [ hash1 ]Var [ hash2 ] 是 hash1 和

hash2 的方差。当两个哈希值的相似性距离大于预先设定的阈值 时，则认为为同

在本章实验中，选择 MSRA 数据库作为图像来源，该数据集中包含建筑、人

图 3-3 MSRA 数据集中部分数据

Photoshop 对图像的亮度和对比度进行调整，用 Matlab 对图像进行加噪，模糊和

椒盐噪声 方差 ∈ (0.001 ∼ 0.01) 10

斑点噪声 方差 ∈ (0.001 ∼ 0.01) 10

基于感兴趣区域的图像感知哈希技术研究伍旭军

基于感兴趣区域的图像感知哈希技术研究伍旭军

分类号

第 3 章基于感兴趣区域的 2D 图像感知哈希算法 .................................................... 24

第 4 章基于感兴趣区域的 DIBR 3D 图像感知哈希算法 ......................................... 44

AMC 模型改进后 AMC 模型

hash2 的方差。当两个哈希值的相似性距离大于预先设定的阈值时，则认为为同

椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10

斑点噪声方差 ∈ (0.001 ∼ 0.01) 10

高斯模糊高斯核：3*3 σ ∈ (0.5 ∼ 5) 10

高斯噪声方差 ∈ (0.0005 ∼ 0.005) 10

椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10

斑点噪声方差 ∈ (0.001 ∼ 0.01) 10

第 4 章基于感兴趣区域的 DIBR 3D 图像感知哈希算

最大值最小值均值标准差

椒盐噪声方差 ∈ (0.001 ∼ 0.01) 10

斑点噪声方差 ∈ (0.001 ∼ 0.01) 10

伽马校正 0.75, 1.1, 1.25 3

操作本章算法文献[32] 文献[21] 文献[57]