细粒度图像分类综述申志军

Journal of Computer Applications ISSN 1001⁃9081 2023⁃ 01⁃ 10
计算机应用, 2023, 43( 1) : 51 - 60 CODEN JYIIDU http：/ / www. joca. cn
文章编号：1001-9081（2023）01-0051-10 DOI：10. 11772/j. issn. 1001-9081. 2021122090
细粒度图像分类综述
申志军 1，2*，穆丽娜 2，高静 2，史远航 2，刘志强 2
（1. 阜阳师范大学计算机与信息工程学院，安徽阜阳 236037； 2. 内蒙古农业大学计算机与信息工程学院，呼和浩特 010011）
（ ∗ 通信作者电子邮箱 shensljx@sina. com）
摘要：细粒度图像具有类内方差大、类间方差小的特点，致使细粒度图像分类（FGIC）的难度远高于传统的图像
分类任务。介绍了 FGIC 的应用场景、任务难点、算法发展历程和相关的常用数据集，主要概述相关算法：基于局部检
测的分类方法通常采用连接、求和及池化等操作，模型训练较为复杂，在实际应用中存在较多局限；基于线性特征的
分类方法模仿人类视觉的两个神经通路分别进行识别和定位，分类效果相对较优；基于注意力机制的分类方法模拟
人类观察外界事物的机制，先扫描全景，后锁定重点关注区域并形成注意力焦点，分类效果有进一步的提高。最后针
对目前研究的不足，展望 FGIC 下一步的研究方向。
关键词：细粒度图像分类；深度学习；卷积神经网络；注意力机制；计算机视觉
中图分类号：TP391. 41；TP181 文献标志码：A
Review of fine-grained image categorization

SHEN Zhijun1，2*，MU Lina2，GAO Jing2，SHI Yuanhang2，LIU Zhiqiang2
（1. School of Computer and Information Engineering， Fuyang Normal University， Fuyang Anhui 236037， China；
2. College of Computer and Information Engineering， Inner Mongolia Agricultural University， Hohhot Inner Mongolia 010011， China）
Abstract: The fine-grained image has characteristics of large intra-class variance and small inter-class variance，which
makes Fine-Grained Image Categorization （FGIC） much more difficult than traditional image classification tasks. The
application scenarios，task difficulties，algorithm development history and related common datasets of FGIC were described，
and an overview of related algorithms was mainly presented. Classification methods based on local detection usually use
operations of connection，summation and pooling，and the model training was complex and had many limitations in practical
applications. Classification methods based on linear features simulated two neural pathways of human vision for recognition
and localization respectively，and the classification effect is relatively better. Classification methods based on attention
mechanism simulated the mechanism of human observation of external things，scanning the panorama first，and then locking
the key attention area and forming the attention focus， and the classification effect was further improved. For the
shortcomings of the current research，the next research directions of FGIC were proposed.
Key words: Fine-Grained Image Categorization (FGIC); deep learning; Convolutional Neural Network (CNN); attention
mechanism; computer vision
0 引言测［2］、社交娱乐网站中个人相册的自标注管理、电子商务中
购物平台商品识别推荐系统中的商品检索［3］以及在交通信
细粒度图像分类（Fine⁃Grained Image Categorization，
息中的车型识别［4］等。
FGIC）在学术研究和应用实践中都较为活跃。常见的学术
研究课题主要包括识别不同种类的鸟、狗、车、飞机、花、鱼图像分类任务可分为跨物种语义级分类、细粒度图像分
等。以清华狗数据集［1］为例，如图 1 所示：图（a）中所有的狗类和实例级图像分类。跨物种语义级图像分类［5-6］是在类别

都属于大丹犬，但毛色不同；图（b）是诺里奇更犬，毛色极其层次上对图像进行分类，存在类间方差大、类内方差小的特
相似。实践中细粒度分类的实例更为普遍，如病虫害检点，常用于场景识别［7-9］和对象识别［10］等任务。
收稿日期：2021⁃12⁃14；修回日期：2022⁃02⁃12；录用日期：2022⁃02⁃14。
基金项目：阜阳师范大学科学研究项目（2021KYQD0028）；内蒙古自治区科技攻关项目（2021GG0090）；内蒙古农业大学博士科研启动基金
资助项目（BJ2013B⁃1）；内蒙纪检监察大数据实验室开放课题（IMDBD2020015）。
作者简介：申志军（1976—），男，河南信阳人，教授，博士，主要研究方向：智能计算、数据挖掘；穆丽娜（1996—），女，山西大同人，硕士研究
生，主要研究方向：计算机视觉、图像识别；高静（1970—），女，内蒙古呼和浩特人，教授，博士生导师，博士，主要研究方向：大数据智能与知识
发现、动植物表型与组学大数据分析、农牧业智能系统；史远航（1997—），男，河南新乡人，硕士研究生，主要研究方向：人工智能；
刘志强（1996—），男，江西抚州人，硕士研究生，主要研究方向：人工智能。
52 计算机应用第 43 卷
建局部区域特征表示，进行基于分割的目标对象定位：
1）基于局部检测的分类算法的基本流程为：先检测与定
位局部区域，然后提取代表性的特征，从而提高细粒度分类
的精度。此类两段式算法主要采用若干阶段交替或级联的
结构，这样的结构导致训练过程复杂。此外，算法利用标注
信息［32-33］滤除背景噪声，减少干扰，但获取标注信息的代价
过大，制约了算法的实用性。
图1 清华狗数据集 2）针对训练过程复杂的问题，研究人员提出了一系列双
Fig. 1 Tsinghua dogs dataset 线性特征学习算法［34-35］避免使用额外的标注信息，同时可以
［11-12］
实例级图像分类是在个体层次上对图像进行分类，直接学习更具辨别性的特征，如仅依靠图像标签完成分类任
［13-14］
其要求更加严格，如人脸识别等。影响实例级图像分类务［36］。虽然该类算法能够简化训练过程，但会产生特征维
效果的关键因素是图像预处理算法和个体比对算法，其中图度过高的问题。使用聚合低纬特征或设计损失函数的方法
像预处理算法主要解决复杂光线环境和有限遮挡等问题。可有效缓解特征维度过高的问题。
细粒度图像分类是对同一类别图像进行更细致的子类划分， 3）图像领域中，注意力机制主要依靠掩码操作实现，即
也称子类别图像分类，例如判断图像中的狗是哈士奇还是阿使用新的权重标识图像的关键区域，训练的深度学习模型用
拉斯加。于学习输入的新图像中所需关注的区域。因此，基于注意力
［15-17］
与传统的分类问题不同，细粒度图像具有类内方差机制的分类算法［37-42］能够自主学习和理解图像中的潜在信
大、类间方差小的特点：类内方差大通常表现为同一子类的息。不仅如此，单个卷积神经网络（Convolutional Neural
物体外观显著不同，造成这种现象的主要影响因素有光照、 Network，CNN）模型很难描述从属类之间的差异，对于细粒
视角、杂波背景和物体遮挡等；类间方差小通常表现为不同度分类存在一定的困难，研究人员尝试联合对象级卷积网络
子类的物体具有相似的外观。不仅如此，细粒度图像分类还和部件级卷积网络进行多尺度的特征学习，并设置约束条件
存在类别细分所引起的分类混淆问题，以及图像背景信息冗筛选具有代表性的特征。
余对分类结果产生干扰的问题。这一特点使得细粒度图像
分类的难度远高于传统的图像分类任务。
1 细粒度图像分类数据集
以深度学习方法为分水岭，细粒度图像分类算法发展历在细粒度图像分类中，数据集的质量对模型分类效果的
程大致可分为传统的基于人工特征的分类方法和基于深度影响非常明显。细粒度图像分类适用的数据集主要有 8 种，
［43］
学习的分类方法。分别是：加州理工学院的鸟类数据集（CUB200⁃2011）、斯
基于人工特征的分类方法［18-20］主要基于人工特征实现，坦福狗数据集（Stanford Dogs）［44］、斯坦福汽车数据集
应用较多的人工特征如尺度不变特征变换（Scale-Invariant （Stanford Cars）［45］、FGVC 飞机数据集（FGVC⁃Aircraft）［46］、牛
Feature Transform，SIFT）［21］
、加速稳健特征（Speeded Up 津大学的花类数据集（Oxford Flowers）［47］、水下鱼类数据集
Robust Feature，SURF）
［22］
、方向梯度直方图（Histogram of （Fish4Knowledge）［48］、野外鱼类数据集（WildFish）［49］和清华
Oriented Gradient，HOG）
［23］
、局部二值模式（Local Binary 狗数据集（Tsinghua Dogs）。其中，CUB200⁃2011 是细粒度图
Pattern，LBP）
［24］
、POOF（Part-based One-vs-One Features）［25］、像分类最经典和常用的数据集，具体信息如下：
Fisher⁃encoder
［26］
等，特征描述能力越强，分类准确率越高。 1）CUB200⁃2011 数据集共有 11 788 张图像，包含 200 种
但通常最优特征与所识别物种有密切关系，如鸟类的最佳特鸟类，其中 5 994 张用于训练，5 794 张用于测试。相关标注
征是头部和身体，而狗类的最佳特征是鼻子和耳朵，显然人信息包含 15 个局部区域位置、312 个二值属性、1 个标注框和
工特征的表达能力有限，不具有足够的可判别性，固有特征语义分割图像。具体见 http：//www. vision. caltech. edu/
无法解决所有的分类问题，因此此类方法仅适用于小样本规 visipedia/ CUB⁃200⁃2011. html。
模问题和具有领域专业知识的用户。早期的研究工作表明， 2）Stanford Dogs 数据集共有 20 580 张图像，包含 120 种狗
强大的特征表示对分类准确度有显著的影响［27-31］
，但严重依类，其中 12 000 张用于训练，8 580 张用于测试，该数据集仅
赖人工标注信息的缺陷使其实践可行性较低。据此，构建更提供标注框注释信息。具体见 http：//vision. stanford. edu/
具判别性的特征表示和更准确的局部定位是提高细粒度分 aditya86/ ImageNetDogs/main. html。
类准确率的有效途径。 3）Stanford Cars 数据集共有 16 185 张图像，包含 196 类
基于深度学习的分类方法又可进一步分为基于局部检车，其中 8 144 张用于训练，8 041 张用于测试，只提供标注框
测的分类方法、基于端到端的分类方法和基于注意力机制的信息。该数据集中的图像源于不同品牌、不同年份和不同车
分类方法三个发展阶段。这三个阶段分类方法的创新思路型。具体见 http：//ai. stanford. edu/~jkrause/cars/car_dataset.
有四个方向，如通过强大的深度模型学习更多有判别性的表 html。
示、采用姿态对齐操作消除姿态偏差和拍摄角度等影响、构 4）FGVC⁃Aircraft 数据集共有 10 200 张图像，包含 100 类
第1期申志军等：细粒度图像分类综述 53
飞机，每类有 100 张图像，其中 6 667 张用于训练，3 333 张用 Poselet 将图像划分为多个局部区域，利用 CNN 提取各个局
于测试，该数据集同样仅提供标注框信息。具体见 https：// 部区域的卷积特征，将局部区域卷积特征进行拼接形成描述
www. robots. ox. ac. uk/~vgg/data/fgvc⁃ aircraft。整张图像的卷积特征，最后输入到线性 SVM 中分类。
5）Oxford Flowers 数据集有两种规模，最为常用的规模有这类方法表明可通过准确提取特定对象之间细微的外
8 189 张图像，包含 102 种花类，每种花包含 40 到 258 张图像，观差异进行局部区域定位，以此提高细粒度图像的分类精确
其中 6 149 张用于训练，1 020 张用于测试。该数据集只提供度；但在测试时都需要利用边界框进行局部区域定位和关键
语义分割图像，但不提供额外标注信息。具体见 https：// 点检测，且均需使用类似 HOG 的弱特征模型。
tensorflow. google. cn/datasets/catalog/oxford_flowers102？ hl= Girshick 等［58］提出 R⁃CNN（Regions with CNN features，
zh⁃cn。 R⁃CNN）算法将图像检测分为局部检测和对象检测，并使用
6）Fish4Knowledge 数据集共 22 370 张图像，包含 23 种鱼几何约束来提升定位精度。该方法采用自底向上的区域算
类，每类含有 16~12 000 张不同的图像，其中 19 159 张用于训法产生大量候选区域，对候选区域逐一进行特征提取，同时
练，8 211 张用于测试。具体见 https：//groups. inf. ed. ac. uk/ 使用预训练的 SVM 模型寻找包含目标对象的候选区域，最
f4k/ GROUNDTRUTH/RECOG/。终使用非极大抑制策略筛选定位检测结果。然而，R⁃CNN 的
7）WildFish 数据集共 54 459 张图像，包含 1 000 种鱼类，结果并不能反映每个局部区域的好坏，类似检测结果发生重
其中 38 121 张用于训练，16 338 张用于测试。具体见 https：// 叠的候选区域、局部区域检测结果不在对象检测结果内等情
www. heywhale. com/mw/dataset/5e68b523cdf64e002c97a478。况都会不同程度地影响最终的分类性能。
8）Tsinghua Dogs 数据集共 70 428 张图像，包含 130 种狗针对 R⁃CNN 的检测结果问题，Zhang 等［59］提出 Part
类，每类含有 200 到 7 449 张图像，提供头部和身体两个部位 R⁃CNN 算法，该算法检测流程与 R⁃CNN 基本相同，不同之处
的标注框信息。其中 65% 的图像属于生活场景类图片。具在于 Part R⁃CNN 使用几何约束和边界约束对检测结果进行
体见 https：//cg. cs. tsinghua. edu. cn/ThuDogs/。
优化，在 CUB200⁃2011 数据集上的分类准确率为 73. 89%，几
2 基于局部检测的分类方法何约束能将分类精度提高约 1%。相对于 DeCAF 算法，Part
R⁃CNN 算法在局部检测定位和特征提取两方面均采用基于
CNN 表现出优异的分类性能，研究人员开始尝试将通用
CNN 的方法，并且针对细粒度图像的特征对 R⁃CNN 算法做
分类任务中所学的知识迁移到细粒度图像分类领域。
了改进和优化。此外，该算法测试时不需要任何标记信息，
Donahue 等［50］提出一种半监督的迁移学习深度架构，其
提高了算法的实用性。但 R⁃CNN 和 Part R⁃CNN 所采用的自
核心是一种深度卷积特征 DeCAF（Deep Convolutional
底向上的方法会产生很多无关区域，一定程度上会降低算法
Activation Feature，DeCAF），该方法首先利用标注框提取前
速度。
景对象，利用预训练卷积网络提取前景对象的 DeCAF 特征，
Branson 等［60］提出了姿态归一化卷积神经网络（Pose
再在此基础上通过多类别逻辑回归模型进行分类。DeCAF
Normalized CNN，PN⁃CNN），该方法包含姿态原型的学习、姿
在 Caltech⁃UCSD 数据集上取得了 58. 75% 的准确率，表明卷
态对齐和分类三个步骤，如图 2 所示。其中，姿态原型的学
积特征拥有强大的泛化和领域自适应能力。DeCAF 开启了
习可通过预训练 DPM 算法获得目标对象的 2D 位置和局部
利用卷积特征进行细粒度图像分类的新时代。
区域关键点，也可直接使用标注框和局部区域注释信息。在
对局部目标对象进行定位和描述是细粒度图像分类的
此基础上将学习得到的姿态原型进行姿态对齐，然后将各个
关键，为此业界首先针对这一问题开展了研究工作，Farrell
区域的卷积特征连接成一个整体并用 SVM 进行分类。
等［51］提出用于细粒度分类的姿态归一化表示法，该方法通
过定位包含语义特征的局部区域和提取这些区域的外观特
征来消除姿态、清晰度和摄像机视角变化带来的问题，不足
之处在于局部区域定位需要人工获得目标的体积特征［52-53］。
为减少人工干预，Felzenszwalb 等［54］提出利用可变部件模型
（Deformable Part Model，DPM）以获取整个对象的方法。
DPM 在猫狗等动物检测领域比较有效，但对于姿态特征变
化较大的检测目标（如鸟、人）而言效果较差［55］。为此，Zhang
等［56］提出可变部件描述子，该方法由基于 HOG 的 DPM 和支图2 姿态归一化卷积神经网络结构
持向量机（Support Vector Machine，SVM）构成，其中基于 Fig. 2 Structure of pose normalized CNN
HOG 的 DPM 用于局部区域定位，SVM 用于分类。由于深度卷积特征具有更强的区分度，使用深层卷积特

此外，部分研究人员尝试将 CNN 融合到细粒度分类算征表示浅层图像能够实现更高的准确度；同时，针对不同的
法以提高特征所包含的信息量，Zhang 等［57］
提出一种结合局部区域提取不同深度的特征更有利于对细粒度图像的
CNN 和局部区域的分类算法，该方法使用基于 HOG 的分类。
Lin 等［61］提出包含深度定位、对齐和分类三个子网络的基于全卷积网络（Fully Convolutional Network，FCN）

［62］
，
细粒度图像分类模型（Deep localization， alignment and Wei 等［63］提出了 Mask CNN 模型，该模型仅包含卷积层、激活
classification，Deep LAC）。定位子网络包含 5 个卷积层、3 个层和池化层，使模型的参数量、特征维数较少，模型规模较
全连接层，全连接层用于调整定位边框的对角信息；对齐子小，如图 3 所示。其中 FCN 用于定位关键局部区域（目标对
网络接收边框信息进行模板对齐操作，其阀门连接函数象的部件）和生成带权重的候选区域的掩码，通过局部区域
（Valve Linkage Function，VLF）用于优化两个子网络之间的定位分割得到边界框，建立 Mask CNN 分支用于聚合目标对
连接，协调定位结果和分类结果，有助于更新定位子网络的象的卷积特征。FCN 将局部区域定位转化为三分类分割问
参数，使模型易于收敛。题，分割结果为局部区域掩码。
图3 Mask CNN 结构
Fig. 3 Structure of Mask CNN
深度学习可以通过层级连接对输入进行复杂的非线性 Pooling，CBP），该方法通过随机麦克劳林（Random
运算，提取到更丰富、更深层次的图像特征信息，其中 CNN MacLaurin）
［66］［67］
和张量草图（TensorSketch）两种多项式核函
所具有的局部感知、权值共享等特点可有效降低计算量［64］。数逼近二阶统计量，以较小的性能损失有效降低了双线性特
综上所述，以上方法在早期工作［51-53］
的基础上将卷积特征维度。Kong 等［68］提出了一种低秩双线性池化模型 LRBP
征引入细粒度图像分类模型，在分类精度和泛化能力上取得（Low⁃Rank Bilinear Pooling，LRBP），该方法用双线性分类器
了一定的进展，但这类方法大多采用交替或级联结构，模型代替了双线性特征，减少了需要学习的参数，提高了计算效
训练较为复杂；同时对目标对象标注框和局部区域标注点等率。Li 等［69］提出一种基于矩阵低秩分解的因式分解双线性

网络（Factorized Bilinear Network，FBN），该方法通过分解全
额外注释信息的依赖限制了它们在实际场景中的应用；此
连接层的卷积核，减少了模型的参数量。
外，这些方法还存在对显著区域关注过多、对其他微小分类
线索丢失过多等问题。
3 基于双线性特征的分类方法
对于图像的不同特征，前期常用的方法是连接、求和及
池化等操作，但是人类视觉处理主要有两个神经通路，分别
用于物体识别和物体定位。因此，Lin 等［34］提出双线性卷积
神经网络（Bilinear Convolutional Neural Network，B⁃CNN）模
型，结构如图 4 所示，由两个不同的 CNN 协同完成细粒度图
像的类别检测和特征提取，通过双线性操作和特征归一化处
图4 B⁃CNN 结构
理得到最终的双线性特征作为分类依据。该方法在 Fig. 4 Structure of B⁃CNN
CUB200⁃2011 数据集上取得了 84. 1% 的准确率。
B⁃CNN 不能捕获特征图通道之间的非线性关系，无法充
双线性操作通过外积相乘的运算实现不同特征的融合，分利用通道之间所蕴含的信息，使卷积网络的表达能力得不
运算得到的双线性特征向量是一种高维的二次扩展特征，虽到充分利用，针对这一问题，葛疏雨等［70］提出一种核化双线
然能够提高分类准确率，但同时也使它无法应用于大规模真性卷积网络模型（Kernelized Bilinear Convolutional Neural
实场景。此外，CNN 用相同的卷积核尺度进行特征提取，导 Network，KB⁃CNN），该方法由卷积层、核化双线性聚合块、
致卷积特征单一化，不利于细粒度分类中局部微小区域的信 softmax 分类器三部分组成。其中，核化双线性聚合块对卷
息捕获，特征提取能力稍显不足。积层输出的特征进行归一化，并对特征图进行双线性聚合以
针对 B⁃CNN 模型参数过多、计算量和存储开销过大等问建模特征图通道间的非线性关系，提高了模型的表达能力。
题，Gao 等提出紧凑双线性池化方法（Compact Bilinear
［65］
B⁃CNN 模型聚合两个双线性特征会产生一个包含两个
特征之间相互作用的协方差矩阵，但 B⁃CNN 模型产生的两锁定需要重点关注的局部区域，最终形成注意力焦点。在细

个特征相同时，其结果是一个对称的半正定矩阵，这将会影粒度分类任务中，应用注意力机制可检测到均匀分布的多个
响模型训练。为此，Lin 等［71］
分析了两个特征相同的情况，提局部区域，其对应的特征可用于区分不同类别的目标对象。
出一种改进的双线性网络模型（Improved B⁃CNN），如图 5 所 Itti 等率先提出视觉注意力模型，该模型可将多尺度的
示。该方法在二阶特征的对角线添加一个小的正值得到一图像特征组合成单一的显著性图，并利用动态神经网络
个新的矩阵，在此基础上压缩矩阵特征值的动态范围和归一（Dynamical Neural Network，DNN）
［76］
按序选择重点关注区
化，使模型性能提升 2%~3%。域。Mnih 等首次在循环神经网络上应用注意力机制进行图
像分类［77］，该模型能够以自适应方式选择一系列区域，将这
些区域处理成为高分辨率图像，然后提取图像特征信息。该
模型在一定程度上具有平移不变性，同时可对其计算量进行
控制以减少计算开销。
图5 Improved B⁃CNN 结构特征提取效果对细粒度分类效果影响较大，但现有方法
Fig. 5 Structure of Improved B⁃CNN 存在标签依赖、检测准确率偏低等问题。
鉴于双线性模型的成功，Cui 等［72］
提出一种更通用的核为检测对分类结果更有利的可判别区域，Xiao 等提出一
池化方法（Kernel Pooling，KP），该方法以核函数的形式捕捉种包含对象级（object⁃level）和局部级（part⁃level）两个层次特
特征之间的高阶信息。图像输入到全卷积层中，输出特征映征的两级注意力模型（Two⁃level Attention Model，T⁃L
射，对每个空间位置上的特征向量进行核池化，对所有位置 Attention）
［37］
，该模型包含两个子网络 FilterNet 和 DomainNet。
的特征使用平均池化获得最终的特征，以此进行分类。该模型整合了生成候选区域、选择与目标对象相关区域和定
为进一步提升模型性能，Moghimi 等［73］提出一种增强深位可判别区域三种注意力机制进行训练，提取图像的前景对
度卷积网络 BoostCNN（Boosting Deep Convolutional Neural 象和特征明显的局部区域，首次实现仅使用类别标签完成细
Network，BoostCNN），该方法利用 boosting 算法集成多个不同粒度图像分类任务。
尺度的双线性卷积网络提升模型性能，该模型能够在每次迭 Liu 等［38］提出一种基于强化学习的全卷积注意力定位网
代中找到最佳网络，且在训练时不需要额外的注释，有效降络（Fully Convolutional Attention Localization Networks，
低了人工操作开销。其不足之处在于最小二乘法学习 FCANs），其结构主要包含特征提取、全卷积局部区域注意力
boosting 权重使模型训练显著变慢。网络、细粒度分类三部分。其中，全卷积注意力网络首先定
为解决分类过程中存在无关背景的干扰以及个别可判位图像的多个局部区域，并利用卷积特征对每个局部区域生
别特征难以提取的问题，闫子旭等［74］
提出一种将目标检测成分数映射（Score Map）。采用全卷积网络架构可以避免全
模型 YOLOv3 和双线性融合网络相结合的优化算法，该方法连接层带来的超大计算量，但局部区域的高分辨率处理会导
使用 YOLOv3 检测和定位目标对象在图像上的大致位置，通致在多步前向和后向传播过程中很耗时。
过背景抑制方法遮挡目标以外的背景，避免背景无关信息的 Zheng 等［78］提出一种多注意力卷积神经网络
干扰，将处理后的图像输入到包含特征融合功能的 BCNN 中（Multi⁃Attention Convolutional Neural Network，MA⁃CNN）。
进行分类。该方法将网络不同卷积层的优势进行互补，在一 MA⁃CNN 由卷积、通道分组和局部分类三部分组成，输入图
定程度上解决了 BCNN 对图像中的目标位置不敏感和卷积像经卷积层提取基于区域的卷积特征，利用特征图的峰值响
特征包含的信息不充分等问题，提高了细粒度分类的准应区域特征聚类响应区域相近的通道，得到具有判别力的局
确率。部区域，同时利用通道分组损失函数增大类间区分度，减小
同样，为充分利用不同卷积层的优势，Yu 等［75］提出一种类内区分度。
跨层的双线性池化（Cross⁃Layer Bilinear Pooling，CL⁃BP）方法 Chang 等［79］提出一种轻量级互通道损失模块
来捕获卷积层之间的特征关系，并以一种相互增强的方式学（Mutual⁃Channel loss，MC⁃Loss），不需要复杂的网络设计或
习图像特征表示。同时，在此基础上提出一种分层双线性池训练机制，即可获得具有可判别性的细节信息。该模块由判
化集成（Hierarchical Bilinear Pooling，HBP）框架，该框架通过别性组件和差异性组件构成，有助于从图像中不同显著区域
对多个跨层双线性模块进行集成，从中间卷积层获取互补信捕获细节信息。
息，提高模型性能。 Fu 等［39］提出循环注意力卷积神经网络 RA⁃CNN
基于双线性池化的模型在细粒度分类任务中的有效性（Recurrent Attention Convolutional Neural Network，RA⁃CNN），
已被证实，但大多数方法只将最后一个卷积层的激活作为图如图 6 所示。该网络在多个尺度上学习可判别区域注意力
像的表示，这种方法不足以描述对象的全部语义。（Discriminative Region Attention）和局部区域特征表示
（Region⁃based Feature Representation）。每个尺度都包含分
4 基于注意力机制的分类方法类子网络和注意力生成子网络（Attention Proposal
注意力机制的本质与人类观察外界事物的机制相似，人 Sub⁃network，APN）。APN 以迭代的方式从完整的图像开始
类观察事物时通常会迅速扫描全景，然后根据大脑信号快速产生由粗粒度到细粒度的注意力区域，前一个网络的输出结
果作为后一个网络的输入。该方法能够使网络逐步定位到结构和神经网络进行融合，同时加入注意力机制，最终的分
可判别区域以产生更高置信度的预测结果。在类效果较优。在 CUB⁃200⁃2011、Stanford cars 和 FGVC-
CUB200⁃2011，Stanford Dogs 和 Stanford Cars 三个数据集上分 Aircraft 数据集上取得 88. 1%、94. 6%、92. 4% 的准确率。
别取得 85. 3%、87. 3%、92. 5% 的准确率。此外，Sun 等［83］提出一种基于注意力机制的卷积神经网
络能够在输入的不同图像之间调节多个目标区域。该方案
首先通过压缩多扩展模块（One⁃Squeeze Multi⁃Excitation，
OSME）提取每个输入图像的多注意力特征区域，然后使用多
注意力多类别约束模块（Multi⁃Attention Multi⁃class
Constraint，MAMC）加强注意力特征的相关性。
图6 循环注意力卷积神经网络结构
Fig. 6 Structure of RA⁃CNN
借鉴人类通过对比两张图像获得有效的比对线索进而
识别图像的思想，Zhuang 等［80］提出了一种简单而有效的注
图7 渐进式共同注意力网络结构
意力成对交互网络（ Attentive Pairwise Interaction Network，
Fig. 7 Structure of PCA⁃Net
API⁃Net），核心模块是注意力成对交互模块 API，包含互向量
学习（Mutual Vector Learning）、门向量生成（Gate Vector 5 总结和展望
Generation）和成对交互（Pairwise Interaction）三个子模块。在
随着深度学习的发展、迁移学习的引入、注意力机制的
互向量学习模块中，一对图像经骨干网络获得各自的卷积特
出现，细粒度图像分类任务取得很大的进展。现有研究表
征，通过多层感知机将两张图像中的可判别信息提取成为一
明，使用卷积特征替代早期人工设计特征描述子，节省了时
个互向量，互向量的特征通道中包含两张图像的高度对比线
间的同时提高了准确率；但基于局部检测交替或级联的模型
索，以辅助捕捉输入图像中的语义差别。在此基础上，门向
结构注定其训练过程复杂，对注释信息的依赖也限制了它在
量生成模块将互向量和各图像的卷积特征进行通道积
实际场景中的应用，还存在过分关注显著区域和丢失微小分
（channel⁃wise）和 sigmoid 激活，产生两个图像之间注意力显
类线索等问题。基于双线性特征的方法存在高维特征导致
著不同区域的门向量，最后通过 residual attention 引入观察两
模型参数过多、计算量大等问题，后续方法的改进思路是降
张图像之间不同之处的交互机制。
维特征、减少模型参数量等。借鉴人类观察事物时注意力分
此外，Zhang 等提出一种渐进式共同注意力网络
布的方式，将注意力机制引入细粒度分类模型可以更好地寻
（Progressive Co⁃Attention network，PCA⁃Net）
［81］
，PCA⁃Net 包含
找细微的差异。
两个核心模块：共同注意力模块（Co⁃Attention Module，CA）和
本文对未来研究方向作出以下梳理：
注意力消除模块（ Attention Erase Module，AE），如图 7 所示。
CA 模块通过对同类图像卷积特征中特征通道的交互来捕获 1）构建更高质量更完善的细粒度数据集。近年，由于深
共同的可判别特征，形成交互特征图。AE 模块通过全局平度学习的发展和算力的提高，各种分类任务利用深度学习获
均池化、上采样和阈值设定获得和原始图像尺寸一致的 0⁃1 得了前所未有的进展，一个高质量的数据集往往能够提高模
擦除掩码（Drop Mask），经原图像和擦除掩码进行逐元素乘型训练的质量和预测的准确率。如何构建更高质量更全面

积运算消除通道交互增强的突出区域，迫使网络将注意力集的数据集仍是需要研究的问题。此外，使用图像增强方法丰
中在其他判别区域，使模型学习的区域多样化，同时减少对富训练数据集，让模型尽可能地学习更多的特征，以增强其
训练样本的依赖，降低过拟合，提高模型的鲁棒性。该方法泛化能力，也是后续需要研究的内容。
可将注意力分散到每个区域，从而使预测更加全面。 2）在更自然的环境中进行细粒度分类。科研的目的是
Ji 等提出一种结合注意力卷积的二叉神经树模型更好地实践，之前的研究多数无法满足现实的需求。所以，
（Attention Convolutional Binary Neural Tree Architecture，后续研究中仍需考虑自然场景中图像光照、遮挡、其他物体
ACNet）。该模型将注意力卷积网络加在二叉树的边缘，
［82］
干扰等情况下的图像分类，新颖的模型应该具有自适应性，
用于获取目标对象的特征表示，不同分支的注意力卷积专注且能够更好地泛化，能够探索异构图像之间的关联，结合目
于不同的局部区域。每个节点间的路由函数用于计算树结标检测进一步挖掘图像特征。
构中根到叶子节点的路径，以此作为决策依据。完整的树结 3）与其他领域进行结合。细粒度图像分类是一个综合
构表示由粗到细的层次特征学习过程。该网络将传统数据性研究课题，将细粒度图像分类与图像检索、图像生成、对象
检测等领域结合还有待进一步探索。 [12] JARRETT K，KAVUKCUOGLU K，RANZATO M，et al. What is

4）支持大规模数据的细粒度分类。Transformer 模型［84］ the best multi⁃stage architecture for object recognition？［C］//
Proceedings of the IEEE 12th International Conference on
在一系列广泛的语言任务表现出色，如文本分类、机器翻
Computer Vision. Piscataway：IEEE，2009：2146-2153.
译［85］和问答。已有研究表明，Transformer 在计算机视觉领域
[13] WRIGHT J， YANG A Y， GANESH A， et al. Robust face
不仅适用于高级任务如图像分类［86］、目标检测［87-88］等，在低 recognition via sparse representation［J］. IEEE Transactions on
级任务如图像增强中也取得了突破性进展，因此， Pattern Analysis and Machine Intelligence， 2009， 31 （2）：
Transformer 和细粒度图像分类任务的结合也是值得关注的 210-227.
方向之一。 [14] 李晓莉，达飞鹏 . 基于排除算法的快速三维人脸识别方法［J］.
自动化学报，2010，36（1）：153-158.（LI X L，DA F P. A rapid
参考文献（References）
method for 3D face recognition based on rejection algorithm［J］.
[1] ZOU D N，ZHANG S H，MU T J，et al. A new dataset of dog breed
Acta Automatica Sinica，2010，36（1）：153-158. ）
images and a benchmark for fine⁃grained classification ［J］.
[15] DENG J，DONG W，SOCHER R，et al. ImageNet：a large⁃scale
Computational Visual Media，2020，6（4）：477-487.
hierarchical image database［C］// Proceedings of the 2009 IEEE
[2] 王美华，吴振鑫，周祖光 . 基于注意力改进 CBAM 的农作物病虫
害细粒度识别研究［J］. 农业机械学报，2021，52（4）：239-247. Conference on Computer Vision and Pattern Recognition.
（WANG M H，WU Z X，ZHOU Z G. Fine⁃grained identification Piscataway：IEEE，2009：248-255.
research of crop pests and diseases based on improved CBAM via [16] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet
attention［J］. Transactions of the Chinese Society for Agricultural classification with deep convolutional neural networks ［C］//
Machinery，2021，52（4）：239- 247. ） Proceedings of the 25th International Conference on Neural
[3] 陈前，刘骊，付晓东，等 . 部件检测和语义网络的细粒度鞋类图 Information Processing Systems - Volume 1. Red Hook， NY：
像检索［J］. 中国图象图形学报，2020，25（8）：1578-1590. Curran Associates Inc. ，2012：1097-1105.
（CHEN Q， LIU L， FU X D， et al. Fine⁃grained shoe image [17] SIMONYAN K， ZISSERMAN A. Very deep convolutional
retrieval by part detection and semantic network［J］. Journal of networks for large⁃scale image recognition［EB/OL］. （2015-04-
Image and Graphics，2020，25（8）：1578-1590. ） 10）［2021-11-11］. https：//arxiv. org/pdf/1409. 1556. pdf.
[4] 陈立潮，朝昕，曹建芳，等 . 融合独立组件的 ResNet 在细粒度车 [18] BO L F， REN X F， FOX D. Kernel descriptors for visual
型识别中的应用［J］. 计算机工程与应用，2021，57（11）：248- recognition［C］// Proceedings of the 23rd International Conference
253. （CHEN L C， CHAO X， CAO J F， et al. Application of on Neural Information Processing Systems. Red Hook， NY：
ResNet with independent components in fine⁃grained vehicle Curran Associates Inc. ，2010：244-252.
recognition［J］. Computer Engineering and Applications，2021，57 [19] LOWE D G. Distinctive image features from scale⁃invariant key
（11）：248-253. ） points［J］. International Journal of Computer Vision，2004，60
[5] BOSCH A，ZISSERMAN A，MUNOZ X. Scene classification using （2）：91-110.
a hybrid generative/discriminative approach［J］. IEEE Transactions [20] YAN K， SUKYHANKAR R. PCA-SIFT： a more distinctive
on Pattern Analysis and Machine Intelligence， 2008， 30（4）： representation for local image descriptors［C］// Proceedings of the
712-727. 2004 IEEE Computer Society Conference on Computer Vision and
[6] WU J X，REHG J M. CENTRIST：a visual descriptor for scene Pattern Recognition. Washington，DC：IEEE Computer Society，
categorization［J］. IEEE Transactions on Pattern Analysis and 2004：506-513.
Machine Intelligence，2011，33（8）：1489-501. [21] LOWE D G. Object recognition from local scale⁃invariant features
[7] 薄康虎，李菲菲，陈虬 . 基于改进 CNN 特征的场景识别［J］. 计算［C］// Proceedings of the 7th IEEE International Conference on
机系统应用，2018，27（12）：25-32.（BO K H，LI F F，CHEN Q. Computer Vision， Volume 2. Piscataway： IEEE， 1999：1150-
Scene recognition algorithm using advanced CNN features［J］. 1157.
Computer Systems and Applications，2018，27（12）：25-32. ） [22] BAY H，TUYTELAARS T，GOOL L van. SURF：speeded up
[8] SEONG H，HYUN J，KIM E. FOSNet：an end⁃to⁃end trainable robust features［C］// Proceedings of the 2006 European Conference
deep neural network for scene recognition［J］. IEEE Access，2020， on Computer Vision， LNCS 3951. Berlin： Springer， 2006：
8：82066-82077. 404-417.
[9] CHEN L，BO K H，LEE F F，et al. Advanced feature fusion [23] DALAL N， TRIGGS B. Histograms of oriented gradients for
algorithm based on multiple convolutional neural network for scene human detection［C］// Proceedings of the 2005 IEEE Computer
recognition［J］. Computer Modeling in Engineering and Sciences， Society Conference on Computer Vision and Pattern Recognition，
2020，122（2）：505-523. Volume 1. Piscataway：IEEE，2005：886-893.
[10] 朱铭武，韩军，陆冬明，等 . 自然场景中基于局部轮廓特征的对 [24] OJALA T， PIETIKAINEN M， MÄENPÄÄ T. Multiresolution
象识别方法［J］. 计算机工程与应用，2016，52（1）：162-167. gray⁃scale and rotation invariant texture classification with local
（ZHU M W，HAN J，LU D M，et al. Object recognition method binary patterns［J］. IEEE Transactions on Pattern Analysis and
based on local contour feature in natural scene［J］. Computer Machine Intelligence，2002，24（7）：971-987.
Engineering and Applications，2016，52（1）：162-167. ） [25] BERG T， BELHUMEUR P N. POOF： part⁃based one⁃vs. ⁃one
[11] GEHLER P，NOWOZIN S. On feature combination for multiclass features for fine⁃grained categorization， face verification， and
object classification ［C］// Proceedings of the IEEE 12th attribute estimation ［C］// Proceedings of the 2013 IEEE
International Conference on Computer Vision. Piscataway：IEEE， Conference on Computer Vision and Pattern Recognition.
2009：221-228. Piscataway：IEEE，2013：955-962.
[26] PERRONNIN F， SÁNCHEZ J， MENSINK T. Improving the networks for fine⁃grained recognition ［EB/OL］. （2017-03-21）
Fisher kernel for large⁃scale image classification［C］// Proceedings ［2021-11-11］. https：//arxiv. org/pdf/1603. 06765. pdf.
of the 2010 European Conference on Computer Vision， LNCS [39] FU J L，ZHENG H L，MEI T. Look closer to see better：recurrent
6314. Berlin：Springer，2010：143-156. attention convolutional neural network for fine⁃grained image
[27] BRANSON S，HORN G van，WAH C，et al. The ignorant led by recognition［C］// Proceedings of the 2017 IEEE Conference on
the blind：a hybrid human⁃machine vision system for fine⁃grained Computer Vision and Pattern Recognition. Piscataway： IEEE，
categorization ［J］. International Journal of Computer Vision， 2017：4476-4484.
2014，108（1/2）：3-29. [40] 王林，李聪会 . 基于多级注意力跳跃连接网络的行人属性识别
[28] CHAI Y N， LEMPITSKY V， ZISSERMAN A. Symbiotic ［J］. 计算机工程，2021，47（2）：314-320.（WANG L，LI C H.
segmentation and part localization for fine⁃grained categorization Pedestrian attribute recognition based on multi⁃level attention skip
［C］// Proceedings of the 2013 IEEE International Conference on connection network［J］. Computer Engineering，2021，47（2）：
Computer Vision. Piscataway：IEEE，2013：321-328. 314-320. ）
[29] GAVVES E，FERNANDO B，SNOEK C G M，et al. Fine⁃grained [41] 李宽宽，刘立波 . 双线性聚合残差注意力的细粒度图像分类模
categorization by alignments［C］// Proceedings of the 2013 IEEE 型［J］. 计算机科学与探索，2022，16（4）：938-949.（LI K K，
International Conference on Computer Vision. Piscataway：IEEE， LIU L B. Fine⁃grained image classification model based on
2013：1713-1720. bilinear aggregate residual attention［J］. Journal of Frontiers of
[30] BRANSON S，WAH C，SCHROFF F，et al. Visual recognition Computer Science and Technology，2022，16（4）：938-949. ）
with humans in the loop［C］// Proceedings of the 2010 European [42] 陆鑫伟，余鹏飞，李海燕，等 . 基于注意力自身线性融合的弱监
Conference on Computer Vision，LNCS 6314. Berlin：Springer，督细粒度图像分类算法［J］. 计算机应用，2021，41（5）：1319-
2010：438-451. 1325. （LU X W，YU P F，LI H Y，et al. Weakly supervised
[31] WAH C，BRANSON S，PERONA P，et al. Multiclass recognition fine⁃grained image classification method based on
and part localization with humans in the loop［C］// Proceedings of attention⁃attention bilinear pooling ［J］. Journal of Computer
the 2011 IEEE International Conference on Computer Vision. Applications，2021，41（5）：1319-1325. ）
Piscataway：IEEE，2011：2524-2531. [43] WAH C，BRANSON S，WELINDER P，et al. The Caltech⁃UCSD
[32] WANG D Q，SHEN Z Q，SHAO J，et al. Multiple granularity Birds200⁃2011 dataset：CNS⁃TR⁃2011⁃001［R］. Pasadena，CA：
descriptors for fine⁃grained categorization［C］// Proceedings of the California Institute of Technology，2011.
2015 IEEE International Conference on Computer Vision. [44] KHOSLA A，JAYADEVAPRAKASH N，YAO B P，et al. Novel
Piscataway：IEEE，2015：2399-2406. dataset for fine⁃grained image categorization［C/OL］// Proceedings
[33] WANG Y M， CHOI J， MORARIU V I， et al. Mining of the 1st Workshop on Fine⁃Grained Visual Categorization at
discriminative triplets of patches for fine⁃grained classification CVPR 2011. ［2021-11-11］. https：//people. csail. mit. edu/khosla/
［C］// Proceedings of the 2016 IEEE Conference on Computer papers/fgvc2011. pdf.
Vision and Pattern Recognition. Piscataway：IEEE，2016：1163- [45] KRAUSE J，STARK M，DENG J，et al. 3D object representations
1172. for fine-grained categorization［C］// Proceedings of the 2013 IEEE
[34] LIN T Y，RoyCHOWDHURY A，MAJI S. Bilinear CNN models International Conference on Computer Vision Workshops.
for fine⁃grained visual recognition［C］// Proceedings of the 2015 Piscataway：IEEE，2013：554-561.
IEEE International Conference on Computer Vision. Piscataway： [46] MAJI S，RAHTU E，KANNALA J，et al. Fine⁃grained visual
IEEE，2015：1449-1457. classification of aircraft［EB/OL］. （2013-06-21）［2021-10-08］.
[35] 苏志明，王烈，蓝峥杰 . 基于多尺度分层双线性池化网络的细 https：//arxiv. org/pdf/1306. 5151. pdf.
粒度表情识别模型［J］. 计算机工程，2021，47（12）：299-307， [47] NILSBACK M E，ZISSERMAN A. Automated flower classification
315. （SU Z M，WANG L，LAN Z J. Fine⁃grained expression over a large number of classes［C］// Proceedings of the 6th Indian
recognition model based on multi⁃scale hierarchical bilinear Conference on Computer Vision，Graphics and Image Processing.
pooling network［J］. Computer Engineering，2021，47（12）：299- Piscataway：IEEE，2008：722-729.
307，315. ） [48] FISHER R B， CHEN⁃BURGER Y H， GIORDANO D， et al.
[36] ZHANG Y， WEI X S， WU J X， et al. Weakly supervised Fish4Knowledge： Collecting and Analyzing Massive Coral Reef
fine⁃grained categorization with part⁃based image representation Fish Video Data，ISRL 104［M］. Cham：Springer，2016.
［J］. IEEE Transactions on Image Processing， 2016， 25（4）： [49] ZHUANG P Q， WANG Y L， QIAO Y. WildFish： a large
1713-1725. benchmark for fish recognition in the wild［C］// Proceedings of
[37] XIAO T J， XU Y C， YANG K Y， et al. The application of 26th ACM Multimedia Conference. New York：ACM，2018：1301-
two⁃level attention models in deep convolutional neural network for 1309.
fine⁃grained image classification［C］// Proceedings of the 2015 [50] DONAHUE J，JIA Y Q，VINYALS O，et al. DeCAF：a deep
IEEE Conference on Computer Vision and Pattern Recognition. convolutional activation feature for generic visual recognition［C］//
Piscataway：IEEE，2015：842-850. Proceedings of the 31st International Conference on Machine
[38] LIU X，XIA T，WANG J，et al. Fully convolutional attention Learning. New York：JMLR. org，2014：647-655.
[51] FARRELL R，OZA O，ZHANG N，et al. Birdlets：subordinate [64] 黄伟锋，张甜，常东良，等 . 基于多视角融合的细粒度图像分类
categorization using volumetric primitives and pose⁃normalized 方法［J］. 信号处理，2020，36（9）：1607-1614.（HUANG W F，
appearance［C］// Proceedings of the 2011 International Conference ZHANG T，CHANG D L，et al. Multi⁃view comprehensive based
on Computer Vision. Piscataway：IEEE，2011：161-168. fine⁃grained image classification［J］. Journal of Signal Processing，
[52] BOURDEV L，MALIK J. Poselets：body part detectors trained 2020，36（9）：1607-1614. ）
using 3D human pose annotations［C］// Proceedings of the 2009 [65] GAO Y，BEIJBOM O，ZHANG N，et al. Compact bilinear pooling
IEEE 12th International Conference on Computer Vision. ［C］// Proceedings of the 2016 IEEE Conference on Computer
Piscataway：IEEE，2009：1365-1372. Vision and Pattern Recognition. Piscataway： IEEE， 2016：
[53] BOURDEV L， MAJI S， MALIK J. Describing people： 317-326.
poselet⁃based approach to attribute classification［C］// Proceedings [66] KAR P， KARNICK H. Random feature maps for dot product
of the 2011 International Conference on Computer Vision. kernels［C］// Proceedings of the 15th International Conference on
Piscataway：IEEE，2011：1543-1550. Artificial Intelligence and Statistics. New York：JMLR. org，2012：
[54] FELZENSZWALB P F，GIRSHICK R B，McALLESTER D，et al. 583-591.
Object detection with discriminatively trained part based models [67] PHAM N，PAGH R. Fast and scalable polynomial kernels via
［J］. IEEE Transactions on Pattern Analysis and Machine explicit feature maps［C］// Proceedings of the 19th ACM SIGKDD
Intelligence，2010，32（9）：1627-1645. International Conference on Knowledge Discovery and Data
[55] PARKHI O M，VEDALDI A，JAWAHAR C V，et al. The truth Mining. New York：ACM，2013：239-247.
about cats and dogs［C］// Proceedings of the 2011 International [68] KONG S， FOWLKES C. Low⁃rank bilinear pooling for
Conference on Computer Vision. Piscataway：IEEE，2011：1427- fine⁃grained classification［C］// Proceedings of the 2017 IEEE
1434. Conference on Computer Vision and Pattern Recognition.
[56] ZHANG N，FARRELL R，IANDOLA F，et al. Deformable part Piscataway：IEEE，2017：7025-7034.
descriptors for fine⁃grained recognition and attribute prediction [69] LI Y H，WANG N Y，LIU J Y，et al. Factorized bilinear models
［C］// Proceedings of the 2013 IEEE International Conference on for image recognition ［C］// Proceedings of the 2017 IEEE
Computer Vision. Piscataway：IEEE，2013：729-736. International Conference on Computer Vision. Piscataway：IEEE，
[57] ZHANG N，PALURI M，RANZATO M，et al. PANDA：pose 2017：2098-2106.
aligned networks for deep attribute modeling［C］// Proceedings of [70] 葛疏雨，高子淋，张冰冰，等 . 基于核化双线性卷积网络的细粒
the 2014 IEEE Conference on Computer Vision and Pattern 度图像分类［J］. 电子学报，2019，47（10）：2134-2141.（GE S
Recognition. Piscataway：IEEE，2014：1637-1644. Y， GAO Z L， ZHANG B B， et al. Kernelized bilinear CNN
[58] GIRSHICK R，DONAHUE J，DARRELL T，et al. Rich feature models for fine⁃grained visual recognition［J］. Acta Electronica
hierarchies for accurate object detection and semantic segmentation Sinica，2019，47（10）：2134-2141. ）
［C］// Proceedings of the 2014 IEEE Conference on Computer [71] LIN T Y，MAJI S. Improved bilinear pooling with CNNs［C］//
Vision and Pattern Recognition. Piscataway： IEEE， 2014： Proceedings of the 2017 British Machine Vision Conference.
580-587. Durham：BMVA Press，2017：No. 117.
[59] ZHANG N， DONAHUE J， GIRSHICK R， et al. Part⁃based [72] CUI Y， ZHOU F， WANG J， et al. Kernel pooling for
RCNNs for fine⁃grained category detection［C］// Proceedings of the convolutional neural networks［C］// Proceedings of the 2017 IEEE
2014 European Conference on Computer Vision， LNCS 8689. Conference on Computer Vision and Pattern Recognition.
Cham：Springer，2014：834-849. Piscataway：IEEE，2017：3049-3058.
[60] BRANSON S，HORN G van，BELONGIE S，et al. Bird species [73] MOGHIMI M， SABERIAN M， YANG J， et al. Boosted
categorization using pose normalized deep convolutional nets［C］// convolutional neural networks［C］// Proceedings of the 2016 British
Proceedings of the 2014 British Machine Vision Conference. Machine Vision Conference. Durham： BMVA Press， 2016：
Durham：BMVA Press，2014：No. 71. No. 24.
[61] LIN D， SHEN X Y， LU C W， et al. Deep LAC： deep [74] 闫子旭，侯志强，熊磊，等 . YOLOv3 和双线性特征融合的细粒
localization， alignment and classification for fine⁃grained 度图像分类［J］. 中国图象图形学报，2021，26（4）：847-856.
recognition［C］// Proceedings of the 2015 IEEE Conference on （YAN Z X， HOU Z Q， XIONG L， et al. Fine⁃grained
Computer Vision and Pattern Recognition. Piscataway： IEEE， classification based on bilinear feature fusion and YOLOv3［J］.
2015：1666-1674. Journal of Image and Graphics，2021，26（4）：847-856. ）
[62] SHELHAMER E， LONG J， DARRELL T. Fully convolutional [75] YU C J，ZHAO X Y，ZHENG Q，et al. Hierarchical bilinear
networks for semantic segmentation［J］. IEEE Transactions on pooling for fine⁃grained visual recognition［C］// Proceedings of the
Pattern Analysis and Machine Intelligence， 2017， 39 （4）： 2018 European Conference on Computer Vision，LNCS 11220.
640-651. Cham：Springer，2018：595-610.
[63] WEI X S，XIE C W，WU J X，et al. Mask⁃CNN：localizing parts [76] ITTI L，KOCH C，NIEBUR E. A model of saliency⁃based visual
and selecting descriptors for fine⁃grained image recognition［J］. attention for rapid scene analysis［J］. IEEE Transactions on
Pattern Recognition，2018，76：704-714. Pattern Analysis and Machine Intelligence，1998，20（11）：1254-
1259. machine translation［C］// Proceedings of the 3rd Conference on

[77] MNIH V，HEESS N，GRAVES，et al. Recurrent models of visual Machine Translation：Research Papers. Stroudsburg，PA：ACL，
attention［C］// Proceedings of the 27th International Conference on 2018：1-9.
Neural Information Processing Systems，Volume 2. Cambridge： [86] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An image
MIT Press，2014：2204-2212. is worth 16x16 words：Transformers for image recognition at scale
[78] ZHENG H L，FU J L，MEI T，et al. Learning multi⁃attention ［EB/OL］. （2021-06-03）［2021-06-11］. https：//arxiv. org/pdf/
convolutional neural network for fine⁃grained image recognition 2010. 11929. pdf.
［C］// Proceedings of the 2017 IEEE International Conference on [87] CARION N，MASSA F，SYNNAEVE G，et al. End⁃to⁃end object
Computer Vision. Piscataway：IEEE，2017：5219-5227. detection with transformers［C］// Proceedings of the 2020 European
[79] CHANG D L，DING Y F，XIE J Y，et al. The devil is in the Conference on Computer Vision，LNCS 12346. Cham：Springer，
channels：mutual⁃channel loss for fine⁃grained image classification 2020：213-229.
［J］. IEEE Transactions on Image Processing，2020，29：4683- [88] ZHU X Z， SU W J， LU L W， et al. Deformable DETR：
4695. deformable Transformers for end⁃to⁃end object detection［EB/OL］.
[80] ZHUANG P Q，WANG Y L，QIAO Y. Learning attentive pairwise （2021-03-18）［2021-11-11］. https：//arxiv. org/pdf/2010. 04159.
interaction for fine⁃grained classification［C］// Proceedings of the pdf.
34th AAAI Conference on Artificial Intelligence. Palo Alto，CA：
AAAI Press，2020：13130-13137. This work is partially supported by Scientific Research Project of
[81] ZHANG T，CHANG D L，MA Z Y，et al. Progressive co⁃attention Fuyang Normal University （2021KYQD0028），Science and Technology
network for fine⁃grained visual classification［C］// Proceedings of Research Project of Inner Mongolia Autonomous Region（2021GG0090），
the 2021 International Conference on Visual Communications and Doctoral Research Start⁃up Fund of Inner Mongolia Agricultural
Image Processing. Piscataway：IEEE，2021：1-5. University （BJ2013B⁃1）， Open Project of Inner Mongolia Discipline
[82] JI R Y，WEN L Y，ZHANG L B，et al. Attention convolutional Inspection and Supervision Big Data Laboratory（IMDBD2020015）.
binary neural tree for fine⁃grained visual categorization ［C］//
SHEN Zhijun， born in 1976， Ph. D.， professor. His research
Proceedings of the 2020 IEEE/CVF Conference on Computer
interests include intelligent computing，data mining.
Vision and Pattern Recognition. Piscataway：IEEE，2020：10465-
MU Lina，born in 1996，M. S. candidate. Her research interests
10474.
include computer vision，image recognition.
[83] SUN M，YUAN Y C，ZHOU F，et al. Multi⁃attention multi⁃class
GAO Jing，born in 1970，Ph. D.，professor. Her research interests
constraint for fine⁃grained image recognition［C］// Proceedings of
the 2018 European Conference on Computer Vision， LNCS include big data intelligence and knowledge discovery，analysis of animal
11220. Cham：Springer，2018：834-850. and plant phenotype and omics big data，intelligent system for agriculture
[84] VASWANI A，SHAZEER N，PARMAR N，et al. Attention is all and animal husbandry.
you need［C］// Proceedings of the 31st International Conference on SHI Yuanhang， born in 1997， M. S. candidate. His research
Neural Information Processing Systems. Red Hook，NY：Curran interests include artificial intelligence.
Associates Inc. ，2017：6000-6010. LIU Zhiqiang， born in 1996， M. S. candidate. His research
[85] OTT M， EDUNOV S， GRANGIER D， et al. Scaling neural interests include artificial intelligence.

细粒度图像分类综述申志军

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

细粒度图像分类综述申志军

Uploaded by

Copyright:

Available Formats

Journal of Computer Applications ISSN 1001⁃9081 2023⁃ 01⁃ 10

计算机应用, 2023, 43( 1) : 51 - 60 CODEN JYIIDU http：/ / www. joca. cn

文章编号：1001-9081（2023）01-0051-10 DOI：10. 11772/j. issn. 1001-9081. 2021122090

Review of fine-grained image categorization

等。以清华狗数据集［1］为例，如图 1 所示：图（a）中所有的狗类和实例级图像分类。跨物种语义级图像分类［5-6］是在类别

持向量机（Support Vector Machine，SVM）构成，其中基于 Fig. 2 Structure of pose normalized CNN

HOG 的 DPM 用于局部区域定位，SVM 用于分类。由于深度卷积特征具有更强的区分度，使用深层卷积特

Lin 等［61］提出包含深度定位、对齐和分类三个子网络的基于全卷积网络（Fully Convolutional Network，FCN）

训练较为复杂；同时对目标对象标注框和局部区域标注点等率。Li 等［69］提出一种基于矩阵低秩分解的因式分解双线性

特征之间相互作用的协方差矩阵，但 B⁃CNN 模型产生的两锁定需要重点关注的局部区域，最终形成注意力焦点。在细

共同的可判别特征，形成交互特征图。AE 模块通过全局平度学习的发展和算力的提高，各种分类任务利用深度学习获

均池化、上采样和阈值设定获得和原始图像尺寸一致的 0⁃1 得了前所未有的进展，一个高质量的数据集往往能够提高模

擦除掩码（Drop Mask），经原图像和擦除掩码进行逐元素乘型训练的质量和预测的准确率。如何构建更高质量更全面

检测等领域结合还有待进一步探索。 [12] JARRETT K，KAVUKCUOGLU K，RANZATO M，et al. What is

（WANG M H，WU Z X，ZHOU Z G. Fine⁃grained identification Piscataway：IEEE，2009：248-255.

Machinery，2021，52（4）：239- 247. ） Proceedings of the 25th International Conference on Neural

1259. machine translation［C］// Proceedings of the 3rd Conference on

You might also like

细粒度图像分类综述 申志军

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

细粒度图像分类综述 申志军

Uploaded by

Copyright:

Available Formats

Journal of Computer Applications ISSN 1001⁃9081 2023⁃ 01⁃ 10

计算机应用, 2023, 43( 1) : 51 - 60 CODEN JYIIDU http：/ / www. joca. cn

文章编号：1001-9081（2023）01-0051-10 DOI：10. 11772/j. issn. 1001-9081. 2021122090

Review of fine-grained image categorization

等。以清华狗数据集［1］为例，如图 1 所示：图（a）中所有的狗 类和实例级图像分类。跨物种语义级图像分类［5-6］是在类别

持 向 量 机（Support Vector Machine，SVM）构 成 ，其 中 基 于 Fig. 2 Structure of pose normalized CNN

HOG 的 DPM 用于局部区域定位，SVM 用于分类。 由于深度卷积特征具有更强的区分度，使用深层卷积特

Lin 等［61］提出包含深度定位、对齐和分类三个子网络的 基于全卷积网络（Fully Convolutional Network，FCN）

训练较为复杂；同时对目标对象标注框和局部区域标注点等 率。Li 等［69］提出一种基于矩阵低秩分解的因式分解双线性

特征之间相互作用的协方差矩阵，但 B⁃CNN 模型产生的两 锁定需要重点关注的局部区域，最终形成注意力焦点。在细

共同的可判别特征，形成交互特征图。AE 模块通过全局平 度学习的发展和算力的提高，各种分类任务利用深度学习获

均池化、上采样和阈值设定获得和原始图像尺寸一致的 0⁃1 得了前所未有的进展，一个高质量的数据集往往能够提高模

擦除掩码（Drop Mask），经原图像和擦除掩码进行逐元素乘 型训练的质量和预测的准确率。如何构建更高质量更全面

检测等领域结合还有待进一步探索。 [12] JARRETT K，KAVUKCUOGLU K，RANZATO M，et al. What is

（WANG M H，WU Z X，ZHOU Z G. Fine⁃grained identification Piscataway：IEEE，2009：248-255.

Machinery，2021，52（4）：239- 247. ） Proceedings of the 25th International Conference on Neural

1259. machine translation［C］// Proceedings of the 3rd Conference on

You might also like

细粒度图像分类综述申志军

细粒度图像分类综述申志军

等。以清华狗数据集［1］为例，如图 1 所示：图（a）中所有的狗类和实例级图像分类。跨物种语义级图像分类［5-6］是在类别

持向量机（Support Vector Machine，SVM）构成，其中基于 Fig. 2 Structure of pose normalized CNN

HOG 的 DPM 用于局部区域定位，SVM 用于分类。由于深度卷积特征具有更强的区分度，使用深层卷积特

Lin 等［61］提出包含深度定位、对齐和分类三个子网络的基于全卷积网络（Fully Convolutional Network，FCN）

训练较为复杂；同时对目标对象标注框和局部区域标注点等率。Li 等［69］提出一种基于矩阵低秩分解的因式分解双线性

特征之间相互作用的协方差矩阵，但 B⁃CNN 模型产生的两锁定需要重点关注的局部区域，最终形成注意力焦点。在细

共同的可判别特征，形成交互特征图。AE 模块通过全局平度学习的发展和算力的提高，各种分类任务利用深度学习获

擦除掩码（Drop Mask），经原图像和擦除掩码进行逐元素乘型训练的质量和预测的准确率。如何构建更高质量更全面