Professional Documents
Culture Documents
多核学习方法 汪洪桥
多核学习方法 汪洪桥
8
2010 年 8 月 ACTA AUTOMATICA SINICA August, 2010
多核学习方法
汪洪桥 1, 2 孙富春 2 蔡艳宁 1 陈 宁2 丁林阁 2
摘 要 多核学习方法是当前核机器学习领域的一个新的热点. 核方法是解决非线性模式分析问题的一种有效方法, 但在一
些复杂情形下, 由单个核函数构成的核机器并不能满足诸如数据异构或不规则、样本规模巨大、样本不平坦分布等实际的应用
需求, 因此将多个核函数进行组合, 以获得更好的结果是一种必然选择. 本文根据多核的构成, 从合成核、多尺度核、无限核三
个角度, 系统综述了多核方法的构造理论, 分析了多核学习典型方法的特点及不足, 总结了各自的应用领域, 并凝炼了其进一
步的研究方向.
关键词 核方法, 多核学习, 合成核, 多尺度核, 支持向量机, 模式识别, 回归
DOI 10.3724/SP.J.1004.2010.01037
Abstract Multiple kernel learning is a new research focus in the current kernel machine learning field. The kernel
method is an effective approach for non-linear pattern analysis problems. But in some complicated cases, researchers find
that the kernel machines with a single kernel function can not meet some practical requirements such as heterogeneous
information or unnormalised data, large scale problems, non-flat distribution of samples, etc. Therefore, it is an inevitable
choice to consider the combination of kernel functions for better results. According to the composition of multiple kernels,
the construction theories of multiple kernel methods are systematically reviewed, the learning methods of multiple kernel
with the corresponding characteristics and disadvantages are also analyzed, and the respective applications are summarized
from three aspects, which are the composite kernels, the multi-scale kernels, and the infinite kernels. In addition, the
paper generalizes the conclusions and some new directions for future work.
Key words Kernel method, multiple kernel learning, composite kernel, multi-scale kernel, support vector machine
(SVM), pattern recognition, regression
学习问题经常涉及到多种或者异构的数据, 多核方 x, z ) =
k(x x, z )
k̂j (x (5)
j=1
法可以提供更佳的灵活性. 此外, 它可以作为一种巧
妙的方法来解释学习结果, 使得应用问题可以得到 b) 加权求和核 (Weighted summation kernel)
更深入的理解. 这就是多核学习的一类基本方法, 即 X
M X
M
合成核方法. x, z ) =
k(x x, z ), βj ≥ 0,
βj k̂j (x βj = 1 (6)
j=1 j=1
2.1 合成核的构造
c) 加权多项式扩展核 (Weighted polynomial
1) 多核线性组合合成方法
extended kernel)
多核学习最早从生物信息学领域得到应用和认
同. 如 Pavlidis 等[20] 在 2001 年就研究了基于异构 x, z ) = αk̂1p (x
k(x x, z ) + (1 − α)k̂2q (x
x, z ) (7)
1040 自 动 化 学 报 36 卷
其中, k p (x
x, z ) 是 k(xx, z ) 的多项式扩展. 是, 该合成核矩阵的大小为 (s × n) × (s × n), 而原
近来, 这类合成核方法又得到一些改进, 在图 始核矩阵的大小都是 n × n, 由于合成核矩阵是原始
像目标的识别领域得到广泛应用. 如在金字塔框架 核矩阵规模的 s 倍, 因此样本特征必须被复制, 使运
下, 对目标形状进行多核表示[57] , 或采用多核方法, 算量成倍增加.
自动获得基于决策的一种相应目标类别的稀疏依赖 3) 其他改进合成核方法
图, 实现了多类目标联合检测[62] , 提高了目标的识 近年来, 针对多核学习中核函数的选取以及权
别率. 通过同时考虑多核线性组合的稀疏性和分类 值系数的改进, 又出现了一些新的多核合成方法,
器的强判别力, 将多核学习问题转化为不同的优化 如:
问题[58, 63] , 或通过多对象描述子、多特征空间的整 a) 非平稳多核学习
合, 并进行快速求解[64] . 此外, 合成核方法在特征提 前述的多核线性组合方法都是对核函数的平稳
取[66] 、处理及应用[71] 、分类[59, 72−74] 、图像分割[60] 、 组合, 即对所有输入样本, 不同的核对应的权值是
系统辨识[75] 等方面又得到了一些成功应用. 不变的, 无形中对样本进行了一种平均处理. Lewis
2) 多核扩展合成方法 等[23] 提出了一种多核的非平稳组合方法, 对每个输
上述合成核方法都是试图通过一种求和 “平均 入样本配以不同的权值系数. 如常规 SVM 判别函
化” 的思想[42] 来实现不同核矩阵融合. 然而, 这里 数为
存在一个丢失原始核矩阵信息的风险. 比如, 如果数 X
S
据集的局部分布是多变的, 不同的核处理不同的区 x) =
f (x xt , x ) + b
yt αt k(x (10)
t
域会得到更好的结果, 对不同核函数采用平均的方
法将丢失刻画这些局部分布的性能. 为了实现核矩 引入不同的加权系数, 典型的合成核 SVM 的
阵的组合而不丢失任何原始信息, 可以考虑将多核 判别函数可以改写为
矩阵进行扩展合成[42] , 新的核矩阵由原核矩阵和其
X
S X
M
他不同的核矩阵共同构成, 在这个更大的核矩阵中 x) =
f (x yt αt xt , x ) + b
βj kj (x (11)
原核矩阵仍然存在. 因此, 原始核函数的性质得以保 t j
留. 该合成核矩阵的形式为
而对于非平稳的合成核 SVM, 其判别函数改进
K1,1 K1,2 · · · K1,s 为
K2,1 K2,2 · · · K2,s
. .. .. (8) X
S X
M
. .. x) =
f (x yt αt x)kj (x
βj (x xt , x ) + b (12)
. . . .
t j
Ks,1 Ks,2 · · · Ks,s s×n,s×n
在最大熵判别 (Maximum entropy discrimination,
可以看出, 原始核矩阵位于新矩阵的对角线上.
MED) 框架下, 通过使用一种大间隔隐变量生成
其他所有元素是定义为 (Kp,p0 )i,j = Kp,p0 (x xi , x j ) 的
模型, 使得隐参数估计问题可以通过变化边界和
两个不同核矩阵的混合, 可由如下公式求得 (以两个
一个内点优化过程来表示, 并且相应的参数估计可
高斯核为例):
以通过快速的序列最小优化 (Sequential minimal
µ ¶d x k2
x −x
kx
optimization, SMO) 算法实现. 通过多种数据集的
2σp σp0 2 −2 σpi2 +σjp20
xi , x j ) =
Kp,p0 (x e (9) 实验验证, 非平稳的多核学习方法具有更好的通用
σp2 + σp20
性.
很明显, 当 p = p0 时, Kp,p ≡ Kp . b) 局部多核学习
实验结果显示, 当数据集具有变化的局部数据 此后, 仍旧是针对多核学习在整个输入空间中
分布时, 这种合成核方法将是更好的选择. 此外, 通 对某个核都是分配相同权值的问题, Gönen 等[40, 76]
常核组合方法在很大程度上依靠训练数据, 并且必 利用一种选通模型 (Gating model) 局部地选择合
须通过学习获取一些权系数, 以标识每个核的重要 适核函数, 提出了一种局部多核学习算法. 在 SVM
性. 而在扩展合成核方法中, 这些核函数的重要性可 框架下, 其判别函数形如:
以直接从支持向量机的训练过程中导出. 由此, 分别
对应不同核的权系数可以通过一个单独的分类器优 X
S X
M
x) =
f (x yt αt x)kj (x
ηj (x xt , x )ηj (x
xt ) + b (13)
化过程整体得到. 并且该优化过程不会像其他加权
t j
核方法那样, 由于在优化权系数和训练分类器过程
中两次使用训练数据而产生训练数据的过拟合. 但 x) 是选通函数, 其定义形式为
其中, ηj (x
8期 汪洪桥等: 多核学习方法 1041
λQ 7) 分组 Lasso
Qreg (k, X, Y ) = Qemp (k, X, Y ) + kkk2H (19)
2 Lasso 回归是目前处理多重共线性的主要方法
这里, λQ ≥ 0 是一个正则化常数, kkk2H 表示空间 之一, 相对于其他方法, 更容易产生稀疏解, 在参
H 中的范数, Qemp (k, X, Y ) 是一种经验品质函数, 数估计的同时实现变量选择, 因而可以用来解决检
它表示核函数 k 与某一特定数据集 X, Y 的匹配程 验中的多重共线性问题, 以提高检验的效率. Lasso
度, 该函数的值常用来调整 k 以使得 Qemp 最优 (如: 可以推广为分组 Lasso (Group Lasso), 从而使得
最优核目标度量). 模型的解可以保持组稀疏性和层次性. Bach[26] 关
引 理 1 (再 生 核 Hilbert 空 间 的 表 示 定 理, 注于分块 1 范数正则化的最小二乘回归, 即分组
Representer theorem for hyper-RKHS). 设 Lasso 问题, 研究了其渐进模型一致性, 推导出了分
X 为非空集合, Qemp 是任意经验品质函数, X, Y 组 Lasso 一致性在一些实际假设下的充要条件, 如
分别是训练测试样本组合和样本标签, 则每一个最 模型误定. 当线性预测器和欧氏范数 (2 范数) 用函
小化正则化品质函数 Qreg (k, X, Y ) 的 k ∈ H 具有 数和再生核 Hilbert 范数代替, 这就是常说的多核学
以下的一种表示形式: 习问题. 通过使用函数分析工具和特定的协方差算
子, 将上述一致性结果推广到无限维情形, 同时提出
X
M
了一种自适应方法来获得一致性模型的估计, 即使
x, x 0 ) =
k(x x, x 0 )),
xi , x j ), (x
βij k((x x, x 0 ∈ X
∀x
在非适应方法必要性条件不满足的情况下也能适用,
i,j
(20) 为多核学习问题提供了一条新的途径.
对每一个 1 ≤ i, j ≤ M , 这里 βij ∈ R. 2.3 其他合成核参数学习方法
根据超再生核 Hilbert 空间的表示理论可知, 由
从最简单的多个核直接求和到上述的各种改进
超核构造的决策函数不仅由某一个单核构成, 而且
合成核构造方法, 多核学习经历了从经验性选择到
还由多核之间的一个线性组合构成, 因此具有更优
运用多种优化方法求解的过程. 但针对一些具体问
的性能. 在分类、回归以及奇异检测等方面的实验证
题, 对核参数的选取, 多核权系数的设定, 目前还没
实了该方法的有效性[31, 81] , 拓展了多核模型选择与
有形成一个合理统一的模式, 常用的方法只能是凭
合成的研究途径.
借经验、实验对比、大范围的搜索或通过交叉验证
6) 简单 MKL
等进行寻优. 在这种情况下, 也出现了其他的一些方
从 Bach 等的多核学习框架[36] 出发, Sonnen-
法, 实现了多核学习问题, 典型的有:
burg 等 提 出 了 一 种 通 用 而 更 有 效 的 多 核 学 习 算
1) 基于智能优化方法的多核学习
法[37] , 该方法通过迭代使用现有的支持向量机代
这类方法主要通过一些比较成熟的智能优化
码, 从一个新的角度解决了大规模问题的多核学习.
方法, 建立目标函数, 寻找该函数极值的过程就是
然而, 这种迭代算法在收敛到一个合理解之前, 需要
合成核参数寻优的过程. 如采用多项式核与径向
过多的迭代运算. Rakotomamonjy 等[27] 用一种自
基核的合成核[82] 作为支持向量机的核函数 k =
适应的 `2 范数正则化方法来考虑多核学习问题, 每
ρkpoly + (1 − ρ)krbf , 将其用 SVM 进行预测过程中
个核矩阵的权系数被包含在标准 SVM 的经验风险
的参数向量 (d, σ, γ, ρ) 作为粒子, 其中 d 为多项式
最小化问题中, 并采用 `2 约束以提高解的稀疏性.
核参数, σ 为径向基核尺度参数, γ 为 SVM 调整参
然后采用了一种基于分块 `1 范数正则化的算法来解
数, ρ 为合成核的权重参数, 利用粒子群算法对该合
决这一问题, 为多核问题提供了一个新的视角, 并且
成核的参数进行优化, 最终找到最优的预测结果.
证明了该方法与 Bach 等的方法是等效的. 从上述
2) 基于核目标度量的多核学习
描述可以看出, 除了学习合成核外, 该方法解决的是
核度量[43−46] 是两个核函数之间或核函数与目
一个标准的 SVM 优化问题, 这里核的定义形式为
标函数间的一个相似性度量, 在多核矩阵信息融合
多个核的线性组合. Rakotomamonjy[29] 称之为简
方面得到了应用, 其概念最早由 Cristianini 等提出.
单多核学习 (Simple MKL). 在加权的 2 范数正则
考虑一个两类分类数据集 S = {(x xi , yi )}li=1 , 其中 yi
化形式下, 同时对多核权系数进行一个额外的 1 范
∈ {+1, −1}, 则在数据集 S 下, 两个核矩阵之间的
数约束, 为多核学习提供了一种基于混合范数正则
核度量定义为
化的新思路. 简单多核学习可以从两类分类问题向
其他方向扩展, 如回归、聚类、一类分类 (奇异检测) hK1 , K2 iF
Â(S, K1 , K2 ) = p (21)
以及多类分类问题, 具有很强的通用性, 并且与其他 hK1 , K1 iF hK2 , K2 iF
多核学习算法相比, 该算法收敛速度更快且效率更
Pl
高. 这里, hKp , Kq iF = i,j=1
xi , x j )Kq (x
Kp (x xi , x j ). 通
1044 自 动 化 学 报 36 卷
可以对那些剧烈变化的样本进行分类; 而当 σ 较大 x) =
f2 (x x i , x ) + b2
βi k2 (x
时, 可以用来对那些平缓变化的样本进行分类, 能得 i=1
x) 光滑区域对应的支持向量; 而 k2 是小尺度核函
f (x 数 f (vv ), 其中, v 是由 2n 个组合核参数构成的向量
数, 核项系数 βi 选择那些决策函数 f (x x) 剧烈变化 (α1 , γ1 , α2 , γ2 , · · · , αn , γn ), 我们的目标就是找到一
区域对应的支持向量. 具体方法是: 首先通过大尺 个合适的 v , 使得 f (vv ) 最大. 其核心就是通过对解
度的单核 k1 构造函数 f1 (x x), 这样, 该函数可以很好 向量进行组合、变异、选择, 在设定的进化代数内不
地拟合光滑区域, 但在其他地方存在显著误差, 可以 断求取并更新目标函数, 最终得到 f (vv ) 的最大值.
使用相对较小的松弛因子来求取 αi ; 然后, 在 f1 (x x)
基础上使用小尺度的核 k2 构造 f2 (x x), 使得联合函 4 从有限向无限核的扩展 : 无限核方法
x) + f2 (x
数 f1 (x x) 比 f1 (x
x) 具有更好的拟合性能. 这 前述的合成核与多尺度核方法都是在有限个核
种方法实际上是多次使用二次规划以实现参数的获 函数线性组合前提下加以讨论的. 但对一些大规模
取, 运算复杂度较高, 同时支持向量的数量大量增 问题, 基于有限个核的多核处理方法不一定有效, 多
加. 核融合的决策函数的表示能力也不能达到处处最优;
近来, Cortes 等[28] 关注于序列核函数学习问 此外, 在一个多尺度核函数族中, 有限个核函数的选
题, 提出了一种学习合理核函数的通用形式, 并且证 择并不唯一, 并且其不能完备地表征这个核函数族.
明这个大的合理核函数族可以通过结合支持向量机 因此, 将有限核向无限核的扩展也是一个重要的方
目标函数和核脊回归的一种简单二次规划加以解决. 向.
这种方法提高了先前出现的一些学习方法效率, 如 早在 2006 年, Argyriou 等[53] 关注于监督学习
SDP、QCQP. 此外, 对于核脊回归这种特定情形, 中的核学习问题, 提出了一种多核学习的新方法, 该
给出了基于最优核矩阵封闭解的一个替代解, 该方 方法可以从由多个基本核函数的合法集合所构成的
法成功应用到了分类和回归问题. 一个凸壳中找到某个核, 使其能最小化凸正则化函
2) 基于智能优化的多尺度核学习方法 数. 与其他方法相比, 这个方法有一个独有的特征,
与合成核类似, 针对多尺度核学习问题, 另一类 即上述基本核的个数可以是无限多个, 仅仅需要这
重要的方法仍是基于多核的整体智能优化. 如: 利 些核是连续参数化的. 例如: 基本核可以是各向同
用 EM 算法训练多尺度支持向量回归 (Multi-scale 性、方差规定为一定间隔的高斯核, 甚至可以是通过
support vector regression, MS-SVR), 这种方法起 对多个连续参数进行参数化的高斯核. 尽管这个优
源于非平坦函数的估计问题[33] . 它采用多种尺度的 化问题是非凸的, 但它属于更广范畴的凸函数差分
核函数, 使得较小尺度的核可以拟合快速变化, 而较 (Difference of convex functions) 规划问题, 因此,
大尺度的核可以拟合平缓变化. 基于此, 文献 [84] 可以应用最新的凸函数差分优化理论加以解决.
提出了两种迭代的 EM 训练算法, 它们分别以渐进 在此基础上, Gehler 等[39] 更侧重于用半无限规
的方式实现了 1 范数和 0 范数; 通过限制基函数的 划解决来自通用核类型的核函数学习问题, 并设计
数目从而限制了模型的复杂性, 同时解的稀疏性大 了一种新的算法, 称为无限核学习 (Infinite kernel
大加快了训练过程, 也节约了大量的测试时间. 并且 learning, IKL). IKL 算法既适用于无限也适用于有
MS-SVR 的优化目标函数是全局的, 可以直接求得 限核情形, 并且在大量核情形下, 它比 Simple MKL
所有 ml 个核项系数 αij . 文献 [85] 提出了一种多尺 算法更快也更稳定. 通过将 IKL 和 MKL 应用于
度径向基核参数选择的进化策略, 用于支持向量机 SVM 对大量数据集进行实验发现: 在一些数据集
的训练. 该算法针对多尺度高斯核函数的组合形式: 上, 由于核函数族中核的大幅增加, IKL 可以比
X
n SVM/MKL 大大提高分类正确率, 在这些情况下,
x, y ) =
k(x x , y , γi )
αi k(x (29) IKL 能保持它的实用性, 而交叉验证和 MKL 都是
i=1 不实用的.
此后, 针对有限核的凸组合受限于选择的有限
k(x x − y k2 )
x, y , γi ) = exp(−γi kx (30)
性问题, Ozogur-Akyüz 等[54] 又提出了一种基于无
这里有 2n 个参数需要确定, 分别是 n 个权重参数 限和半无限优化的无限核组合新方法, 核的组合可
和 n 个径向基核的宽度 αi , γi , i = 1, · · · , n. 这些 以通过同伦参数 (Homotopy parameter) 或更特殊
参数值的确定会影响到组合核的性能, 也最终会影 的参数来实现. 考察所有来自无限核集合中核的极
响分类精度. 具体方法是将样本集中的总训练样本 小良凸组合, 可以发现: 由于组合, 间隔最大化是在
分成数量相等的几份, 如 5 份, 任意选取其中的 4 份 一个紧指标集 (Compact index set) 下的无穷多个
作为训练样本, 可以训练得到 5 个分类器, 分别以 约束和一个额外的整数约束条件下实现的. 通过在
剩余的 1 份作为测试样本, 可以得到 5 个分类结果. 概率测度 (Probability measures) 空间的参数化, 该
将这 5 个分类结果 (正确率) 的平均值作为目标函 问题变成了一个半无限问题, 可以通过半定规划方
1046 自 动 化 学 报 36 卷
习时间成倍增加. 这些问题的存在, 使得合成核与多 18 Lai P L, Fyfe C. Kernel and nonlinear canonical correlation
尺度核方法的研究还任重而道远. analysis. International Journal of Neural Systems, 2000,
10(5): 365−377
References 19 Bach F R, Jordan M I. Kernel independent component
analysis. The Journal of Machine Learning Research, 2002,
1 Schoelkopf B, Smola A, Muller K R. Nonlinear component
3(2): 1−48
analysis as a kernel eigenvalue problem. Neural Computa-
tion, 1998, 10(5): 1299−1319 20 Pavlidis P, Weston J, Cai J, Grundy W N. Gene functional
classification from heterogeneous data. In: Proceedings
2 Scholkopf B, Mika S, Burges C J C, Knirsch P, Muller K
of the 5th Annual International Conference on Compu-
R, Ratsch G. Input space versus feature space in kernel-
tational Biology. Montreal, Canada: ACM, 2001. 242−248
based methods. IEEE Transactions on Neural Network,
1999, 10(5): 1000−1017 21 Bennett K P, Momma M, Embrechts M J. MARK: a boost-
ing algorithm for heterogeneous kernel models. In: Pro-
3 Muller K R, Mika S, Ratsch G, Tsuda K, Scholkopf B.
ceedings of 8th ACM-SIGKDD International Conference
An introduction to kernel based learning algorithms. IEEE
on Knowledge Discovery and Data Mining. Edmonton,
Transactions on Neural Networks, 2001, 12(2): 181−201
Canada: ACM, 2002. 24−31
4 Vapnik V N. The Nature of Statistical Learning Theory.
Berlin: Springer, 1995 22 Ben-Hur A, Noble W S. Kernel methods for predicting
protein-protein interactions. Bioinformatics, 2005, 21(1):
5 Vapnik V N. Statistical Learning Theory. New York: Wi- 38−46
ley, 1998
23 Lewis D P, Jebara T, Noble W S. Nonstationary kernel
6 Scholkopf B, Smola A J. Learning with Kernels. Mas- combination. In: Proceedings of the 23rd International
sachusetts: The MIT Press, 2002 Conference on Machine Learning. Pittsburgh, USA: ACM,
2006. 553−560
7 Shawe-Taylor J, Cristianini N. Kernel Methods for Pattern
Analysis. Cambridge: Cambridge University Press, 2004 24 Sonnenburg S, Ratsch G, Schafer C, Scholkopf B. Large
scale multiple kernel learning. The Journal of Machine
8 Mercer J. Functions of positive and negative type and their
Learning Research, 2006, 7(7): 1531−1565
connection with the theory of integral equations. Philo-
sophical Transactions of the Royal Society of London, Se- 25 Damoulas T, Girolami M A. Probabilistic multi-class
ries A, 1909, 209: 415−446 multi-kernel learning: on protein fold recognition and re-
mote homology detection. Bioinformatics, 2008, 24(10):
9 Aronszajn N. Theory of reproducing kernels. Transac-
1264−1270
tions of the American Mathematical Society, 1950, 68(3):
337−404 26 Bach F R. Consistency of the group Lasso and multiple ker-
10 Aizerman A, Braverman E M, Rozoner L I. Theoretical nel learning. The Journal of Machine Learning Research,
foundations of the potential function method in pattern 2008, 9(6): 1179−1225
recognition learning. Automation and Remote Control, 27 Rakotomamonjy A, Bach F R, Canu S, Grandvalet Y.
1964, 25(5): 821−837 More efficiency in multiple kernel learning. In: Proceedings
11 Boser B E, Guyon I M, Vapnik V N. A training algo- of the 24th International Conference on Machine Learning.
rithm for optimal margin classifiers. In: Proceedings of the Corvalis, Oregon: ACM, 2007. 775−782
5th Annual Workshop on Computational Learning Theory. 28 Cortes C, Mohri M, Rostamizadeh A. Learning sequence
Pittsburgh, USA: ACM, 1992. 144−152 kernels. In: Proceedings of the International Conference
12 Smola A J, Scholkopf B. A tutorial on support vector re- on Machine Learning for Signal Processing. Washington
gression. Statistics and Computing, 2004, 14(3): 199−222 D. C., USA: IEEE, 2008. 2−8
13 Burges C J C. A tutorial on support vector machines for 29 Rakotomamonjy A, Bach F R, Canu S, Grandvalet Y.
pattern recognition. Data Mining and Knowledge Discov- Simple MKL. The Journal of Machine Learning Research,
ery, 1998, 2(2): 121−167 2008, 9(11): 2491−2521
14 Kerm P V. Adaptive kernel density estimation. Stata Jour- 30 Kloft M, Brefeld U, Laskov P, Sonnenburg S. Non-sparse
nal, 2003, 3(2): 148−156 multiple kernel learning. In: Proceedings of the Workshop
on Kernel Learning: Automatic Selection of Optimal Ker-
15 Schölkopf B, Mika S, Smola A, Ratsch G, Muller K R. nels. Whistler, Canada: The MIT Press, 2008. 1−4
Kernel PCA pattern reconstruction via approximation pre-
images. In: Proceedings of the International Conference on 31 Ong C S, Smola A J, Williamson R C. Learning the ker-
Artificial Neural Networks. Skovde, Sweden: IEEE, 1998. nel with hyperkernels. The Journal of Machine Learning
147−152 Research, 2005, 6(7): 1043−1071
17 Baudat G, Anouar F. Generalized discriminant analysis us- 33 Zheng D N, Wang J X, Zhao Y N. Non-flat function esti-
ing a kernel approach. Neural Computation, 2000, 12(10): mation with a multi-scale support vector regession. Neu-
2385−2404 rocomputing, 2006, 70(1-3): 420−429
1048 自 动 化 学 报 36 卷
34 Yang Z, Guo J, Xu W, Nie X F, Wang J, Lei J J. Multi- 49 Li B, Zheng D N, Sun L F, Yang S Q. Exploiting mul-
scale support vector machine for regression estimation. In: tiscale support vector regression for image compression.
Proceedings of the 3rd International Symposium on Neural Neurocomputing, 2007, 70(16-18): 3068−3074
Networks. Chengdu, China: Springer, 2006. 1030−1037
50 Opfer R. Multiscale kernels. Advances in Computational
35 Lanckriet G R G, Cristianini N, Bartlett P, Ghaoui L E, Mathematics, 2006, 25(4): 357−380
Jordan M I. Learning the kernel matrix with semi-definite
programming. In: Proceedings of the 19th International 51 Zhou Y T, Zhang T Y, Li X H. Multi-scale Gaussian pro-
Conference on Machine Learning. San Francisca, USA: cesses model. Journal of Electronics (China), 2006, 23(4):
Morgan Kaufmann Publisher, 2002. 323-330 618−622
36 Bach F R, Lanckriet G R G, Jordan M I. Multiple kernel 52 Walder C, Kim K I, Scholkopf B. Sparse multiscale Gaus-
learning, conic duality, and the SMO algorithm. In: Pro- sian process regression. In: Proceedings of the 25th Inter-
ceedings of the 21st International Conference on Machine national Conference on Machine Learning. Helsinki, Fin-
Learning. Banff, Canada: ACM, 2004. 41−48 land: ACM, 2008. 1112−1119
37 Sonnenburg S, Ratsch G, Schafer C. A general and efficient 53 Argyriou A, Hauser R, Micchelli C A, Pontil M. A DC-
multiple kernel learning algorithm. In: Proceedings of the programming algorithm for kernel selection. In: Proceed-
Advances in Neural Information Processing Systems. Van- ings of the 23rd International Conference on Machine
couver, Canada: The MIT Press, 2005. 1273−1280 Learning. Pittsburgh, USA: ACM, 2006. 41−48
38 Zien A, Ong C S. Multiclass multiple kernel learning. In: 54 Ozogur-Akyüz S, Weber G W. Learning with infinitely
Proceedings of the 24th International Conference on Ma- many kernels via semi-infinite programming. In: Proceed-
chine Learning. New York, USA: ACM, 2007. 1191−1198 ings of the EURO Mini Conference on Continuous Op-
timization and Knowledge Based Technologies. Neringa,
39 Gehler P V, Nowozin S. Infinite Kernel Learning, Technical Lithunia: Vilnius Gediminas Technical University Publish-
Report 178, Max Planck Institute for Biological Cybernet- ing House, 2008. 342−348
ics, Germany, 2008
55 Pavlidis P, Weston J, Cai J, Grundy W N. Gene functional
40 Gönen M, Alpaydin E. Localized multiple kernel learn-
classification from heterogeneous data. In: Proceedings of
ing. In: Proceedings of the 25th International Confer-
the 5th Annual International Conference on Computation
ence on Machine Learning. Helsinki, Finland: ACM, 2008.
Biology. Montreal, Canada: ACM, 2001. 249−255
352−359
56 Lanckriet G R G, Deng M, Cristianini N, Jordan M I,
41 Lanckriet G R G, Cristianini N, Bartlett P, Ghaoui L E,
Noble W S. Kernel-based data fusion and its application
Jordan M I. Learning the kernel matrix with semidefinite
to protein function prediction in yeast. In: Proceedings of
programming. The Journal of Machine Learning Research,
the Pacific Symposium on Biocomputting. Berkeley, USA:
2004, 5(1): 27−72
Springer, 2004. 300−311
42 Lee W J, Verzakov S, Duin R P. Kernel combination versus
57 Bosch A, Zisserman A, Munoz X. Representing shape with
classifier combination. In: Proceedings of the 7th Interna-
a spatial pyramid kernel. In: Proceedings of the 6th ACM
tional Workshop on Multiple Classifier Systems. Prague,
International Conference on Image and Video Retrieval.
Czech Republic: Springer, 2007. 22−31
Amsterdam, The Netherlands: ACM, 2007. 401−408
43 Cristianini N, Shawe-Taylor J, Elisseeff A, Kandola J.
On kernel-target alignment. In: Proceedings of the Ad- 58 He J F, Chang S F, Xie L X. Fast kernel learning for spatial
vances in Neural Information Processing Systems. Cam- pyramid matching. In: Proceedings of IEEE Conference
bridge, USA: MIT Press, 2002. 367−373 on Computer Vision and Pattern Recognition. Washington
D. C., USA: IEEE, 2008. 1−7
44 Cristianini N, Elisseeff A, Shawe-Taylor J. On Optimizing
Kernel Alignment, Technical Report, BIOwulf Technolo- 59 Zheng S, Liu J, Tian J W. An efficient star acquisition
gies, Royal Holloway Universtiy of London, UK, 2003 method based on SVM with mixtures of kernels. Pattern
Recognition Letters, 2005, 26(2): 147−165
45 Lin Y Y, Liu T L, Fuh C S. Local ensemble kernel learning
for object category recognition. In: Proceedings of IEEE 60 Gustavo C V, Luis G C, Jordi M M, Joan V F, Javier C
Conference on Computer Vision and Pattern Recognition. M. Composite kernels for hyperspectral image classifica-
Washington D. C., USA: IEEE, 2007. 1−8 tion. IEEE Transactions on Geoscience and Remote Sens-
ing Letters, 2006, 3(1): 93−97
46 Qiu S B, Lane T. Multiple kernel support vector regression
for siRNA efficacy prediction. In: Proceedings of the 4th 61 Nakajima S, Binder A, Muller C, Wojcikiewicz W, Kloft
International Conference on Bioinformatics Research and M, Brefeld U. Multiple Kernel Learning for Object Classi-
Applications. Atlanta, USA: Springer, 2008. 367−378 fication, Technical Report on Information-Based Induction
Sciences, University of Berlin, Germany, 2009
47 Bi J B, Zhang T, Bennett K P. Column-generation boost-
ing methods for mixture of kernels. In: Proceedings of the 62 Lampert C H, Blaschko M B. A multiple kernel learning
10th ACM SIGKDD International Conference on Knowl- approach to joint multi-class object detection. In: Proceed-
edge Discovery and Data Mining. Seattle, USA: ACM, ings of the 30th DAGM Symposium on Pattern Recogni-
2004. 521−526 tion. Munich, Germany: Springer, 2008. 31−40
48 Pozdnoukhov A, Kanevski M. Multi-scale support vector 63 Kumar A, Sminchisescu C. Support kernel machines for
algorithms for hot spot detection and modeling. Stochas- object recognition. In: Proceedings of the IEEE Interna-
tic Environmental Research and Risk Assessment, 2007, tional Conference on Computer Vision. Rio de Janeiro,
22(5): 647−660 Brazil: IEEE, 2007. 1−8
8期 汪洪桥等: 多核学习方法 1049
64 Damoulas T, Girolami M A. Pattern recognition with a 79 Wang Z, Chen S, Sun T. MultiK-MHKS: a novel multiple
Bayesian kernel combination machine. Pattern Recogni- kernel learning algorithm. IEEE Transactions on Pattern
tion Letters, 2009, 30(1): 46−54 Analysis and Machine Intelligence, 2008, 30(2): 348−353
65 Vedaldi A, Gulshan V, Varma M, Zisserman A. Multiple 80 Nesterov Y E, Nemirovsky A S. Interior Point Polynomial
kernels for object detection. In: Proceedings of the Inter- Methods in Convex Programming: Theory and Applica-
national Conference on Computer Vision. Tokyo, Japan: tions. Philadelphia: SIAM, 1994
IEEE, 2009. 1−8 81 Borgwardt K, Ong C S, Schoenauer S, Vishwanathan S,
66 Mak B, Kwok J T, Ho S. A study of various composite ker- Smola A, Kriegel H P. Protein function prediction via
nels for kernel eigenvoice speaker adaptation. In: Proceed- graph kernels. Bioinformatics, 2005, 21(1): 47−56
ings of the IEEE International Conference on Acoustics, 82 Jiang T J, Wang S Z, Wei R X. Support vector machine
Speech, and Signal Processing. Montreal, Canada: IEEE, with composite kernels for time series prediction. In: Pro-
2004. 325−328 ceedings of the 4th International Symposium on Neural
Networks: Advances in Neural Networks. Nanjing, China:
67 Cristianino N, Shawe-Taylor J. An Introduction to Sup-
Springer, 2007. 350−356
port Vector Machines and Other Kernel-based Learning
Methods. Cambridge: Cambridge University Press, 2000 83 Zhang L, Zhou W D, Jiao L C. Wavelet support vector
machine. IEEE Transactions on Systems, Man, and Cy-
68 Smola A, Scholkopf B. A tutorial on support vector regres-
bernetics, Part B: Cybernetics, 2004, 34(1): 34−39
sion. Statistics and Computing, 2004, 14(3): 199−222
84 Zheng D N, Wang J X, Zhao Y N. Training sparse MS-
69 Zheng Da-Nian. Reaseach on Kernel Methods in Machine SVR with an expectation-maximization algorithm. Neuro-
Learning [Ph. D. dissertation], Tsinghua University, China, computing, 2006, 69(13-15): 1659−1664
2006
(郑大念. 机器学习中的核方法研究 [博士学位论文], 清华大学, 中 85 Phienthrakul T, Kijsirikul B. Evolutionary strategies for
国, 2006) multi-scale radial basis function kernels in support vector
machines. In: Proceedings of the Conference on Genetic
70 Damoulas T, Ying Y, Girolami M A, Campbell C. Infer- and Evolutionary Computation. Washington D. C., USA:
ring sparse kernel combinations and relevance vectors: an ACM, 2005. 905−911
application to subcellular localization of proteins. In: Pro-
ceedings of the 7th International Conference on Machine 86 Manik V, Rakesh B. More generality in efficient mul-
Learning and Applications. San Diego, USA: IEEE, 2008. tiple kernel learning. In: Proceedings of the 26th In-
577−582 ternational Conference on Machine Learning. Montreal,
Canada: ACM, 2009. 1065−1072
71 Fu S Y, Yang G S, Hou Z G, Liang Z, Tan M. Multiple
87 Tang L, Chen J, Ye J. On multiple kernel learning with
kernel learning from sets of partially matching image fea-
multiple labels. In Proceedings of the 21st International
tures. In: Proceedings of the 19th International Conference
Joint Conference on Artificial Intelligence. Pasadena, USA:
on Pattern Recognition. Tampa, USA: IEEE, 2008. 1−4
Morgan Kaufmann Publishers, 2009. 1255−1260
72 Fung G, Dundar M, Bi J, Rao B. A fast iterative algo- 88 Kembhavi A, Siddiquie B, Miezianko R, McCloskey S,
rithm for fisher discriminant using heterogeneous kernels. Davis L S. Incremental multiple kernel learning for object
In: Proceedings of the 21st International Conference on recognition. In: Proceedings of the International Confer-
Machine Learning. Banff, Canada: ACM, 2004. 40−47 ence on Computer Vision. Washington D. C., USA: IEEE,
73 Damoulas T, Girolami M A. Combining feature spaces 2009. 1−8
for classification. Pattern Recognition, 2009, 42(11): 89 Li Ming, Zhou Zhi-Hua. Online semi-supervised learning
2671−2683 with multi-kernel ensemble. Journal of Computer Research
and Development, 2008, 45(12): 2060−2068
74 Damoulas T, Girolami M A. Pattern recognition with a
(黎铭, 周志华. 基于多核集成的在线半监督学习方法. 计算机研究
Bayesian kernel combination machine. Pattern Recogni-
与发展, 2008, 45(12): 2060−2068)
tion Letters, 2009, 30(1): 46−54
90 Zhao B, Kwok J T, Zhang C S. Multiple kernel clustering.
75 Gustavo C V, Manel M R, Rojo-Alvarez J, Munoz-Mari
In: Proceedings of the 9th SIAM International Conference
J L. Nonlinear system identification with composite rel-
on Data Mining. 2009. Philadelphia, USA: SIAM, 638−649
evance vector machines. IEEE Signal Processing Letters,
2007, 14(4): 279−282 91 Zhao B, Kwok J T, Zhang C S. Maximum margin clus-
tering with multivariate loss function. In: Proceedings of
76 Gönen M, Alpaydm E. Multiple kernel machines using the 9th IEEE International Conference on Data Mining.
localized kernels. In: Proceedings of the 4th Interna- Washington D. C., USA: IEEE, 2009. 637−646
tional Conference on Pattern Recognition in Bioinformat-
ics. Sheffield, UK: University of Sheffield, 2009. 1−10 92 Mu Shao-Min, Tian Sheng-Feng, Yin Chuan-Huan. Multi-
ple kernel learning based on cooperative clustering. Journal
77 Christoudias M, Urtasun R, Darrell T. Bayesian Lo- of Beijing Jiaotong University, 2008, 32(2): 10−13
calized Multiple Kernel Learning, Technical Report No. (牟少敏, 田盛丰, 尹传环. 基于协同聚类的多核学习. 北京交通大
UCB/EECS-2009-96, University of California, USA, 2009 学学报, 2008, 32(2): 10−13)
78 Kloft M, Brefeld U, Sonnenburg S, Laskov P, Muller K 93 Do H, Kalousis A, Woznica A, Hilario M. Margin and ra-
R, Zien A. Efficient and accurate lp -norm multiple kernel dius based multiple kernel learning. In: Proceedings of the
learning. In: Proceedings of the Conference on Neural In- European Conference on Machine Learning and Knowl-
formation Processing Systems. Berkeley, USA: The MIT edge Discovery in Databases. Bled, Slovenia: Springer,
Press, 2009. 997−1005 2009. 330−343
1050 自 动 化 学 报 36 卷