三个散度矩阵: LDA上的三个散度矩阵
introduction
作者将自己的模型称为Second or Higher-order Transfer of Knowledge (So-HoT),是一个对source domain和target domain之间进行二阶或者更高阶次的统计量的一个对齐(alignment).作者使用二阶或者更高阶的scatter 张量,source domain一个,target domain一个scatter张量从AlexNet的fc7建立作者建议,因为source domain和target domain仅仅通过他们的共有部分相关联,所以source domain和target domain的类内散度(within-class scatters)应当被调整到一个适当的程度(较小),来捕获source domain和target domain之间共同的分布。并在此同时,类间散度(between-class scatters)应该较高以保持判别性作者认为,source domain和target domain当中不同的类可能需要以不同的方式进行对齐(alignment),因为source domain和target domain中的共有部分可能和类相关。(?unweighted和weighted,不清楚对什么加权)we investigate not only an unweighted alignment loss (class-independent level of alignment) but also its weighted counterpart which learns one weight per class (class-specific levels of alignment).作者使用2阶或者更高阶张量的时候采用了核方法,速度更快
The Commonality
传统的想法认为,预测的做出必须基于“无法去区分是来自source domain或者target domain”的特征(domain-invariant feature)作者则是将共同的部分(The Commonality)定义为source domain和target domain在二阶或者更高阶次的scatter后重叠的部分但是作者也会使用非重叠的部分进行学习,作者认为这样得出的分类器更具有一般性(能够避免域特定偏差(domain-specific bias)
Tensor Methods
3阶以上的张量在机器学习中是有用的作者使用张量作为域和类的特定表示,类似于核方法,并把它们用于对齐任务(alignment task)。
Background
Notations
Second- or Higher-order Scatter Tensors
r阶散度张量如下: 作者提出说在AlexNet的
fc7
层输出这个张量
X
,当需要特殊说明这是
r
阶散度张量的时候,会使用
X(r)
X
的性质:
超对称性:改变
X
的下标的排列不会影响到
X
中独立的参数的个数对于任意偶数阶次的
X
,他所有切片(slice)都是半正定的。特别地,当
X
为2阶时,
X
就是协方差矩阵(奇数阶次的我没看懂,说是核心张量(core-tensor)可以有正、负、0)作者说使用欧式距离来表达各个张量
X
之间的距离
frobenius范数的性质(作者貌似把这个拿来当成欧式距离)
内积的性质:
Proposed Approach
定义(
Φ
是数据的特征向量,
X
是scatter张量):损失函数总形式:
包括分类损失(classfier loss)和建立在scatter 张量基础上的alignment loss(对齐损失?)分类损失使用Softmax,并且分类是对source domain和target domain同时进行(参数共享))。
λ||W||2F
项是为了使
W
更小alignment loss(对齐损失)
g(Φ,Φ∗)
由特征向量的scatter 张量
X(Φ)
和均值
μ(Φ)决定
,特征向量source domain和target domain参数不共享。每个域的每一个类都有自己的
Xc
或者
X∗c
,
μc
或者
μ∗c
(现在为止我很好奇target domain作者你要怎么分类)。
σ1
和
σ2
控制均值和scatter张量对齐的程度,
τ1
和
τ2
则限制特征向量
ϕ
不至于过大
Weighted Alignment Loss
作者在对齐损失中引入了类特定权重(class-specific weights)作者将所有除了阶次1的scatter张量都拿来加入了损失函数(最高到阶次
r
)
α1和
α2
控制了权重的梯度
Kernelized Alignment Loss
梯度下降期间使用scatter 张量进行计算开销很大,所以作者对frobenius范数采用了核方法作者用多项式核表示了两个scatter张量的内积 复杂度计算:
Experiments
(自行参看原论文)