数据表示的要素——An Abstract to the Review of Representation Learning
原文致力于通过Deep Learning来学习数据表示方法。本文将文中提到的数据表示一般依据从Deep Learning中剥离出来,希望对其他方法也有借鉴。
学习数据的表示方法可以使得在构建分类器或其他预测机制(classifiers or other predictors)时抽取有用信息更容易。由于数据表示方法的基础性地位, 该领域在机器学习范畴中变得举足轻重。NIPS和ICML等顶级会议均设置了相关的常规workshop。最近,一个针对该领域的新会议——International Conference on Learning Representations也得以创办。
Representation Learning的一般先验假设
好的数据表示方法应该能够满足对世界知识的一般先验假设(general priors about the word around us)。这些先验假设并不是针对特定人工智能任务的,但却可以被应用于相关任务。这些先验假设的例子包括:
平滑性(Smoothness):如果一个方程满足,当x≈y时,f(x)≈f(y),那么这个方程是平滑的。这是许多机器学习任务的前提假设,但当维度灾难出现时,这一前提是很难满足的。
多解释因子(Multiple explanatory factors):数据的分布通常是由潜在的因子产生的。在大多数情况下,学习到一个潜在因子也就生成了其他潜在因子的相关配置信息。这一前提是distributed representations的前提假设。学习的目标是揭示这些潜在的因子。
解释因子的拓扑表示:描述宏观世界的概念可以使用更加抽象的概念定义,以此类推,表现为一个自顶向下,从抽象到具体的拓扑表示。
半监督学习(Semi-supervised learning):X是输入数据,Y是预测目标, 当已知X时,一个X的解释因子的子集同样能够解释Y。因此,有益于P(X)的表示方法同样有益于学习P(Y),也就允许了监督学习和非监督学习间分享统计知识。
不同任务间共享解释因子:解释因子是可以在不同任务中共享的,也就允许了不同任务间分享统计知识。
流形(Manifold):概率质量往往集中于相对于原始数据所在高位空间非常低维的区域。这一假设可以直接应用于auto-encoder和其他流形学习算法。
自然的聚类(Natural Clustering):不同类别变量的取值和不同流形关联。一个流形上局部变化趋向于局限于某一类别中,而不同类别中的样本的线性插值(linear interpolation)通常发生在低密度区域。比如,P(X|Y=i)对于不同i的取值趋向于互相分离,不会产生较大的重叠。这一假设和人类习惯于分类是一致的。
时间和空间一致性(Temporal and spatial coherence):连续的或者空间上相邻的观察数据趋向于与相关类别概念的同一取值关联,结果是高密度流形上的微小移动。一般的,不同的解释因子在不同的时空间尺度上变化,许多类别变量的变化非常缓慢。当试图捕捉这些类别变量时,这一前提可以通过强制使得相关表示缓慢变化来实现,比如增加惩罚因子惩罚相关变量的变化。
稀疏性(Sparsity):对于任意观察变量,只有一小部分解释因子是相关的。因此,用来表示x的许多特征的取值均为零。
解释因子依赖关系的简易性(Simplicity of Factor Dependencies):在一个好的高抽象层级的表示中,解释因子间只存在简单的线性依赖关系。
----------------下文是原文中关于deep architecture的内容,整理的不完善,仅供参考-------------------
Deep architecture的学习目标
由上可知,由于解释因子之间的弱相关性,基于解释因子的表示是distributed representation。好的表示方法应当具有较强的表达能力,即一个尺寸合理的表达方式能够捕捉可能输入的大量配置信息。根据这一定义,表达能力的强弱可以使用表达方式所需参数量与能够区分的输入数量(the number of input regions or configurations)的比值来度量。提升表达能力的关键是特征重用。越抽象的特征越有可能被重用。而越抽象的特征越对输入的局部变化是脱敏的(More abstract concepts are generally invariant to most local changes of the input)。学习这些脱敏特征一直是模式识别领域的一个目标。而深层结构(deep architectures)具备特征重用和抽取抽象特征的能力。进一步的,除去distributed和invariant两个特点,好的表示应当能够解构变化的影响因子(disentangle the factors of variation)。解构因子(disentangling factors of variation)和invariant features的主要区别是,invariant features 沿着不变性的方向减少了敏感度。这是针对某一任务,去除特征对无关信息敏感度的目标。不幸的是,很难先验的确定哪些特征和变化与当前任务是相关的。因而一种稳健的策略是解构(disentangle)尽可能多的特征,丢失尽可能少的信息。
Deep architecture的实现方法
与传统机器学习任务不同的是,表示学习(representation learning)没有一个明确的目标。好的表示需要能够解构隐藏因子,但是如何将这一要求转换为合适的训练约束呢?除了最大似然之外还有没有更合适的目标函数?
早期的方法是线性转换模型,比如PCA。但线性模型的表达能力是有限的,线性变换不能产生更深层次的,抽象的表示。独立成分分析(Independent Componet Analysis)也产生线性特征,它能够等价于使用非高斯隐藏单元的线性生成模型,但这种模型生成的是非线性特征。在深层结构表示领域有两条并行的研究路线:概率图模型(probabilistic graphical model)和计算图模型(computation graphical model)。
概率图模型:
The question of feature learning can be interpreted as an attempt to recover a parsimonious set of latent random variables that describe a distribution over the observed data. We can express as p(x,h) a probabilistic model over the joint space of the latent variables, h, and ovserved data or visible variables x. Feature values are conceived as the result of an inference process to determine the probability distribution of the latent variables given the data, i.e. p(h|x), often referred to as the posterior probability. Learning is conceived in term of estimating a set of model parameters that (locally) maximizes the regularized likelihood of the training data. The probabilistic graphical model formalism gives us two possible modeling paradigms in which we can consider the question of inferring latent variables, directed and undirected graphical models, which differ in their parametrization of the joint distribution p(x,h), yielding major impact on the nature and computational costs of both inference and learning.
计算图模型:
Another important perspective on representation learning is based on the geometric notion of manifold. Its premise is the manifold hypothesis, according to which real-world data presented in high dimensional spaces are expected to concentrate in the vicinity of a manifold M of much lower low-dimensional embedding coordinate “parameters” for each training point, these coordinates are obtained through an explicitly parameterized function, as with the parametric variant of t-SNE.
Instead, Semi-Supervised Embedding learns a direct encoding while taking into account the manifold hypothesis through a neighborhood graph. A parametrized neural network architecture simultaneously learns a manifold embedding and a classifier. The training criterion encourages training set neighbors to have similar representations.
Ref. Representation Learning: A Review and New Perspectives