论文阅读:Dual Supervised Learning

xiaoxiao2021-02-28  117

论文阅读:Dual Supervised Learning

概述:

许多有监督的学习任务是对偶的,比如从英语翻译成汉语,从汉语翻译成中文;再如图像的分类和图像的生成。但是人们总是分别训练两个模型, 没有充分利用对偶的双方之间存在的关系,本文提出可以同时训练对偶的模型,且与分别训练两个模型相比可以提高性能。

介绍:

两个对偶问题可以看成空间到的映射以及到的映射。使用概率语言描述,原有的任务(primary task)学习一个参数为的条件 分布,它的对偶的任务(dual task)学习一个参数为的条件分布,其中 。 在这个新的方案中,两个对偶的学习任务互相关联,利用它们结构上的关系来提高学习的效率。作者将这个新的方案命名为对偶监督学习 (Dual Supervised Learning),简称DSL。 有很多方法来利用DSL中存在的对偶性。在本文中,将对偶性作为一个正则项来控制训练的过程。因为对于联合分布 ,其中 。所以最初任务和对偶的任务满足: 如果分别通过减少他们各自的损失函数来训练两个模型,就无法保证上式是成立的。DSL基本的思想是在上式(1)的限制下,通过不断地 减少损失函数,同时学习两个模型的参数和。这样做的话,和的固有的概率的联系得到了加强,有助于推动学习得过程 朝着正确的方向发展。 为了解决DSL的优化问题,使用拉格朗日数乘法将式(1)转换为一个惩罚项,注意这个惩罚项也可以看作是一个依赖于数据的正则项。

 为了说明DSL的实用性,本文举例说明了DSL应用的三个方面: (1)神经机器翻译(NMT) (2)图像处理(Image Processing) (3)情感分析(Sentiment Analysis) 这些应用体现了DSL的优越性

问题定义:

假定我们在空间中有n个训练数据对。我们的目标是揭示两个输入x和y的双向的关系。确切的说,我们执行

以下两个任务:

(1)最初(原始)的学习任务(primary task)是寻找一个函数,对于一个输入x可以通过 f 来得到它对应的接近于真实值的y ;

(2)对偶的学习任务(dual task)是寻找一个函数,对于一个输入y可以通过g来得到它对应的接近于真实值的x 。

给定任意一个(x,y),令和分别表示 f 和 g 的损失函数。

基于条件概率来对函数f 和函数 g做出定义:

从上式看出,我们的目的就是求这样的参数和参数,使得对于当前数据集,利用 f 或 g 得到的结果最为接近真实情况的值。

对于标准的有监督学习,通过在空间中使用经验风险最小化来学习模型 f  :

同理对于对偶的模型 g ,在空间中:

考虑着两个模型,如果他们学习的都很完美的话,那么有:

我们把这种特性称之为概率对偶性(probabilistic duality),这对于我们优化两个对偶的模型的学习过程是一个必备的条件。

对于标准的有监督学习,在训练中并没有考虑概率对偶性,最初的(原始的primary)模型和对偶的模型分别进行训练,因此

无法保证这两个具有对偶关系的模型满足概率对偶性。为了解决这个问题,我们提出通过解决下面的多目标优化问题(multi-objective optimization problem)

来明确强调了概率对偶性:

和是边缘分布。 我们将这种新的学习方式称为对偶监督学习(Dual Supervised Learning ,简称DSL)。

算法描述:

在实际的人工智能应用中,边缘分布的确切的值通常是不能直接获得的,于是我们使用经验上的边缘分布 和来

满足公式(2)的限制条件。为了解决DSL问题,使用常见的约束优化方法,引入拉格朗日数乘法,对目标函数增加概率对偶性的等式约束。

首先,将概率对偶性的约束转化为下面的正则项(包含经验上的边缘分布):

接下来,我们使用原来的损失函数结合这个正则项来不断学习这两个模型,算法如下:

在这个算法中,优化方法和的选择是十分灵活的,对于不同的任务(task)可以选择不同的优化方法,如:Adadelta ,SGD。

接下来本文分别在机器翻译,图像处理以及情感计算三个方面使用该模型(DSL)进行了与其他baseline的对比,说明了DSL的有效性。这里不再详述。

总结:

本文提出的DSL模型更像是一套解决存在对偶问题的机器学习问题的模版(一种新的范式?),根据本文的实验结果可以看出该模型确实具有很明确的优点。对偶学习这个概念是否能够很好的应用于更多的实际问题还有待实验论证。(学尚浅,没能力给出评论。。。)

转载请注明原文地址: https://www.6miu.com/read-56430.html

最新回复(0)