2017强化学习资料汇总

xiaoxiao2021-02-27 228

转载自：https://zhuanlan.zhihu.com/p/23807875

深度学习研究总结：强化学习技术趋势与分析（经典论文）

1 前言

ICLR 2017中和Deep Reinforcement Learning相关的论文我这边收集了一下，一共有30篇（可能有漏），大部分来自于DeepMind和OpenAI，可见DRL依然主要由DeepMind和OpenAI把持。由于论文太多，时间有限，先把论文列出来。之后根据情况做一定分析。也欢迎大家一起补充。

2 DeepMind的论文分析

[1] LEARNING TO COMPOSE WORDS INTO SENTENCES WITH REINFORCEMENT LEARNING

推荐阅读指数：⭐️⭐️

论文类型：应用型

应用方向：自然语言理解

论文基本内容介绍：

这篇文章面向一类自然语言理解问题，就是句子的理解，如何更好的输入一个句子的每一个词语，然后输出一个句子的表达。一种方式就是不管句子的结构，一个一个输入到RNN中，然后输出一个向量来表示这个句子的含义，一种就是探索句子的组成树结构（Tree Structure），基于树结构输入词语，然后输出句子的表达。比如“我喜欢打篮球”这句话，很显然，“我，喜欢，打，篮球”可以作为特定的结构输入，就类似于句子的分析，我们显然不会按照“我喜，欢打篮，球”来理解。下图就是两个树结构的范例，要按照不同的顺序组合词语然后输入到RNN中。

那么输入一个句子的每一个词语，输出句子的表达之后，就有用了，可以利用这个输出做很多事：比如判断这个句子是电影的正面评论还是负面平台，判断两个句子是否意思相近，判断两个句子是矛盾，中立还是相同立场，还可以基于句子预测下一个句子。所以句子的理解是自然语言理解的基础，这篇文章的目的也就是希望能够得到更好的句子的理解。

接下来这篇文章做的事情就是使用增强学习来探索句子的树形结构组成，就是说如何构建树结构的问题。如果构造了一个堆栈，然后有一个句子等待输入，那么每一次有两个动作，插入S和合并R。插入就是将一个词语word插入到堆栈，合并就是将两个词语合并。如下图所示：

那么本文使用REINFORCE算法（策略梯度算法）来训练这个树结构的动作选择网络。Reward是在每次生成完整个句子后获取（类似AlphaGo）。具体算法这里不详细介绍。效果是显然的，肯定能够学习到一定的组成句子的方法，从而比那种随便输入的句子理解更好。

论文评价：一篇中规中矩的Paper，在NLP领域找到了一个不错的应用增强学习的问题，并且取得了一定的效果。但是这种效果并不具有大幅度的提高，也说明其实没必要采用树结构输入，一个一个词语输入其实也可以，只要神经网络能够理解就好。人类就可以做到，虽然人类也分析句子的结构。

[2] LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS

推荐阅读指数：⭐️⭐️⭐️⭐️⭐️

[3] LEARNING TO PERFORM PHYSICS EXPERIMENTS VIA DEEP REINFORCEMENT LEARNING

[4] PGQ: COMBINING POLICY GRADIENT AND Q- LEARNING

[5] Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

[6] REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS

推荐阅读指数：⭐️⭐️⭐️⭐️⭐️

[7] SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY

[8] THE PREDICTRON: END-TO-END LEARNING AND PLANNING

3 OpenAI的论文分析（包含Sergey Levine的论文）

[9] #EXPLORATION: A STUDY OF COUNT-BASED EXPLORATION FOR DEEP REINFORCEMENT LEARNING

[10] GENERALIZING SKILLS WITH SEMI-SUPERVISED REINFORCEMENT LEARNING

[11] LEARNING INVARIANT FEATURE SPACES TO TRANS- FER SKILLS WITH REINFORCEMENT LEARNING

[12] LEARNING VISUAL SERVOING WITH DEEP FEATURES AND TRUST REGION FITTED Q-ITERATION

[13] MODULAR MULTITASK REINFORCEMENT LEARNING WITH POLICY SKETCHES

[14] STOCHASTIC NEURAL NETWORKS FOR HIERARCHICAL REINFORCEMENT LEARNING

[15] THIRD PERSON IMITATION LEARNING

推荐阅读指数：⭐️⭐️⭐️⭐️⭐️

[16] UNSUPERVISED PERCEPTUAL REWARDS FOR IMITATION LEARNING

[17] EPOPT: LEARNING ROBUST NEURAL NETWORK POLICIES USING MODEL ENSEMBLES

[18] RL2: FAST REINFORCEMENT LEARNING VIA SLOW REINFORCEMENT LEARNING

4 其他论文

[19] COMBATING DEEP REINFORCEMENT LEARNING’S SISYPHEAN CURSE WITH INTRINSIC FEAR

[20] COMMUNICATING HIERARCHICAL NEURAL CONTROLLERS FOR LEARNINGZERO-SHOT TASK GENERALIZATION

[21] DESIGNING NEURAL NETWORK ARCHITECTURES USING REINFORCEMENT LEARNING

[22] LEARNING TO PLAY IN A DAY: FASTER DEEP REIN- FORCEMENT LEARNING BY OPTIMALITY TIGHTENING

[23] LEARNING TO REPEAT: FINE GRAINED ACTION REPETITION FOR DEEP REINFORCEMENT LEARNING

[24] MULTI-TASK LEARNING WITH DEEP MODEL BASED REINFORCEMENT LEARNING

[25] NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING

推荐阅读指数：⭐️⭐️⭐️⭐️⭐️

[26] OPTIONS DISCOVERY WITH BUDGETED REINFORCE- MENT LEARNING

[27] REINFORCEMENT LEARNING THROUGH ASYNCHRONOUS ADVANTAGE ACTOR-CRITIC ON A GPU

[28] SPATIO-TEMPORAL ABSTRACTIONS IN REINFORCEMENT LEARNING THROUGH NEURAL ENCODING

[29] SURPRISE-BASED INTRINSIC MOTIVATION FOR DEEP REINFORCEMENT LEARNING

[30] TUNING RECURRENT NEURAL NETWORKS WITH REINFORCEMENT LEARNING

转载请注明原文地址: https://www.6miu.com/read-9281.html

技术

最新回复(0)