简要介绍:
主要内容:本文主要介绍了一种在复杂环境中导航的深度增强学习的方法,并且表明通过添加辅助任务可以大大提高学习效率和学习效果主要贡献:主要针对“如何提高增强学习的学习效率”的问题提出了一种可行的优化方法并对其进行分析作者演讲文章展示视频首先有一个随机的起始点
找到目标点+10分作为奖励机制
到达目标点的同时,将主体(可以看作机器人)随机移动到地图中某个位置
开始重新寻找目标点,其中路上会有苹果、草莓等物体作为小奖励(分别+1,+2)
动作是连续的,不过每一次行动有8种:分别为微量旋转(左右),水平四个方向的加速以及旋转加速度(左右)
有三种地图:如上图的5X10,9X15和I形状的迷宫
- 包含一个卷积网络 - 包含Stacked LSTM - 附加的输入(奖励、上一次的动作和速度) - 两个附加任务:1)深度预测 2)回环预测
Nav A3C+D+L+Dr的详细框架图:使用RGB图像,上一次的奖励,上一次的动作和当前的主体速度作为输入,输出策略,评价函数,深度预测和回环检测
左边为深度预测(真值和预测深度)右边为回环检测(灰色表示轨迹,蓝色表示正确输出,红色表示监测出了假的回环,绿色表示漏掉了回环)
蓝色深浅表示所处位置的概率,从开始初始位置(最左),往右依次通过运动信息来增加位置预测的准确度。注:此处的位置是将地图离散化为5x10,9x15个方格,预测所处的方格位置
结果显示:有附加任务的学习效率和学习结果都有很大的提高,并且不同的附加任务有不同的促进效果
最终的实验的数据分析结果