关于DRL

xiaoxiao2021-02-28  104

DRL: deep reinforcement learning DRL = DL (deep learning) + RL (reinforcement learning)

大多数情况下,reward既不为正,也不为负,为0,导致RL非常难训练。 Alpha Go是监督学习+增强学习。在一开始,学习按照人的棋谱下棋,然后学到一定程度,再自己跟自己下。

转载请注明原文地址: https://www.6miu.com/read-56109.html

最新回复(0)