关于DRL

xiaoxiao2021-02-28 104

DRL: deep reinforcement learning DRL = DL (deep learning) + RL (reinforcement learning)

大多数情况下，reward既不为正，也不为负，为0，导致RL非常难训练。 Alpha Go是监督学习+增强学习。在一开始，学习按照人的棋谱下棋，然后学到一定程度，再自己跟自己下。

转载请注明原文地址: https://www.6miu.com/read-56109.html

技术

最新回复(0)