深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)
它是一种学习连续动作的无模型策略算法。
它结合了DPG(确定性策略梯度)和DQN(深度Q网络)的思想。它利用DQN中的经验重放和延迟更新的目标网络,并基于DPG,可以在连续的动作空间上运行。
评论删除后,数据将无法恢复
暂无更多评论