Deep Q Network


DQN是Deep Learning和Q Learning结合起来的算法,可以解决动作空间和状态空间是连续的问题,而且使用神经网络可以自动提取特征

DQN的基础是用一个深度神经网络来作为Q(s,a)Q(s,a)值(即QTable)的代替,无论是基于概率还是基于价值的迭代,近似得到的是一个可以基于当前s,a来预估得到的r的函数,而通过神经网络可以拟合得到这个函数

Q-learning


Qlearning是一种基于价值的强化学习方法 下面是个简单的例子来自周莫烦