目录
基于值函数的方法是间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到policy。
直接对policy进行建模和学习
某个时候整理了个ppt: