torch batch_norm计算举例
Kong Liangqian Lv6

目标

学习policy函数

学习policy函数 $\pi(a|s)$, 即policy based learning。假如我们有policy函数$\pi$, 我们就可以用它来控制agent的动作

观察当前的状态$s_t$, 通过π来输出每一个动作的概率,然后随机选取一个

学习action-value函数

学习action-value function, 最优价值动作函数$Q^(s,a)$。即value-base learning。假如我们有$Q^$, 它可以告诉我们,在状态$s_t$下,所有动作的Q值(未来奖励的加权总和),选择一个最大的

action-value 函数是所有discounted return的期望。不同动作有不同的回报

 Comments