文档摘要

6.3 AIAI——RLRL“” “”“”—— Reinforcement Learning, RL——Value FunctionPolicy“”“” “”“”AI Policy“” Value Function“”“”“” “”“” 6.3 “” 6.3.1 “” -“”“”“” 6.3.1.1 State-Value Function $V^\pi(s)$ $\pi$ $s$ $V^\pi(s) = E\pi [ \sum{k=0}^{\infty} \gamma^k R{t+k+1} | St = s ]$ $E\pi$ $\pi$ $R{t+k+1}$ $t+k+1$ $\gamma \in [0, 1]$ $\gamma$ 10 $St = s$ $s$ $s$ $\pi$


发布者: 作者: 转发
评论区 (0)
U