Model-Based Control

Once you do policy evaluation, you can do control.

You have two methods to improve your policy:

#todo This is in Lecture 5: Model-Free Control, but I don’t remember seeing this, so you need to revisit Lecture 3.

Greedy Policy Improvement over V(s) requires model of MDP.

$π^{'} (s) = arg max_{a \in A} R_{s}^{a} + P_{s s^{'}}^{a} V (s^{'})$

🛠️ Steven Gong