🛠️ Steven Gong

Search

Aug 17, 2025, 1 min read

Model-Free Control

Temporal-Difference Control (TD Control)

On-Policy TD Control is known as Sarsa
Off-Policy TD Control is known as Q-Learning

TD Learning offers several advantages over MC:

Lower Variance
Online
Can handle incomplete sequences (MC needs a full episode run)

Graph View

Backlinks

Generalized Policy Iteration (GPI)
Model-Free Control
Q-Learning
Reinforcement Learning (RL)
SARSA
Temporal-Difference Learning (TD Learning)

Created with Quartz, © 2026

Blog
LinkedIn
Twitter
GitHub