Turn
Uphill
Humanoid
Screencast
Q(s, a) ← Q(s, a) + α [r + γ maxa' Q(s', a') − Q(s, a)]