Rewards

Value functions (3)

Imitation learning, RL from observational data (4)

Multi-Armed Bandits

Reinforcement Learning for Games (5)

RL for Robotics

Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection
Sim-to-Real Robot Learning from Pixels withProgressive Nets

Exploration / Exploitation (3)

Actor-Critic