Livres

Reinforcement Learning: An Introduction, Richard S. Sutton & Andrew G. Barto], 2017 version
Reinforcement Learning course by Rémi Munos

Vidéos

19 novembre

Introduction
- Slides
Fonctions de valeur
- Slides

26 novembre

Multi-Armed Bandits & Applications
- Slides

3 décembre

* TP (3h, Herilalaina Rakotoarison).

10 décembre

TP, Herilalaina Rakotoarison

7 janvier

Cours + TP, Function Approximation
- Slides

14 janvier

Cours + TP, Direct Policy Search
- Slides

Exposés (28 janvier et 4 février)

Par binome, choisissez un article ds la liste ci-dessous (premier arrivé premier servi), et présentez le (avec transparents ou au tableau) pour un exposé de 10 minutes + 5 mn questions : réimplémentation de l'algo si réaliste ; étude de sensibilité, analyse des résultats si code disponible. Le but de l'exposé est de rendre clair l'utilité et les limites de l'approche, et votre capacité de jugement (qualité de la validation, de l'argumentation, poussière sous le tapis, fertilité scientifique, etc).

28 janvier

Learning by Playing Solving Sparse Reward Tasks from Scratch
- Savoir se donner des buts auxiliaires Benoit SARTHOU, Martin BAUW, et Nicolas CADART
Automatic Goal Generation for Reinforcement Learning Agents
- Se donner des buts, suite Duraz et Gao
Learning to search with MCTSnets
- Combiner MCTS et réseaux neuronaux, 2 Taha HAMMAMI
Structured Control Nets for Deep Reinforcement Learning
- Quelle architecture neuronale ? Linxiao ZENG, Zhufeng LI

4 février, ordre de passage.

Human-level control through deep reinforcement learning
1. Bouaziz, Dittrick
Deep Reinforcement Learning with Double Q-learning
1. Mirwaisse Djanbaz, Luc Gibaud, Théo Cornille
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
1. Jabri, Hamidèche (discutants: Duraz et Gao).
The Predictron: End-To-End Learning and Planning
1. Malik Kazi Aoual et Nouredine Nour

Gated Path Planning Networks
1. Adrien Chuttarsing Vu Thanh Trung

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings
1. Maktouf et Garcia Cancian
Latent Space Policies for Hierarchical Reinforcement Learning
1. BIARD David BERRIEN Samuel

Learning the Reward Function for a Misspecified Model
1. Luca Veyrin-forrer

End-to-end Active Object Tracking via Reinforcement Learning
1. Joslove, Riolacci
A Deep Reinforcement Learning Chatbot
1. Yakoubi et Mascaro

Deep RL

Human-level control through deep reinforcement learning
- Les débuts: DQN Bouaziz, Dittrick
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
- La suite: AlphaZero Jabri, Hamidèche (discutants: Duraz et Gao).
Gated Path Planning Networks
- raffiner les Value Networks Adrien Chuttarsing Vu Thanh Trung
Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings
- apprendre des modèles génératifs pour les trajectoires Maktouf et Garcia Cancian
Deep Reinforcement Learning with Double Q-learning
- Mirwaisse Djanbaz, Luc Gibaud, Théo Cornille

Robustesse

Latent Space Policies for Hierarchical Reinforcement Learning
- Architecture neuronale, critère d'apprentissage et diversité des solutions BIARD David BERRIEN Samuel
Learning the Reward Function for a Misspecified Model
- Quand il y a un problème avec la fonction de transition... Luca Veyrin-forrer

Generalization and Exploration via Randomized Value Functions
- Why Boltzmann or epsilon-greedy exploration can be highly inefficient

Optimisation

Structured Evolution with Compact Architectures for Scalable Policy Optimization
- Apprentissage boite noire d'une politique
http://proceedings.mlr.press/v80/guez18a.html
- Apprentissage de plusieurs agents
Deep Reinforcement Learning That Matters
- Recherche reproductible ?

Monte-Carlo Tree Search

The Predictron: End-To-End Learning and Planning
- Combiner MCTS et réseaux neuronaux, 1 Malik Kazi Aoual et Nouredine Nour
Feedback-Based Tree Search for Reinforcement Learning
- Combiner horizons finis et horizon infini
Why is Posterior Sampling Better than Optimism for Reinforcement Learning?
- Deux optimismes (valeur, transition), c'est trop.

Applications

End-to-end Active Object Tracking via Reinforcement Learning
- Formaliser une tâche de poursuite visuelle en termes de RL Joslove, Riolacci
A Deep Reinforcement Learning Chatbot
- Comment évaluer un système en interaction avec des humains ? Yakoubi et Mascaro