Livres
- Reinforcement Learning: An Introduction, Richard S. Sutton & Andrew G. Barto], 2017 version
- Reinforcement Learning course by Rémi Munos
Vidéos
19 novembre
26 novembre
- Multi-Armed Bandits & Applications
3 décembre
* TP (3h, Herilalaina Rakotoarison).10 décembre
- TP, Herilalaina Rakotoarison
7 janvier
- Cours + TP, Function Approximation
14 janvier
- Cours + TP, Direct Policy Search
Exposés (28 janvier et 4 février)
Par binome, choisissez un article ds la liste ci-dessous (premier arrivé premier servi), et présentez le (avec transparents ou au tableau) pour un exposé de 10 minutes + 5 mn questions : réimplémentation de l'algo si réaliste ; étude de sensibilité, analyse des résultats si code disponible. Le but de l'exposé est de rendre clair l'utilité et les limites de l'approche, et votre capacité de jugement (qualité de la validation, de l'argumentation, poussière sous le tapis, fertilité scientifique, etc).28 janvier
- Learning by Playing Solving Sparse Reward Tasks from Scratch
- Savoir se donner des buts auxiliaires Benoit SARTHOU, Martin BAUW, et Nicolas CADART
- Automatic Goal Generation for Reinforcement Learning Agents
- Se donner des buts, suite Duraz et Gao
- Learning to search with MCTSnets
- Combiner MCTS et réseaux neuronaux, 2 Taha HAMMAMI
- Structured Control Nets for Deep Reinforcement Learning
- Quelle architecture neuronale ? Linxiao ZENG, Zhufeng LI
4 février, ordre de passage.
- Human-level control through deep reinforcement learning
- Bouaziz, Dittrick
- Deep Reinforcement Learning with Double Q-learning
- Mirwaisse Djanbaz, Luc Gibaud, Théo Cornille
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
- Jabri, Hamidèche (discutants: Duraz et Gao).
- The Predictron: End-To-End Learning and Planning
- Malik Kazi Aoual et Nouredine Nour
- Gated Path Planning Networks
- Adrien Chuttarsing Vu Thanh Trung
- Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings
- Maktouf et Garcia Cancian
- Latent Space Policies for Hierarchical Reinforcement Learning
- BIARD David BERRIEN Samuel
- Learning the Reward Function for a Misspecified Model
- Luca Veyrin-forrer
- End-to-end Active Object Tracking via Reinforcement Learning
- Joslove, Riolacci
- A Deep Reinforcement Learning Chatbot
- Yakoubi et Mascaro
- Human-level control through deep reinforcement learning
- Les débuts: DQN Bouaziz, Dittrick
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
- La suite: AlphaZero Jabri, Hamidèche (discutants: Duraz et Gao).
- Gated Path Planning Networks
- raffiner les Value Networks Adrien Chuttarsing Vu Thanh Trung
- Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings
- apprendre des modèles génératifs pour les trajectoires Maktouf et Garcia Cancian
- Deep Reinforcement Learning with Double Q-learning
- Mirwaisse Djanbaz, Luc Gibaud, Théo Cornille
- Latent Space Policies for Hierarchical Reinforcement Learning
- Architecture neuronale, critère d'apprentissage et diversité des solutions BIARD David BERRIEN Samuel
- Learning the Reward Function for a Misspecified Model
- Quand il y a un problème avec la fonction de transition... Luca Veyrin-forrer
- Generalization and Exploration via Randomized Value Functions
- Why Boltzmann or epsilon-greedy exploration can be highly inefficient
- Structured Evolution with Compact Architectures for Scalable Policy Optimization
- Apprentissage boite noire d'une politique
- http://proceedings.mlr.press/v80/guez18a.html
- Apprentissage de plusieurs agents
- Deep Reinforcement Learning That Matters
- Recherche reproductible ?
- The Predictron: End-To-End Learning and Planning
- Combiner MCTS et réseaux neuronaux, 1 Malik Kazi Aoual et Nouredine Nour
- Feedback-Based Tree Search for Reinforcement Learning
- Combiner horizons finis et horizon infini
- Why is Posterior Sampling Better than Optimism for Reinforcement Learning?
- Deux optimismes (valeur, transition), c'est trop.
- End-to-end Active Object Tracking via Reinforcement Learning
- Formaliser une tâche de poursuite visuelle en termes de RL Joslove, Riolacci
- A Deep Reinforcement Learning Chatbot
- Comment évaluer un système en interaction avec des humains ? Yakoubi et Mascaro