Who
Alexandre Allauzen, Anne Auger, Michele SebagList of courses
Voir aussi la page d'Alexandre Allauzen- 1er Octobre 2012 Introduction, arbres de décision et validation
- 4 Octobre 2012, suite des arbres de decision et validation.
- The course on neural nets has been moved to the advanced module, option 2.
- 8 Octobre 2012: Bayesien Naif, Alexandre Allauzen
- 15 Octobre 2012: Apprentissage non supervisé
- 22 Octobre 2012: Modèles de Markov
- 25 Octobre 2012: Machines à Vecteurs Supports
- 29 Octobre 2012: Optimisation
- 5 Novembre 2012: suite des modèles de Markov.
TP Nicolas Galichet
Examen TC2, 2012
- Examen sur table, 19 novembre
Contrôle continu: Projets/Exposés
Vous devez choisir parmi la liste ci-dessous, un projet à effectuer. La liste est en cours de construction et sera close mi-décembre.L'évaluation consiste en un rapport de 4 pages et un exposé de 15 minutes. Elle aura lieu fin janvier.
La règle d'attribution est le premier arrivé, le premier servi. Pour choisir un sujet, il suffira d'envoyer un mail à allauzen@limsi.fr.
L'objectif est de comprendre l'article, d'effectuer des expériences par soi-même afin de mieux en comprendre le contenu, et de proposer une analyse critique. A chaque article est associé un contact, n'hésitez pas à le/la contacter afin d'avoir plus de précision sur les attendus. Le rapport devra contenir, une courte description des travaux, des expériences menées, et une description et analyses des résultats.
- Detecting concept drift with support vector machines, ICML 2000. R Klinkenberg, T Joachims. Contact M. Sebag.
- Less is more, Active Learning with SVM, ICML 2000, G Schohn, D. Cohn Contact M. Sebag. Nawel Sakhraoui
- Linear Discriminant Trees, OT Yildiz, E Alpaydin, 2000. Contact M. Sebag.
- A fully Bayesian approach to unsupervised part-of-speech tagging, 2007. Contact: A. Allauzen.
- Alignment by agreement, 2006. Contact: A. Allauzen. Les expériences peuvent se faire dans un premier temps sur un modèle plus simple que les HMM.
- Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach, 2000. L'important dans cet article, est de réaliser le filtrage de spam avec un Bayésien Naïf et d'eventuellement le comparer à un autre modèle (basé sur les exemples comme dans l'article, ou un SVM. Pour les données Lingspam, si vous ne les trouvez pas contacter A. Allauzen.
- Painless Unsupervised Learning with Features, 2010. L'enjeu est de comprendre les 2 approches proposées, d'en choisir une ainsi qu'une application (le POS tagging est la plus simple) et d'évaluer. Contact: A. Allauzen
- Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms, 2002. Les expériences peuvent se faire avec le Brown Corpus qui est libre de droit. Contact: A. Allauzen
- Empirical comparisons of several derivative free optimization algorithms. Pour les experiences se concentrer sur les algorithmes BFGS, NEWUOA, CMAES (ne pas recoder les algorithmes, recuperer les codes existants). Contact: A. Auger.
- Natural gradient and Stochastic Optimization: Theoretical foundation for CMA-ES from information geometric perspective Sujet théorique - Il s'agit de comprendre l'idée derrière le principe d'optimisation stochastique à base de natural gradient et d'expliquer les résultats principaux du papier. Contact: A. Auger
- A Fast and Simple Algorithm for Training Neural Probabilistic Language Models, 2012. Contact A. Allauzen.
La base d'image MNIST est disponible sur cette page, et il existe des API d'accès pour beaucoup de langage de programmation (en cas de problème A. Allauzen).
Le Brown Corpus pour le POS tagging est disponible dans une version déjà pré-traitée ici. Cette archive contient:
- brown_corpus/train.ec : the official training set (you can work with this one)
- brown_corpus/test.ec : the test set (you can use it as a seperate data set for tuning or evaluation)
- brown_corpus/README : the original README file
- brown_corpus/CONTENTS : the original CONTENTS file
- brown_corpus/brown.html : the description of the tags
README and CONTENTS files refer to the original distribution of the data, where the texts come from various genres.
The files train.ec and test.ec correpond to a merge and preprocessing that I have done in order to simplify the task.