Who

Alexandre Allauzen, Anne Auger, Michele Sebag

List of courses

1er Octobre 2012 Introduction, arbres de décision et validation
4 Octobre 2012, suite des arbres de decision et validation.
1. The course on neural nets has been moved to the advanced module, option 2.
8 Octobre 2012: Bayesien Naif, Alexandre Allauzen
15 Octobre 2012: Apprentissage non supervisé
22 Octobre 2012: Modèles de Markov
25 Octobre 2012: Machines à Vecteurs Supports
29 Octobre 2012: Optimisation
5 Novembre 2012: suite des modèles de Markov.

TP Nicolas Galichet

Examen TC2, 2012

Examen sur table, 19 novembre

Contrôle continu: Projets/Exposés

Vous devez choisir parmi la liste ci-dessous, un projet à effectuer. La liste est en cours de construction et sera close mi-décembre.
L'évaluation consiste en un rapport de 4 pages et un exposé de 15 minutes. Elle aura lieu fin janvier.
La règle d'attribution est le premier arrivé, le premier servi. Pour choisir un sujet, il suffira d'envoyer un mail à allauzen@limsi.fr.

L'objectif est de comprendre l'article, d'effectuer des expériences par soi-même afin de mieux en comprendre le contenu, et de proposer une analyse critique. A chaque article est associé un contact, n'hésitez pas à le/la contacter afin d'avoir plus de précision sur les attendus. Le rapport devra contenir, une courte description des travaux, des expériences menées, et une description et analyses des résultats.

Detecting concept drift with support vector machines, ICML 2000. R Klinkenberg, T Joachims. Contact M. Sebag.
Less is more, Active Learning with SVM, ICML 2000, G Schohn, D. Cohn Contact M. Sebag. Nawel Sakhraoui
Linear Discriminant Trees, OT Yildiz, E Alpaydin, 2000. Contact M. Sebag.
A fully Bayesian approach to unsupervised part-of-speech tagging, 2007. Contact: A. Allauzen.
Alignment by agreement, 2006. Contact: A. Allauzen. Les expériences peuvent se faire dans un premier temps sur un modèle plus simple que les HMM.
Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach, 2000. L'important dans cet article, est de réaliser le filtrage de spam avec un Bayésien Naïf et d'eventuellement le comparer à un autre modèle (basé sur les exemples comme dans l'article, ou un SVM. Pour les données Lingspam, si vous ne les trouvez pas contacter A. Allauzen.
Painless Unsupervised Learning with Features, 2010. L'enjeu est de comprendre les 2 approches proposées, d'en choisir une ainsi qu'une application (le POS tagging est la plus simple) et d'évaluer. Contact: A. Allauzen
Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms, 2002. Les expériences peuvent se faire avec le Brown Corpus qui est libre de droit. Contact: A. Allauzen
Empirical comparisons of several derivative free optimization algorithms. Pour les experiences se concentrer sur les algorithmes BFGS, NEWUOA, CMAES (ne pas recoder les algorithmes, recuperer les codes existants). Contact: A. Auger.
Natural gradient and Stochastic Optimization: Theoretical foundation for CMA-ES from information geometric perspective Sujet théorique - Il s'agit de comprendre l'idée derrière le principe d'optimisation stochastique à base de natural gradient et d'expliquer les résultats principaux du papier. Contact: A. Auger
A Fast and Simple Algorithm for Training Neural Probabilistic Language Models, 2012. Contact A. Allauzen.

La base d'image MNIST est disponible sur cette page, et il existe des API d'accès pour beaucoup de langage de programmation (en cas de problème A. Allauzen).

Le Brown Corpus pour le POS tagging est disponible dans une version déjà pré-traitée ici. Cette archive contient:

brown_corpus/train.ec : the official training set (you can work with this one)
brown_corpus/test.ec : the test set (you can use it as a seperate data set for tuning or evaluation)
brown_corpus/README : the original README file
brown_corpus/CONTENTS : the original CONTENTS file
brown_corpus/brown.html : the description of the tags

README and CONTENTS files refer to the original distribution of the data, where the texts come from various genres.
The files train.ec and test.ec correpond to a merge and preprocessing that I have done in order to simplify the task.

Who

List of courses

TP Nicolas Galichet

Examen TC2, 2012

Contrôle continu: Projets/Exposés

Examen TC2 2011