TikiWiki | Courses

2011 - 2012

Departement Informatique, Université Paris-Sud

Master 1; Master 2 Stages

Ressources

Web sites

Andrew Ng: http://openclassroom.stanford.edu/MainFolder/VideoPage.php?course=MachineLearning
A bit of algebra:
- http://en.wikipedia.org/wiki/Matrix_theory
- http://math.mit.edu/linearalgebra/

TC2

Cours Introduction 3 octobre 2011
Cours Réseaux Neuronaux {file name="Cours_IAC_TC2_2011_NN.pdf" desc="6 octobre 2011}
Cours Bayesien Naif transparents
Cours Apprentissage non supervisé transparents
Cours Modeles de Markov transparents 1, transparents 2
Cours Représentations 27 octobre
Cours Optimisation: Partie I: Introduction et méthodes déterministes, 3 novembre
Cours Optimisation: Partie II: Méthodes stochastiques, 3 novembre

Voir aussi http://www.limsi.fr/Individu/yvon/mysite/mysite.php?n=Site.ASO

Articles

Latent Dirichlet Allocation
- Analyses de textes : une mixture de concepts cachés.
- http://www.lri.fr/~sebag/COURS/BleiNgJordan2003.pdf
Feature selection, L1 vs. L2 regularization, and rotational invariance
- Pour eviter le sur-apprentissage, on rajoute des termes de regularisation. Font-ils autre chose que de regulariser ?
- http://ai.stanford.edu/~ang/papers/icml04-l1l2.pdf
Error Limiting Reductions between Classification Tasks
- Classification binaire et multi-classe; comment se ramener au probleme simple ?
- http://www.machinelearning.org/proceedings/icml2005/papers/007_Error_BeygelzimerEtAl.pdf
Learning to rank using gradient descent
- Tout n'est pas blanc ou noir; on peut vouloir apprendre les préférences de l'expert.
- http://www.machinelearning.org/proceedings/icml2005/papers/012_LearningToRank_BurgesEtAl.pdf

Projets

Les projets 3, 4 et 9 peuvent être pris par un binome.

Projet 1 : Classification Réseaux Neuronaux Abdulhafiz ALKHOULI
1. Données MNIST; algorithme rétro-propagation du gradient.
2. Etude de l'influence de l'initialisation des poids et du pas d'apprentissage
Projet 2 : Auto-encodeur. Bryan Brancotte
1. Donnees IMAGES
2. voir http://www.stanford.edu/class/cs294a si besoin d'information pour ouvrir les donnees.
3. Prendre des imagettes (8x8) tirees aleatoirement dans les images.
4. Definir un NN avec 64 sorties, et l'entrainer pour que l'output soit egal à l'input (c'est ce qu'on appelle un auto-encodeur).
5. Afficher pour chacun des neurones de la couche cachée l'imagette de norme 1 qui l'excite le plus (i.e. pour lequel la valeur est maximale).
Projet 3 : Machine à Vecteurs Supports (linéaire et sans variables ressorts)
1. Le principe : http://en.wikipedia.org/wiki/Support_vector_machine
2. L'algorithme : libSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
3. Donnees: probleme URL sur la page http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
Projet 4 : Recursive Feature Elimination
1. Donnees: ARCENE, http://www.nipsfsc.ecs.soton.ac.uk/datasets/
2. Ajouter des features aleatoires
3. Prendre des sous-ensembles de donnees de petite taille
4. Sur chaque sous-ensemble, apprendre une hypothèse linéaire
5. Définir l'importance d'un feature en fonction de son poids dans les différentes hypothèses linéaires
6. Ordonner les features selon ce score d'importance
7. Voir le nombre de features plus importantes que les features aléatoires.
Projet 5 : Adaboost Khrystyna Kyrgyzova
1. Données MNIST, classes 4 et 9
2. Principe : http://en.wikipedia.org/wiki/AdaBoost
3. Espace des hypotheses: choix d'un pixel; apprendre la valeur v telle que l'hypothese pixel > v est le meilleur classifieur (au sens de la distribution courante) utilisant ce pixel.
Projet 6 : Résolution de "packing problems" (voir http://www.packomania.com/ ) (A. Auger)
1. Considérer le problème d'empilements de cercles de rayons identiques dans un carré
2. Formuler le problème sous forme d'un problème d'optimisation
3. Utiliser l'algorithme CMA-ES pour résoudre le problème (on récupérera le code ici: http://www.lri.fr/~hansen/cmaes_inmatlab.html )
4. On pourra traiter les contraintes par méthode de pénalisation
5. Comparer les résultats obtenus aux meilleures solutions connues (http://www.packomania.com/ )
Projet 7: Méthode de quasi-Newton (BFGS) et (1+1)-ES avec règle des 1/5 (A. Auger)
1. L'objectif de ce projet est de comparer la méthode de quasi-Newton BFGS, l'algorithme stochastique (1+1)-ES avec règle des 1/5 pour l'optimisation de fonctions (1) convexes régulières, (2) bruitées et (3) non-convexes (voir le descriptif détaillé du projet)
Projet 8 : Deviner la langue d'un fragment de texte (Allauzen + Yvon)
1. Principe: "Naive bayes" avec des modèles de Markov de lettres
2. Données: dictionnaires, pages web, etc (mailto:yvon@limsi.fr)
Projet 9: les HMMs en MatLab (pour deux personnes) (Allauzen + Yvon)
1. programmer la résolution des 4 algorithmes de base
2. application à l'étiquetage de de séquences supervisé et semi-supervisé
Projet 10: apprendre des HMM par échantillonnage de Gibbs (Allauzen + Yvon)
1. application à l'étiquetage de de séquences non-supervisé et/ou semi-supervisé
2. Données: étiquetage en entité nommées (mailto:yvon@limsi.fr)
Projet 11: Les dépendances dans les séquences (Allauzen + Yvon)
1. Principe: comparer trois approches pour faire de la classification supervisée
  1. pas de prise en compte des dépendances
  2. stacking
  3. HMM
2. Données: prononciation automatique (mailto:yvon@limsi.fr)
Projet 12: Mélange de multinomiale, extension bilingues (Allauzen + Yvon)
1. Principe: étendre le mélange de multinomiale pour des données bilingues alignées
2. Données: extrait des débat du parlement européen (par exemple)
Projet 13: génératif ou discriminant ? (Allauzen + Yvon)
1. Principe: implémenter l'apprentissage et l'inférence pour un classifieur Maxent multiclasse
2. Comparer avec un classifieur Naive Bayes
3. Données: filtrage de spam, analyse de critiques de films etc.

TP

Licence Cachan 2012

2010 - 2011

Apprentissage Statistique et Optimisation, Statistical Learning and Optimisation

Courses

Introduction: slides
Bayes: slides
Neurons: slides
Non supervisé: slides
Neurones, suite slides + representation: slides
Markov: slides
Markov suite + regression logistique slides
Optimisation: slides (21 premiers slides traités en cours).

TP

Apprentissage Statistique et Optimisation, Statistical Learning and Optimisation, & Applications

Courses

Annonces internes de stages

Michele Sebag: les sujets 2010 vont arriver; les sujets de l'an dernier sont à http://www.lri.fr/~sebag/Stages

Annonces externes de stages

Onera

2009-2010

Apprentissage et Fouille de Données, Machine Learning and Data Mining, Michèle Sebag & Balázs Kégl.
Evolution Artificielle et Robotique, Evolutionary Computation and Robotics, Marc Schoenauer, Anne Auger et Nicolas Bredèche.

2011 Master

Module Apprentissage, Optimisation et Applications

2008-2009

Apprentissage et Fouille de Données 2008, Machine Learning and Data Mining, Michèle Sebag, Antoine Cornuéjols et Balázs Kégl.

Information	Version
mer. 30 de Nov, 2011 09h41 fyaa from 129.175.15.11	90	Afficher
mer. 30 de Nov, 2011 02h10 sebag from 129.175.15.11	89	Afficher
mer. 30 de Nov, 2011 02h00 sebag from 129.175.15.11	88	Afficher
mar. 29 de Nov, 2011 01h45 sebag from 129.175.15.11	87	Afficher
mar. 29 de Nov, 2011 01h09 sebag from 129.175.15.11	86	Afficher
mar. 29 de Nov, 2011 01h08 sebag from 129.175.15.11	85	Afficher
mar. 29 de Nov, 2011 01h06 sebag from 129.175.15.11	84	Afficher
mar. 15 de Nov, 2011 11h05 sebag from 152.81.65.135	83	Afficher
mar. 15 de Nov, 2011 10h07 sebag from 152.81.65.135	82	Afficher
mar. 15 de Nov, 2011 10h01 sebag from 152.81.65.135	81	Afficher

Historique: Courses

Aperçu de cette version: 84

Departement Informatique, Université Paris-Sud

Ressources

Web sites

TC2

Articles

Projets

TP

Apprentissage Statistique et Optimisation, Statistical Learning and Optimisation

Courses

TP

Apprentissage Statistique et Optimisation, Statistical Learning and Optimisation, & Applications

Courses

Annonces internes de stages

Annonces externes de stages

Module Apprentissage, Optimisation et Applications

Historique