Module Apprentissage et Fouille de Données
Michèle Sebag,
Balázs Kégl,
Antoine Cornuéjols.
Horaires Examen 9 Janvier / Schedule Exam Friday January 9th Salle 101
10h-10h30 | Clement de Groc | Active Learning
|
10h30-11h | Ludovic Arnold | Large Scale Learning
|
11h-11h30 | Abderahmane Feliachi | Distance Metric Learning
|
-- | Sameh Hamrouni | Multi-task Learning
|
Horaires Examen 19 Decembre / Schedule Exam Friday December 19th Salle/ Room 101.
9h00 - 9h30 | Jana Hlavacikova | Structured Metric Learning
|
9h30 - 10h | Pierre Delarboulas | Learning Classifiers from Only Positive and Unlabeled Data
|
10h - 10h30 | Micheline Elias | Topic and role discovery in social networks
|
10h30 - 11h00 | Dhafer Lahbib | Mining High Speed Data Streams
|
11h00 - 11h30 | Amir Seyedi | Netflix
|
11h45 - 12h15 | Souhir Gahbiche | Get Another Label? Improving Data Quality and Data Mining
|
12h15 - 12h45 | Adeel Anjum | Group and Topic Discovery from Relations and Their Attributes
|
14h00 - 14h30 | Ahmed Mohamed | Learning Classifiers from Only Positive and Unlabeled
|
14h30 - 15h00 | Sameh Hamrouni | Multi-Task Learning
|
1/10 | (MS) | Introduction, arbres de décision, (illustration sur Skicat et Darpa Challenge 2005) | arbres de décision
|
8/10 | (BK) | Boosting (illustration sur les caractères manuscrits), classification | classification
|
| | | Lectures: boosting tutorial multiclass boosting face detection
|
15/10 | (BK) | Boosting (suite), réseaux de neurones | réseaux de neurones
|
22/10 | (BK) | Filtrage collaboratif (challenge Netflix); régression et ranking |
|
29/10 | (MS) | Représentation, sélection d'attributs et réduction de dimensionalité, application aux systèmes computationels autonomes (Autonomic Computing) | Representation, une erreur de méthologie, analyse par Hastie
|
5/11 | (AC) | Généralités sur l'apprentissage inductif supervisé, Apprentissage actif | Transition de phase
|
12/11 | (AC) | Apprentissage en-ligne. Apprentissage par renforcement | Transparents, Chapitre).
|
19/11 | (MS) | Apprentissage non supervisé et data streaming | Clustering,Streaming
|
26/11 | | Vacances
|
3/12 | | Exam ecrit questions de cours. Voir pour un exemple : texte de l'examen de 2005. (NB: la partie 3 n'est plus au programme du module).
|
19 /12 | | Exposé d'article ou de projet |
Projets
- Ludovic Arnold Large Scale Learning: strategies naives de selection des vecteurs supports. (MS)
- Bases de données visage (AC et BK)
- Amir Seyedi Collaborative filtering (BK)
- Netflix + base données semi-privées LastFM.
- Logs robotique, réduction de dimensionalité (MS).
- Données : contacter MS.
- Algorithme : Information bottleneck et/ou deep learning.
- Clément de Groc Active learning: identification de pages de cours en Computer Science (AC, BK et MS).
- Constitution de training (donner chacun trois exemples positifs). Interet, etudiant peut etre l'expert.
- Algorithme Filterboost décrit ds Nips 2007, Schapire et al. (code décrit ds l'article; réputé efficace).
- Apprentissage par renforcement (AC)
- Deplacement d'un robot dans un monde 2D.
- Illustration des difficultés de passage à l'echelle et résolution du pb de généralisation.
- Projet guidé par AC. Demande forte motivation pour l'apprentissage par renforcement.
- Apprentissage de séries temporelles (MS + AC)
- Algorithme: Echo State Network
- Reproduire l'expérience ds le XX.
Articles.
- Pierre Delarboulas Spectral Domain-Transfer Learning. Xiao Ling, Wenyuan Dai, Gui-Rong Xue, Qiang Yang, Yong Yu. (KDD-08)
- Jana Hlavacikova Structured Metric Learning for High Dimensional Problems. Jason V. Davis, Inderjit S. Dhillon. (KDD-08)
- Souhir GAHBICHE : Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers. Victor Sheng, Foster Provost, Panagiotis G. Ipeirotis. (KDD-08)
- Dhafer LAHBIB Mining High Speed Data Streams, Pedro Domingos, Geoffrey Hulten, KDD-00
- Extending decision trees to Data streaming
- Adeel ANJUM Group and Topic Discovery from Relations and Their Attributes Xuerui Wang, Natasha Mohanty and Andrew McCallum. NIPS 06
- Applied to the voting records from the U.S. Senate, showing that different groupings of legislators emerge from different topics...
- Sameh HAROUNI Multi-Task Learning for HIV Therapy Screening Steffen Bickel, Jasmina Bogojeska, Thomas Lengauer, and Tobias Scheffer, ICML 08
- Using data from different distributions; how ?
- Micheline ELIAS Topic and Role Discovery in Social Networks Andrew McCallum, Andres Corrada-Emmanuel and Xuerui Wang. IJCAI, 2005.
- Discover roles by social network analysis with a Bayesian network; Experiments with Enron email and academic email.
- Ahmed MOHAMED Learning Classifiers from Only Positive and Unlabeled Data, C. Elkan and K. Noto, KDD08
- Distance Metric Learning for Large Margin Nearest Neighbor Classification Kilian Weinberger, John Blitzer, Lawrence Saul, NIPS 2005
- Recognition and Reproduction of Gestures using a Probabilistic Framework combining PCA, ICA and HMM
S. Calinon and A. Billard, ICML 2005
Articles à exposer (10 minutes) pour les volontaires