Chargement...
 

fouille de texte




1. Introduction et historique


Test de Turing
Décrit par Alan Turing en 1950 dans sa publication « Computing machinery and intelligence » (wikipedia)

1.1 Débuts de l'Intelligence Artificielle


1.2 Complexité du langage naturel


1.3 Objectifs initiaux de la fouille de textes


1.4 Objectifs actuels de la fouille de textes


//Plan d'ensemble du cours :
//les corpus de textes sont traités à l'aide de ressources par des outils inclus dans des chaines de traitements et pour une tâche donnée

2. Tâches


2.1 Traduction

Traduire d'une langue vers une autre un texte.

2.2 Question-Réponse

MUC
Analyse de la question et des documents où doit se trouver la réponse
Tri des documents selon leur pertinence
Affichage des documents pertinents
Google

2.3 Catégorisation de textes

Par thème, par auteur

2.3.1 Filtrage des courriels indésirables

TREC depuis 1992
Text REtrieval Conference (http://trec.nist.gov/)
Attribuer un niveau d'indésirabilité pour chaque courriel
Analyse des en-têtes et du corps des messages
Règles établies manuellement avec pondération par un réseau de neurone : SpamAssassin
Bayésien naïf : Bogofilter
Exemple d'actualité : le Phishing
Consiste à usurper l'identité d'une société pour obtenir des informations confidentielles auprès de ses clients.

2.3.2 DEfi Fouille de Textes (DEFT)

(http://www.lri.fr/ia/fdt/DEFT/)
DEFT'05 : Identifier un locuteur particulier parmi deux locuteurs
Discours politiques prononcés par les présidents J. Chirac et F. Mitterrand

DEFT'06 : Identifier les sections thématiques d'un document
Trois corpus différents : discours politiques, ouvrage scientifique, textes de lois européens

2.4 Autres tâches récentes


2.4.1 Veille technologique (Economic Intelligence)

Trouver des informations nouvelles sur une société, un produit sur la Toile.
Attribuer une opinion positive ou négative pour une société ou un produit à partir des documents là concernant.

2.4.2 Implication textuelle (Textual entailment)

Déterminer si un texte implique un autre texte au niveau de son sens.
http://www.cs.biu.ac.il/~glikmao/rte05/index.html

2.4.3 Toile sémantique (Semantic Web)

Basé sur l'utilisation des standards XML, RDF, OWL, ...
Annoter sémantiquement les documents de la Toile à l'aide de balises sémantiques
Calculer une mesure de similarité entre documents à partir des balises sémantiques des pages, des balises non sémantiques et du contenu des balises

//Assistants intelligents


3. Définitions


3.1 Éléments des textes traités


3.1.1 Mot

1. une suite de symboles différents d'une ponctuation séparés par des ponctuations
2. une unité minimale de signification appartenant au lexique appelé lexème

3.1.2 Étiquette

Annotation d'un mot qui peut être grammaticale ou sémantique
Exemple : Nom, Verbe ou Lieu, Date

3.1.3 Relation

Annotation d'une relation entre deux ou plusieurs mots qui peut être grammaticale ou sémantique
Exemple : sujet-verbe ou partie-de

3.1.4 Entité Nommée



3.1.5 Terme

expression possèdant un sens donné pour un domaine spécifique

3.1.6 Collocation

expression dont le sens global est différent de la somme du sens de ses unités, une des unités modifiant le sens de l'autre

3.2 Ressources de traitement


3.2.1 Corpus de textes

Ensemble de textes homogènes

3.2.2 Lexique de mots

Liste de mots associés à une plusieurs catégories

3.2.3 Ensemble de règles

étiquetage, relations syntaxiques
non contextuelle : mot terminé par un s -> étiquette pluriel
contextuelle : mots suivant un nombre autre que 1 -> étiquette pluriel

3.2.4 Ontologie de concepts

Ensemble de mots et/ou concept et de relations entre eux


4 Chaine de traitements


4.1 Chaine générale

suite d'étapes indépendantes (dans la littérature)
décliner la chaine pour chacune des taches

4.2 Modules

4..21 Normalisation

segmenteur (tokenizer)
découper en mots, phrases un texte
lemmatiseur
mettre tous les mots au masculin singulier

Les prétraitements des données textuelles consistent à

{\bf normaliser} les diverses manières d'écrire un même mot,
{\bf corriger} les fautes d'orthographe évidentes ou les incohérences typographiques
{\bf expliciter} certaines informations lexicales exprimées implicitement dans les textes.

Les traitements pour ce dernier cas consistent, par exemple, à
remplacer l'élision \emph{l'} par les articles \emph{le, la, les}
correspondant ou à extraire la structure superficielle des textes à partir
d'indices comme une ligne vide pour délimiter les paragraphes.


4.2.2 Étiquetage

fonctions grammaticales
supervisé / non supervisé
règles + stat : brill
stat

RN
voir la thèse d'Ahmed

4.2.3 Extraction d'entités nommées

entité nommées : lieu, date, organisation, personne

5. Applications


5.1 Question-Réponse


5.2 Catégorisation de textes

sac de mots : ngramms
LSA
SVM : noyeaux string dédiés (produit vectoriel de ngramms)
- > these de Thorsten Joachim
Probabilistic LSI (Thomas Hofman)

5.3 Terminologie

extraction des termes les plus pertinents pour le domaine du texte analysé

// Random Projection


6. Discussions, résultats et perspectives


6.1 Taille des données


6.1.1 Taille des ressources


6.1.2 Proportion du corpus annoté


6.1.3 Fouille de données massives / restreintes


6.2 Réutilisabilité des ressources


6.2.1 Indépendance des ressources

Transfert d'une ressource entre différents domaines
Indépendance des règles par rapports aux domaines

6.2.2 Spécificité du corpus traité

Domaine restreint / mutliples domaines

6.3 Résultats actuels

outils efficaces : étiquetage grammatical, extraction d'entités nommées
tâches résolues partiellement : question-réponse, catégorisation de textes

6.4 Perspectives

outils à développer : normalisation
tâches à développer : traduction, Toile sémantique, etc.

7. Bibliographie

Walter Daelemans, Véronique Hoste, Fien De Meulder, Bart Naudts: Combined Optimization of Feature Selection and Algorithm Parameters in Machine Learning of Language. ECML 2003: 84-95

Yiming Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, Vol 1, No. 1/2, pp 67--88, 1999.

7.1 active learning

N. Cesa-Bianchi, A. Conconi, and C. Gentile
On the generalization ability of on-line learning algorithms.
IEEE Transactions on Information Theory, 50(9):2050-2057, 2004.

Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/)
Eric Brill, Raymond J. Mooney: An Overview of Empirical Natural Language Processing. AI Magazine 18(4): 13-24 (1997)

Craig Saunders, David R. Hardoon, John Shawe-Taylor, Gerhard Widmer: Using String Kernels to identify Famous Performers from Their Playing Style. ECML 2004: 384-395

Collaborateur(s) de cette page: sebag , thomas , aze et evomarc .
Page dernièrement modifiée le Dimanche 15 janvier 2006 23:42:48 CET par sebag.