CG : nf
CT : On appelle désambiguïsation lexicale l’opération qui consiste à déterminer le sens d’un mot en contexte. Par exemple, le mot barrage peut référer à un barrage hydraulique, un barrage de police, un barrage de guitare, etc. La désambiguïsation lexicale est un composant nécessaire à de nombreuses applications du traitement automatique des langues.
La plupart des mots d’une langue ont de multiples sens, qui résultent d’une évolution historique complexe, comme c’est le cas pour le mot barrage ci-dessus. Parfois, les formes sont même homographes, c’est-à-dire que leur parenté graphique résulte d’un pur accident hors de toute parenté étymologique (comme pour le mot avocat, fruit ou auxiliaire de justice).
La discrimination du sens des mots est une composante utile, voire indispensable, par exemple pour :
- la traduction automatique : le mot grille sera traduit en anglais par des mots totalement différents (railings, gate, bar, grid, scale, schedule, etc.) selon son sens ;
- la recherche d’informations : lors d’une recherche sur les recettes à base d’avocat, il serait intéressant de ne pas ramener les documents parlant de justice ;
- la synthèse de la parole : le mot fils doit être phonétisé différemment dans les fils du Ciel et les fils de fer ; etc.
L’automatisation de la tâche de désambiguïsation lexicale est un problème reconnu comme extrêmement difficile dès les débuts du traitement automatique des langues.
S : http://www.technolangue.net/imprimer.php3?id_article=294 (consulté le 21.06.2014)
N : 1. désambiguïsation (nf) : Action de désambiguïser ; résultat de cette action. Du verbe transitif désambiguïser, milieu XXe, de dés- (du latin classique dis-, élément de composition utilisé comme préfixe pour exprimer l’idée de cessation ou de privation, pour former le contraire d’un verbe ou d’un substantif), et ambigu (XVe siècle. Emprunté du latin ambiguus, dérivé du verbe ambigere, « être incertain, indécis »). Ling. Log. Faire cesser l’ambiguïté de (un énoncé) en ne retenant qu’un seul sens.
lexicale (adj): lexical, -ale, XIXe siècle. Dérivé de lexique. Relatif au lexique.
2. L’activité langagière s’inscrit toujours dans un contexte d’interaction entre deux humains, sensément dotés d’une connaissance du monde et de son fonctionnement telle que l’immense majorité des éléments de contexte nécessaires à la désambiguïsation mais aussi à la compréhension d’un énoncé naturelpeuvent rester implicites. La situation change du tout au tout dès qu’une machine tente de s’insérer dansun processus de communication naturel avec un humain : la machine ne dispose pas de cette connaissance d’arrière-plan, ce qui rend la compréhension complète de la majorité des énoncés difficile, voire impossible,si l’on ne dispose pas de bases de connaissance additionnelles, donnant accès à la fois à un savoir sur le monde (ou le domaine) en général (connaissance statique) et sur le contexte de l’énonciation (connaissance dynamique).
3. Les systèmes de désambiguïsation lexicale doivent mettre en relation les occurrences de mots en contexte avec les entrées d’un dictionnaire informatisé ou d’une base de données lexicale. Les informations qui peuvent être exploitées proviennent principalement des mots voisins du mot à désambiguïser (mot-cible). Ainsi, la présence des mots tels que eau, lac, turbine est un indice fort pour le choix du sens barrage hydraulique, tandis que celle de mots tels que poids lourds, camionneurs, etc. est un indice pour le choix de barrage routier. D’autres indices peuvent également être exploités, comme le domaine général du texte dans lequel se situe le mot-cible.
Les difficultés de la désambiguïsation lexicale sont au moins de deux ordres :
- La liste des sens du dictionnaire qui sert de référence. En effet, les dictionnaires traditionnels sont plutôt destinés à la consultation par des humains qu’à une utilisation par des machines. Les subdivisions se sens n’y ont donc pas nécessairement le caractère systématique qui serait nécessaire pour une utilisation algorithmique.
- Les connaissances qui permettent d’associer les mots du contexte avec le sens adéquat. À l’heure actuelle il n’existe pas de base de connaissances détaillée des relations du type eau – barrage hydraulique, etc. La constitution manuelle de telles bases serait d’ailleurs une entreprise gigantesque et sans doute hors de portée pour des décennies.
Malgré de nombreux essais depuis les années 1950, ce n’est que très récemment que des progrès significatifs ont pu être enregistrés, grâce à l’émergence de méthodes probabilistes qui permettent de pallier le manque de connaissances explicites par un apprentissage de nature statistique des coocurrences sur de très grands corpus de textes. L’inadéquation des dictionnaires reste cependant un écueil qui ne semble pas avoir de solution immédiate
4. désambiguïsation sémantique lexicale.
S : 1. LPR p. 698 ; DAF ; FCB. 2. http://perso.limsi.fr/anne/coursM2R/intro.pdf (consulté le 21.06.2014). 3. http://www.technolangue.net/imprimer.php3?id_article=294 (consulté le 21.06.2014). 4. http://jacqueminb.free.fr/Tvx/HTMLthese/thesese6.html (consulté le 21.06.2014).
VO : désambigüisation
S : DOFF p. 249
SYN :
S :