Article de reference

extraction de collocation

L'extraction de collocations est la tâche consistant à utiliser un ordinateur pour extraire automatiquement les collocations d'un corpus . La méthode traditionnelle d'extraction...

L'extraction de collocations est la tâche consistant à utiliser un ordinateur pour extraire automatiquement les collocations d'un corpus .

La méthode traditionnelle d'extraction de collocations consiste à trouver une formule, basée sur les quantités statistiques de ces mots, pour calculer un score associé à chaque paire de mots. Les formules proposées sont l'information mutuelle , le test t , le test z , le test du chi carré et le rapport de vraisemblance .

En linguistique de corpus , une collocation est définie comme une séquence de mots ou d'expressions qui apparaissent ensemble plus fréquemment que ne le laisserait supposer le hasard. « Crystal clear », « middle management », « nuclear family » et « cosmetic surgery » sont des exemples de paires de mots colloquées. Certains mots sont souvent associés car ils forment un nom composé , comme « riding boots », « motor cyclist » ou encore « collocation extraction ».