Article de reference

Collocation

En linguistique de corpus , une collocation est un ensemble de mots ou d'expressions qui apparaissent ensemble plus fréquemment que ne le laisserait supposer le hasard. En phras...

En linguistique de corpus , une collocation est un ensemble de mots ou d'expressions qui apparaissent ensemble plus fréquemment que ne le laisserait supposer le hasard. En phraséologie , une collocation est un type de phraséème compositionnel , c'est-à-dire qu'elle se comprend à partir des mots qui la composent. Cela contraste avec une expression idiomatique , dont le sens global ne peut être déduit de ses parties et qui peut être totalement indépendant de la sienne.

Il existe environ sept principaux types de collocations : adjectif + nom, nom + nom (comme les noms collectifs ), nom + verbe, verbe + nom, adverbe + adjectif, verbes + groupe prépositionnel ( verbes à particule ) et verbe + adverbe.

L'extraction de collocations est une technique informatique qui recherche les collocations dans un document ou un corpus, en utilisant divers éléments de linguistique informatique ressemblant à l'exploration de données .

Définition élargie

Les collocations sont des expressions figées, partiellement ou totalement, qui s'établissent par un usage répété et contextuel. Des expressions comme « d'une clarté cristalline » , « cadres intermédiaires » , « famille nucléaire » et « chirurgie esthétique » sont des exemples de paires de mots colloquées.

Les collocations peuvent être liées par une relation syntaxique (comme verbe-objet : faire et décision ), une relation lexicale (comme l’antonymie ), ou encore ne présenter aucune relation linguistique définie. La connaissance des collocations est essentielle à la maîtrise d’une langue : une phrase grammaticalement correcte paraîtra maladroite si les conventions collocationnelles ne sont pas respectées. C’est pourquoi les collocations constituent un axe central de l’enseignement des langues.

Les linguistes de corpus spécifient un mot-clé dans son contexte ( KWIC ) et identifient les mots qui l'entourent immédiatement, afin d'illustrer la manière dont les mots sont utilisés en pratique.

Le traitement des collocations fait intervenir plusieurs paramètres, dont le plus important est la mesure d'association , qui évalue si la cooccurrence est due au hasard ou est statistiquement significative . Du fait du caractère non aléatoire du langage, la plupart des collocations sont considérées comme significatives, et les scores d'association servent simplement à classer les résultats. Parmi les mesures d'association couramment utilisées figurent l'information mutuelle , le test t et la log-vraisemblance .

Plutôt que de retenir une définition unique, Gledhill propose que la collocation repose sur au moins trois perspectives différentes : la cooccurrence, une approche statistique qui conçoit la collocation comme l’apparition récurrente dans un texte d’un nœud et de ses collocations ; la construction, qui envisage la collocation soit comme une corrélation entre un lexème et un schéma lexico-grammatical, soit comme une relation entre une base et ses partenaires collocatifs ; et l’expression, une conception pragmatique de la collocation comme unité d’expression conventionnelle, indépendamment de sa forme. Ces différentes perspectives contrastent avec la manière habituelle de présenter la collocation dans les études phraséologiques. Traditionnellement, la collocation est expliquée simultanément selon ces trois perspectives, dans un continuum.

combinaison libre ↔ collocation liée ↔ expression figée

Dans les dictionnaires

En 1933, le second rapport intérimaire d' Harold Palmer sur les collocations anglaises soulignait l'importance de ces dernières pour produire un langage naturel, notamment pour les apprenants de langues étrangères. Ainsi, dès les années 1940, les informations sur les combinaisons de mots récurrentes sont devenues une caractéristique standard des dictionnaires destinés aux apprenants monolingues . À mesure que ces dictionnaires se concentraient moins sur les mots et davantage sur les syntagmes, une attention accrue a été portée aux collocations. Cette tendance a été soutenue, dès le début du XXIe siècle, par la disponibilité de vastes corpus textuels et de logiciels d'interrogation de corpus performants , permettant une présentation plus systématique des collocations dans les dictionnaires. Grâce à ces outils, des dictionnaires tels que le Macmillan English Dictionary et le Longman Dictionary of Contemporary English ont inclus des encadrés ou des panneaux répertoriant les collocations fréquentes.

Il existe également un certain nombre de dictionnaires spécialisés consacrés à la description des collocations fréquentes dans une langue. Parmi ceux-ci, on peut citer (pour l'espagnol) Redes : Diccionario combinatorio del español contemporaneo (2004), (pour le français) Le Robert : Dictionnaire des combinaisons de mots (2007), et (pour l'anglais) le LTP Dictionary of Selected Collocations (1997) et le Macmillan Collocations Dictionary (2010).

Collocation statistiquement significative

Le test t de Student permet de déterminer si la présence d'une collocation dans un corpus est statistiquement significative. Pour un bigramme , soit la probabilité inconditionnelle de sa présence dans un corpus de taille , et soit la probabilité inconditionnelle de sa présence dans le corpus . Le score t du bigramme est calculé comme suit :

où est la moyenne de l'échantillon de l'occurrence de , est le nombre d'occurrences de , est la probabilité de sous l'hypothèse nulle selon laquelle et apparaissent indépendamment dans le texte, et est la variance de l'échantillon. Avec un grand , le test t est équivalent à un test Z.