Exploration de texte

L'exploration de textes , ou analyse de données textuelles , est le processus d'extraction d'informations de haute qualité à partir de textes . Elle consiste à « découvrir par ordinateur des informations nouvelles et jusqu'alors inconnues, en extrayant automatiquement des informations de différentes ressources écrites » . Ces ressources peuvent inclure des sites web , des livres , des courriels , des critiques et des articles . L'obtention d'informations de haute qualité passe généralement par la détection de modèles et de tendances, notamment grâce à l'apprentissage statistique . Selon Hotho et al. (2005), l'exploration de textes se divise en trois perspectives : l'extraction d'informations , l'exploration de données et la découverte de connaissances dans les bases de données (KDD) . L'exploration de textes comprend généralement les étapes suivantes : structurer le texte d'entrée (généralement par analyse syntaxique , avec ajout de caractéristiques linguistiques et suppression d'autres, puis insertion dans une base de données ) ; extraire des modèles au sein des données structurées ; et enfin évaluer et interpréter les résultats. En exploration de textes, la « haute qualité » se définit généralement par une combinaison de pertinence , de nouveauté et d'intérêt. Les tâches typiques d'exploration de texte comprennent la catégorisation de texte , le regroupement de texte , l'extraction de concepts/entités, la production de taxonomies granulaires, l'analyse des sentiments , la synthèse de documents et la modélisation des relations entre entités ( c'est-à-dire l'apprentissage des relations entre entités nommées ).

L'analyse textuelle englobe la recherche d'informations , l'analyse lexicale pour étudier la fréquence des mots, la reconnaissance de formes , l'étiquetage / l'annotation , l'extraction d'informations , les techniques d'exploration de données (dont l'analyse des liens et des associations), la visualisation et l'analyse prédictive . Son objectif principal est de transformer le texte en données analysables grâce au traitement automatique du langage naturel (TALN), à différents types d' algorithmes et de méthodes analytiques. L'interprétation des informations recueillies constitue une étape essentielle de ce processus.

Une application typique consiste à analyser un ensemble de documents rédigés en langage naturel , puis à modéliser cet ensemble à des fins de classification prédictive ou à alimenter une base de données ou un index de recherche avec les informations extraites. Le document est l'élément de base de l'exploration de texte. Nous définissons ici un document comme une unité de données textuelles, que l'on retrouve généralement dans de nombreux types de collections.

linguistiques , statistiques et d'apprentissage automatique permettant de modéliser et de structurer le contenu informationnel de sources textuelles à des fins de veille stratégique , d'analyse exploratoire de données , de recherche ou d'enquête. Ce terme est quasiment synonyme d'exploration de texte ; en effet, non structurées , principalement textuelles . Ces techniques et processus permettent de découvrir et de présenter des connaissances – faits, règles métier et relations – qui, autrement, resteraient confinées à une forme textuelle, inaccessibles au traitement automatisé.

processus d'analyse de texte

Les sous-tâches — composantes d'un effort d'analyse textuelle plus vaste — comprennent généralement :

La réduction de dimensionnalité est une technique importante de prétraitement des données. Elle permet d'identifier la racine des mots et de réduire la taille des données textuelles.La recherche d'informations ou l'identification d'un corpus est une étape préparatoire : la collecte ou l'identification d'un ensemble de documents textuels, sur le Web ou stockés dans un système de fichiers , une base de données ou un gestionnaire de corpus de contenu , en vue de leur analyse.
Bien que certains systèmes d'analyse de texte appliquent exclusivement des méthodes statistiques avancées, beaucoup d'autres appliquent un traitement du langage naturel plus étendu , comme l'étiquetage morphosyntaxique , l'analyse syntaxique et d'autres types d'analyse linguistique.
La reconnaissance d'entités nommées consiste à utiliser des répertoires géographiques ou des techniques statistiques pour identifier des éléments textuels nommés : personnes, organisations, noms de lieux, symboles boursiers, certaines abréviations, etc.
La désambiguïsation — l’utilisation d’ indices contextuels — peut être nécessaire pour déterminer si, par exemple, « Ford » peut faire référence à un ancien président américain, à un constructeur automobile, à une vedette de cinéma, à un passage de rivière ou à une autre entité.
Reconnaissance d'entités identifiées par des modèles : des caractéristiques telles que les numéros de téléphone, les adresses e-mail, les quantités (avec unités) peuvent être discernées via des expressions régulières ou d'autres correspondances de modèles .
Regroupement de documents : identification d'ensembles de documents textuels similaires.
Résolution de la coréférence : identification des groupes nominaux et autres termes qui se réfèrent au même objet.
Extraction des relations, des faits et des événements : identification des associations entre les entités et autres informations dans les textes.
L’analyse des sentiments consiste à discerner les éléments subjectifs et à extraire des informations sur les attitudes : sentiments, opinions, humeurs et émotions. Elle s’effectue au niveau des entités, des concepts ou des sujets et vise à distinguer les auteurs d’opinions des objets.
Analyse quantitative de texte : un ensemble de techniques issues des sciences sociales où un juge humain ou un ordinateur extrait les relations sémantiques ou grammaticales entre les mots afin de découvrir le sens ou les modèles stylistiques d'un texte personnel informel, généralement à des fins de profilage psychologique, etc.
Le prétraitement comprend généralement des tâches telles que la tokenisation, le filtrage et la racinisation.

Applications

Les techniques d'exploration de texte sont aujourd'hui largement utilisées pour répondre à divers besoins gouvernementaux, de recherche et commerciaux. Ces différents acteurs peuvent y recourir pour la gestion des archives et la recherche de documents pertinents à leurs activités quotidiennes. Les professionnels du droit, par exemple, peuvent les utiliser pour la recherche de preuves électroniques . Les gouvernements et les forces armées les utilisent à des fins de sécurité nationale et de renseignement. Les chercheurs scientifiques intègrent des approches d'exploration de texte pour organiser de vastes ensembles de données textuelles (notamment pour résoudre le problème des données non structurées ), pour identifier les idées véhiculées par le texte (par exemple, l'analyse des sentiments sur les réseaux sociaux ) et pour soutenir la recherche scientifique dans des domaines tels que les sciences de la vie et la bioinformatique . En entreprise, les applications servent , entre autres, à la veille concurrentielle et au placement publicitaire automatisé .

Applications de sécurité

De nombreux logiciels d'exploration de texte sont commercialisés pour des applications de sécurité , notamment la surveillance et l'analyse de sources de texte en ligne telles que les actualités Internet , les blogs , etc., à des fins de sécurité nationale . Ils sont également impliqués dans l'étude du chiffrement / déchiffrement de texte .

applications biomédicales

Un exemple de protocole d’exploration de texte utilisé dans une étude des complexes protéine-protéine, ou amarrage de protéines

De nombreuses applications d'exploration de textes dans la littérature biomédicale ont été décrites , grâce de données patients clinique de données démographiques issus d'études de population et aux rapports d'événements indésirables, l'exploration de textes peut faciliter les études cliniques et la médecine de précision. Les algorithmes d'exploration de textes peuvent faciliter la stratification et l'indexation d'événements cliniques spécifiques dans de grands ensembles de données textuelles de patients concernant les symptômes, les effets secondaires et les comorbidités, provenant des dossiers médicaux électroniques, des rapports d'événements et des comptes rendus de tests diagnostiques spécifiques . PubGene , un moteur de recherche public qui combine l'exploration de textes biomédicaux et la visualisation de réseaux, est une application d'exploration de textes en ligne dans la littérature biomédicale GoPubMed est un moteur de recherche basé sur les connaissances pour les textes biomédicaux. Les techniques d’exploration de texte nous permettent également d’extraire des connaissances inconnues à partir de documents non structurés dans le domaine clinique

Applications logicielles

Les méthodes et logiciels d'exploration de texte font également l'objet de recherches et de développements de la part de grandes entreprises, telles qu'IBM et Microsoft , afin d'automatiser davantage les processus d'exploration et d'analyse. Différentes entreprises du secteur de la recherche et de l'indexation y travaillent également pour améliorer leurs résultats. Dans le secteur public, d'importants efforts ont été consacrés à la création de logiciels de suivi et de surveillance des activités terroristes . Pour les besoins de la recherche, le logiciel Weka est l'une des options les plus populaires dans le monde scientifique et constitue un excellent point d'entrée pour les débutants. Les programmeurs Python disposent d'une excellente boîte à outils appelée NLTK , adaptée à des usages plus généraux. Les programmeurs plus expérimentés peuvent quant à eux utiliser la bibliothèque Gensim , qui se concentre sur les représentations textuelles basées sur l'intégration de mots.

Applications multimédias en ligne

L'exploration de texte est utilisée par de grands groupes de médias, comme Tribune Company , pour clarifier l'information et offrir aux lecteurs une meilleure expérience de recherche, ce qui, par ricochet, fidélise les visiteurs et augmente les revenus. De plus, côté serveur, les rédacteurs bénéficient de la possibilité de partager, d'associer et de regrouper les actualités sur différentes plateformes, ce qui accroît considérablement les opportunités de monétisation du contenu.

Applications commerciales et marketing

L’analyse textuelle est utilisée dans le monde des affaires, notamment en marketing, comme dans la gestion de la relation client ( CRM ). Coussement et Van den Poel (2008) l’appliquent pour améliorer les modèles d’analyse prédictive du taux d’attrition client . L’exploration de texte est également utilisée pour la prédiction des rendements boursiers.

Analyse des sentiments

L'analyse des sentiments peut porter sur l'analyse de produits tels que des films, des livres ou des avis d'hôtels afin d'estimer le degré de satisfaction associé à un produit. Une telle analyse peut nécessiter un ensemble de données étiquetées ou un étiquetage de l' affectivité des mots. Des ressources concernant l'affectivité des mots et des concepts ont été créées pour WordNet et ConceptNet , respectivement.

Le texte a été utilisé pour détecter les émotions dans le domaine connexe de l'informatique affective. Les approches textuelles de l'informatique affective ont été utilisées sur de multiples corpus tels que les évaluations d'étudiants, les histoires d'enfants et les articles de presse.

Exploration de la littérature scientifique et applications académiques

L'exploration de textes est une question cruciale pour les éditeurs qui gèrent d'importantes bases de données nécessitant un indexage pour la recherche d'informations. C'est particulièrement vrai dans les disciplines scientifiques, où des informations très spécifiques sont souvent contenues dans les textes. C'est pourquoi des initiatives ont été prises, telles que la proposition de Nature pour une interface ouverte d'exploration de textes (OTMI) et la définition commune de type de document (DTD) des Instituts nationaux de la santé (NIH) pour la publication de revues, qui fourniraient aux machines des indices sémantiques pour répondre à des requêtes spécifiques contenues dans le texte, sans pour autant supprimer les barrières d'accès public imposées par les éditeurs.

Les institutions académiques se sont également impliquées dans cette initiative d'exploration de textes :

Le Centre national d'exploration de textes (NaCTeM) est le premier centre d'exploration de textes au monde financé par des fonds publics. NaCTeM est géré par l' Université de Manchester en étroite collaboration avec le laboratoire Tsujii de l'Université de Tokyo . NaCTeM met à disposition des outils personnalisés, des infrastructures de recherche et offre des services de conseil à la communauté scientifique. Il est financé par le Joint Information Systems Committee (JISC) et deux organismes de recherche britanniques ( EPSRC et BBSRC ). Initialement axé sur l'exploration de textes dans les sciences biologiques et biomédicales , ses recherches se sont depuis étendues aux sciences sociales .
Aux États-Unis, l' École d'information de l'Université de Californie à Berkeley développe un programme appelé BioText pour aider les chercheurs en biologie dans l'exploration et l'analyse de textes.
Le portail d'analyse de texte pour la recherche (TAPoR), actuellement hébergé à l' Université de l'Alberta , est un projet universitaire visant à cataloguer les applications d'analyse de texte et à créer un portail pour les chercheurs qui découvrent cette pratique.

Méthodes d'exploration de la littérature scientifique

Des méthodes informatiques ont été développées pour faciliter la recherche d'informations dans la littérature scientifique. Les approches publiées comprennent des méthodes de recherche , de détermination de la nouveauté et de clarification des homonymes parmi les rapports techniques.

Humanités numériques et sociologie computationnelle

L'analyse automatique de vastes corpus textuels permet désormais aux chercheurs d'analyser des millions de documents en plusieurs langues avec une intervention manuelle très limitée. Les technologies clés qui ont permis cette avancée sont l'analyse syntaxique, la traduction automatique , la catégorisation thématique et l'apprentissage automatique.

Réseau narratif des élections américaines de 2012

L'analyse automatique des corpus textuels a permis l'extraction à grande échelle des acteurs et de leurs réseaux relationnels, transformant ainsi les données textuelles en données de réseau. Les réseaux ainsi obtenus, pouvant contenir des milliers de nœuds, sont ensuite analysés à l'aide d'outils issus de la théorie des réseaux afin d'identifier les acteurs clés, les communautés ou parties prenantes essentielles, ainsi que des propriétés générales telles que la robustesse ou la stabilité structurelle du réseau global, ou encore la centralité de certains nœuds. Cette méthode automatise l'approche introduite par l'analyse narrative quantitative, selon laquelle les triplets sujet-verbe-objet sont identifiés à des paires d'acteurs liés par une action, ou à des paires formées par un couple acteur-objet.

L'analyse de contenu est depuis longtemps une discipline traditionnelle des sciences sociales et des études médiatiques. Son automatisation a permis une véritable révolution du « big data » dans ce domaine, avec des études portant sur des millions d'articles de presse et de médias sociaux. Les biais de genre , la lisibilité , la similarité des contenus, les préférences des lecteurs et même l'humeur ont été analysés grâce à des méthodes d'exploration de texte appliquées à des millions de documents. L'analyse de la lisibilité, des biais de genre et des biais thématiques a été démontrée par Flaounas et al. qui ont montré comment différents sujets présentent des biais de genre et des niveaux de lisibilité différents ; la possibilité de détecter des variations d'humeur au sein d'une vaste population grâce à l'analyse du contenu Twitter a également été démontrée.

Logiciel

commerciales et open source .

droit de la propriété intellectuelle

Situation dans l'Union européenne

Vidéo de la campagne Fix Copyright expliquant le TDM et ses problèmes de droits d'auteur dans l'UE, 2016 [3:51

En vertu de la législation européenne sur le droit d'auteur et les bases de données , l'exploration d'œuvres protégées par le droit d'auteur (par exemple, par exploration du Web ) sans l'autorisation du titulaire des droits est autorisée par les articles 3 et 4 de la directive de 2019 sur le droit d'auteur dans le marché unique numérique . Une exception spécifique relative à l'exploration de données topologiques (TDM) pour la recherche scientifique est décrite à l'article 3, tandis qu'une exception plus générale, décrite à l'article 4, ne s'applique que si le titulaire des droits d'auteur n'a pas exercé son droit d'opposition.

En 2013, la Commission européenne a facilité les échanges entre les parties prenantes sur l’exploration de textes et de données , sous l’appellation « Licences pour l’Europe ». Le fait que la solution proposée à ce problème juridique soit axée sur les licences, et non sur les limitations et exceptions au droit d’auteur, a conduit les représentants des universités, des chercheurs, des bibliothèques, des organisations de la société civile et des éditeurs en libre accès à quitter le dialogue en mai 2013.

Situation aux États-Unis

La loi américaine sur le droit d'auteur , et notamment ses dispositions relatives à l'utilisation équitable , considère l'exploration de textes comme légale aux États-Unis, ainsi que dans d'autres pays appliquant cette pratique, tels qu'Israël, Taïwan et la Corée du Sud. L'exploration de textes étant transformative, c'est-à-dire qu'elle ne se substitue pas à l'œuvre originale, elle est jugée licite au titre de l'utilisation équitable. Par exemple, dans le cadre de l' accord conclu avec Google Livres, le juge a statué que le projet de numérisation de livres protégés par le droit d'auteur mené par Google était légal, notamment en raison des utilisations transformatives qu'il illustrait, dont l'exploration de textes et de données.

Situation en Australie

La loi australienne sur le droit d’auteur (Copyright Act 1968 ) ne prévoit aucune exception pour l’exploration de textes ou de données . La Commission australienne de réforme du droit a noté qu’il est peu probable que l’exception d’utilisation équitable « à des fins de recherche et d’étude » puisse s’appliquer à un tel sujet, car cela dépasserait le cadre de la « partie raisonnable ».

Situation au Royaume-Uni

Au Royaume-Uni, en 2014, suite à la recommandation du de limitation et d'exception . Le Royaume-Uni était le deuxième pays au monde à prendre une telle mesure, après le Japon , qui avait introduit une exception spécifique à l'exploration de textes en 2009. Cependant, en raison des restrictions imposées par la directive sur la société de l'information (2001), l'exception britannique n'autorise l'exploration de contenus qu'à des fins non commerciales. La loi britannique sur le droit d'auteur ne permet pas de déroger à cette disposition par des clauses contractuelles.

Implications

Jusqu'à récemment, les sites web utilisaient principalement la recherche textuelle, qui ne trouvait que les documents contenant des mots ou expressions spécifiques définis par l'utilisateur. Désormais, grâce au web sémantique , l'exploration de texte permet de trouver du contenu en fonction de son sens et de son contexte (et non plus seulement d'un mot précis). De plus, les logiciels d'exploration de texte peuvent servir à constituer de vastes dossiers d'informations sur des personnes et des événements spécifiques. Par exemple, de grands ensembles de données, basés sur des informations extraites d'articles de presse, peuvent être créés pour faciliter l'analyse des réseaux sociaux ou le contre-espionnage . En pratique, ces logiciels peuvent jouer un rôle similaire à celui d'un analyste du renseignement ou d'un bibliothécaire de recherche, bien que leur champ d'analyse soit plus restreint. L'exploration de texte est également utilisée dans certains filtres anti-spam pour déterminer les caractéristiques des messages susceptibles d'être des publicités ou autres contenus indésirables. Enfin, elle joue un rôle important dans la détermination du sentiment des marchés financiers .