Article de reference

Annotation

( Apprenez comment et quand supprimer ce message ) Une annotation est une information supplémentaire associée à un point précis d'un document ou d'une autre information. Il peut...

( Apprenez comment et quand supprimer ce message )

Une annotation est une information supplémentaire associée à un point précis d'un document ou d'une autre information. Il peut s'agir d'une note contenant un commentaire ou une explication. Les annotations sont parfois présentées en marge des pages de livres . Pour les annotations de différents supports numériques, voir annotation web et annotation de texte .

Littérature, grammaire et objectifs éducatifs

Pratiquer visuellement

Les pratiques d'annotation consistent à surligner une phrase ou un passage et à ajouter un commentaire, à entourer un mot nécessitant une définition, à poser une question en cas d'incompréhension et à rédiger un court résumé d'une section clé. Elles invitent également les élèves à « (re)construire une histoire par le biais d'une interaction avec le matériel et de pratiques d'annotation DIY (Do-It-Yourself) stimulantes ».

Annotation du texte et du film

L'annotation de textes et de films est une technique qui consiste à intégrer des commentaires ou des notes textuelles dans un film. L'analyse vidéo est une entreprise qui n'est jamais totalement exempte d'idées préconçues, et la première étape pour les chercheurs est de se situer dans le champ des approches de recherche possibles et ainsi de réfléchir à leurs propres hypothèses de base. Les annotations peuvent être intégrées à la vidéo et utilisées dès l'enregistrement. Elles servent d'outil, en analyse de textes et de films, pour exprimer ses pensées et ses émotions. À différentes étapes de l'analyse, elles peuvent être complétées par d'autres annotations. L'anthropologue Clifford Geertz parle de « description dense ». Cette expression permet de saisir l'utilité de l'annotation, notamment en expliquant comment elle peut être mise en œuvre dans un film.

marginalia médiévale

Annotation d'un texte du XVe siècle

Les annotations marginales sont des notes ou des dessins figurant dans les marges des manuscrits. Les lecteurs avaient coutume d'écrire des notes dans les marges des livres afin d'en faciliter la compréhension pour les lecteurs ultérieurs.

Étude textuelle

L’analyse textuelle est une discipline qui utilise souvent la technique de l’annotation pour décrire ou ajouter un contexte historique supplémentaire aux textes et aux documents physiques afin de faciliter leur compréhension.

Éducation

Passages surlignés au stylo

Les élèves surlignent souvent des passages dans les livres afin de s'impliquer activement dans la lecture. Ils peuvent utiliser des annotations pour retrouver facilement des expressions clés ou ajouter des notes marginales pour faciliter leur étude et établir des liens entre le texte, leurs connaissances antérieures ou les thèmes récurrents. L'annotation est souvent proposée aux élèves du secondaire comme moyen de favoriser leur implication dans la lecture.

Les bibliographies annotées ajoutent des commentaires sur la pertinence ou la qualité de chaque source, en plus des informations bibliographiques habituelles qui se contentent d'identifier la source.

Les étudiants utilisent l'annotation non seulement à des fins académiques, mais aussi pour interpréter leurs propres pensées, sentiments et émotions.

Annotation d'expressions mathématiques

Les expressions mathématiques (symboles et formules) peuvent être annotées avec leur signification en langage naturel. Ceci est essentiel pour lever les ambiguïtés, car les symboles peuvent avoir différentes significations (par exemple, « E » peut signifier « énergie » ou « espérance mathématique », etc.). Le processus d’annotation peut être facilité et accéléré par des recommandations, par exemple en utilisant le système « AnnoMathTeX » hébergé par Wikimedia.

Apprentissage et enseignement

D'un point de vue cognitif, l'annotation joue un rôle important dans l'apprentissage et l'enseignement. Dans le cadre de la prise de conscience guidée, elle consiste à mettre en évidence, nommer ou étiqueter et commenter des aspects des représentations visuelles afin d'aider les apprenants à focaliser leur attention sur des éléments visuels spécifiques. Autrement dit, il s'agit d'associer des représentations typologiques (catégories culturellement pertinentes) à des représentations topologiques (par exemple, des images). Ceci est particulièrement important lorsque des experts, tels que des médecins, interprètent des visualisations en détail et expliquent leurs interprétations à d'autres, par exemple au moyen de technologies numériques. Dans ce cas, l'annotation peut permettre d'établir un terrain d'entente entre des interlocuteurs ayant différents niveaux de connaissances. La valeur de l'annotation a été confirmée empiriquement, notamment par une étude montrant que, lors de téléconsultations assistées par ordinateur, l'intégration de l'annotation d'images et de la parole améliore significativement l'échange de connaissances par rapport à l'utilisation d'images et de la parole sans annotation.

Sur YouTube

Les annotations ont été supprimées de YouTube le 15 janvier 2019 après une dizaine d'années de service. Elles permettaient aux utilisateurs d'ajouter des informations qui s'affichaient pendant les vidéos, mais YouTube a indiqué qu'elles ne fonctionnaient pas correctement sur les petits écrans mobiles et qu'elles étaient utilisées à mauvais escient.

Logiciels et ingénierie

Documents textuels

Les langages de balisage comme XML et HTML annotent le texte d'une manière syntaxiquement distincte de ce texte. Ils peuvent être utilisés pour ajouter des informations sur la présentation visuelle souhaitée, ou des informations sémantiques lisibles par machine, comme dans le Web sémantique .

Données tabulaires

Cela inclut les formats CSV et XLS . Le processus d'attribution d'annotations sémantiques aux données tabulaires est appelé étiquetage sémantique. L'étiquetage sémantique consiste à attribuer des annotations issues d' ontologies aux données tabulaires. Ce processus est également appelé annotation sémantique. L'étiquetage sémantique est souvent réalisé de manière (semi-)automatique. Les techniques d'étiquetage sémantique fonctionnent sur les colonnes d'entités, les colonnes numériques, les coordonnées, et plus encore.

Techniques d'étiquetage sémantique

Il existe plusieurs types d'étiquetage sémantique utilisant des techniques d'apprentissage automatique. Ces techniques peuvent être catégorisées selon les travaux de Flach comme suit : géométriques (utilisant des lignes et des plans, comme les machines à vecteurs de support et la régression linéaire ), probabilistes (par exemple, les champs aléatoires conditionnels ), logiques (par exemple, l'apprentissage par arbres de décision ) et techniques non issues de l'apprentissage automatique (par exemple, l'équilibrage de la couverture et de la spécificité ). Il est important de noter que les modèles d'apprentissage automatique géométriques, probabilistes et logiques ne sont pas mutuellement exclusifs.

Techniques géométriques

Pham et al. utilisent l'indice de Jaccard et la similarité TF-IDF pour les données textuelles et le test de Kolmogorov-Smirnov pour les données numériques. Alobaid et Corcho utilisent le clustering flou (c-means ) pour étiqueter les colonnes numériques.

Techniques probabilistes

Limaye et al. utilisent la similarité TF-IDF et des modèles graphiques . Ils emploient également une machine à vecteurs de support pour calculer les poids. Venetis et al. construisent une base de données isA constituée de paires (instance, classe) et calculent ensuite le maximum de vraisemblance à partir de ces paires. Alobaid et Corcho ont approximé le diagramme quantile-quantile (QQ plot) pour prédire les propriétés des colonnes numériques.

Techniques logiques

Syed et al. ont créé Wikitology, une base de connaissances hybride composée d'informations structurées et non structurées extraites de Wikipédia et enrichie de données RDF provenant de DBpedia et d'autres ressources de données liées. Pour l'index de Wikitology, ils utilisent le PageRank pour la liaison des entités , une tâche fréquemment employée en étiquetage sémantique. N'ayant pas pu interroger Google pour obtenir le PageRank de tous les articles de Wikipédia , ils ont utilisé un arbre de décision pour l'approximer.

Techniques non-ML

Alobaid et Corcho ont présenté une approche d'annotation des colonnes d'entités. Cette technique consiste à annoter les cellules de la colonne d'entités avec les entités issues du graphe de connaissances de référence (par exemple, DBpedia ). Les classes sont ensuite regroupées et chacune d'elles est évaluée selon plusieurs formules qu'ils ont présentées, prenant en compte la fréquence de chaque classe et sa profondeur dans la hiérarchie des sous-classes.

tâches courantes d'étiquetage sémantique

Voici quelques-unes des tâches d'étiquetage sémantique courantes présentées dans la littérature :

Liaison et désambiguïsation des entités

Il s'agit de la tâche la plus courante en étiquetage sémantique. Étant donné le texte d'une cellule et une source de données, cette approche prédit l'entité et la relie à celle identifiée dans la source de données. Par exemple, si l'entrée est le texte « Richard Feynman » et l'URL du point d'accès SPARQL de DBpedia, l'approche renverra « http://dbpedia.org/resource/Richard_Feynman », qui correspond à l'entité dans DBpedia. Certaines approches utilisent une correspondance exacte , tandis que d'autres utilisent des métriques de similarité telles que la similarité cosinus

Identification de la colonne du sujet

La colonne « Sujet » d’une table est celle qui contient les principaux sujets/entités de la table. Certaines approches nécessitent la colonne « Sujet » en entrée tandis que d’autres la prédisent, comme TableMiner+.

Détection du type de données de colonne

Les types de colonnes sont divisés différemment selon les approches. Certains les divisent en chaînes de caractères/texte et nombres tandis que d'autres les divisent davantage (par exemple, typologie numérique, Date, coordonnées ).

Prédiction des relations

La relation entre Madrid et l'Espagne est « capitalOf » . De telles relations se retrouvent facilement dans les ontologies, comme DBpedia . Venetis et al. utilisent TextRunner pour extraire la relation entre deux colonnes. Syed et al. utilisent la relation entre les entités des deux colonnes et sélectionnent la relation la plus fréquente.

normes de référence

T2D est la référence la plus courante en matière d'étiquetage sémantique. Il existe deux versions de T2D : T2Dv1 (parfois également appelée T2D) et T2Dv2. D'autres benchmarks connus sont publiés dans le cadre du SemTab Challenge.

Contrôle de source

La fonction « annotate » (également appelée « blame » ou « praise ») utilisée dans les systèmes de gestion de versions tels que Git , Team Foundation Server et Subversion permet d'identifier les contributeurs ayant intégré des modifications au code source dans le dépôt. Elle génère une copie du code source où chaque ligne est annotée avec le nom du dernier contributeur l'ayant modifiée (et éventuellement un numéro de révision). Ceci peut s'avérer utile pour déterminer les responsabilités en cas de dysfonctionnement causé par une modification, ou pour identifier l'auteur d'un code particulièrement réussi.

Programmation

annotations Java

Le langage de programmation Java constitue un cas particulier : les annotations y sont utilisées comme une forme spécifique de métadonnées syntaxiques dans le code source et peuvent être manipulées par programmation réflexive . Les classes, les méthodes, les variables, les paramètres et les packages peuvent être annotés. Ces annotations peuvent être intégrées aux fichiers de classe générés par le compilateur et conservées par la machine virtuelle Java , influençant ainsi le comportement d'exécution de l'application. Il est possible de créer des méta-annotations à partir des annotations existantes en Java

D'autres langages, comme C# , possèdent une fonctionnalité similaire appelée « attributs ». C++ propose des « attributs » qui permettent au programmeur de donner des indications au compilateur , et C++26 introduit des annotations de réflexion similaires aux annotations Java.

Annotation d'image

L'annotation automatique d'images est utilisée pour classer les images dans les systèmes de recherche d'images .

biologie computationnelle

Depuis les années 1980, la biologie moléculaire et la bioinformatique ont engendré le besoin d' annotation de l'ADN . L'annotation de l'ADN, ou annotation du génome, consiste à identifier la localisation des gènes et de toutes les régions codantes d'un génome, ainsi qu'à déterminer leur fonction. Une annotation (quel que soit le contexte) est une note ajoutée à titre d'explication ou de commentaire. Une fois le séquençage d'un génome effectué, son annotation est indispensable à son interprétation.

Imagerie numérique

Dans la communauté de l'imagerie numérique, le terme annotation est couramment utilisé pour les métadonnées visibles superposées à une image sans modifier l'image maître sous-jacente, telles que les notes autocollantes , les pointeurs laser virtuels, les cercles, les flèches et les zones noircies (cf. rédaction ).

Dans le domaine de l'imagerie médicale , une annotation est souvent appelée région d'intérêt et est encodée au format DICOM .

Autres utilisations

Loi

Aux États-Unis, des éditeurs juridiques tels que Thomson West et LexisNexis publient des versions annotées des lois , fournissant des informations sur la jurisprudence relative à leur interprétation. Le Code fédéral des États-Unis et les lois des États sont tous deux sujets à interprétation par les tribunaux , et les versions annotées constituent des outils précieux pour la recherche juridique .

Linguistique

L'annotation a notamment pour but de transformer les données en un format adapté à l'analyse assistée par ordinateur. Avant l'annotation, un schéma d'annotation est défini, généralement composé d'étiquettes. Lors de l'étiquetage, les transcripteurs ajoutent manuellement des étiquettes aux transcriptions, en identifiant les caractéristiques linguistiques requises dans un éditeur d'annotations. Ce schéma garantit la cohérence de l'ajout des étiquettes dans l'ensemble des données et permet la vérification des données déjà étiquetées. Outre les étiquettes, des formes plus complexes d'annotation linguistique incluent l'annotation de syntagmes et de relations, par exemple dans les corpus arborescents . De nombreuses formes d'annotation linguistique ont été développées, ainsi que différents formats et outils pour la création et la gestion des annotations linguistiques, comme décrit, par exemple, dans le Linguistic Annotation Wiki.