Article de reference

Metadata

In the 21st century, metadata typically refers to digital forms, but traditional card catalogs contain metadata, with cards holding information about books in a library (author,...

In the 21st century, metadata typically refers to digital forms, but traditional card catalogs contain metadata, with cards holding information about books in a library (author, title, subject, etc.).

Metadata (or metainformation) is data (or information) that defines and describes the characteristics of other data. It often helps to describe, explain, locate, or otherwise make data easier to retrieve, use, or manage. For example, the title, author, and publication date of a book are metadata about the book. But, while a data asset is finite, its metadata is infinite.

As such, efforts to define, classify types, or structure metadata are expressed as examples in the context of its use. The term "metadata" has a history dating to the 1960s where it occurred in computer science and in popular culture. Different types of metadata serve different functions. For example, descriptive metadata for a document might include the author, creation date, file size and keywords.

Metadata has various purposes. It can help users find relevant information and discover resources. It can also help organize electronic resources, provide digital identification, and archive and preserve resources. Metadata allows users to access resources by "allowing resources to be found by relevant criteria, identifying resources, bringing similar resources together, distinguishing dissimilar resources, and giving location information". Metadata of telecommunication activities including Internet traffic is very widely collected by various national governmental organizations. This data is used for the purposes of traffic analysis and can be used for mass surveillance.

Des normes de métadonnées spécifiques existent pour différentes disciplines ( collections muséales , fichiers audio numériques , sites web , etc.). La description du contenu et du contexte des données ou des fichiers de données accroît leur utilité. Par exemple, une page web peut inclure des métadonnées précisant le langage de programmation utilisé ( HTML , par exemple ), les outils de création, les sujets abordés et les liens permettant d'obtenir des informations complémentaires. Ces métadonnées améliorent automatiquement l'expérience de lecture et facilitent la recherche de la page web en ligne. Un CD peut contenir des métadonnées fournissant des informations sur les musiciens, chanteurs et auteurs-compositeurs dont les œuvres figurent sur le disque.

Dans de nombreux pays, les organisations gouvernementales stockent régulièrement des métadonnées sur les courriels , les appels téléphoniques, les pages Web, le trafic vidéo, les connexions IP et la localisation des téléphones portables.

données statistiques .
  • Les métadonnées statistiques – également appelées données de processus – peuvent décrire les processus qui collectent, traitent ou produisent des données statistiques.
  • Métadonnées juridiques – fournissent des informations sur le créateur, le titulaire des droits d'auteur et la licence publique, le cas échéant.
  • Les métadonnées ne sont pas strictement liées à l'une de ces catégories, car elles peuvent décrire une donnée de bien d'autres manières.

    Bien que l'application des métadonnées soit multiple et couvre un large éventail de domaines, il existe des modèles spécialisés et largement acceptés pour spécifier les types de métadonnées. Bretherton et Singley (1994) distinguent deux classes distinctes : les métadonnées structurelles/de contrôle et les métadonnées de guidage. Les métadonnées structurelles décrivent la structure des objets de la base de données, tels que les tables, les colonnes, les clés et les index. Les métadonnées de guidage aident les utilisateurs à trouver des éléments spécifiques et sont généralement exprimées sous forme d'un ensemble de mots-clés en langage naturel. Selon Ralph Kimball , les métadonnées peuvent être divisées en trois catégories : les métadonnées techniques (ou métadonnées internes), les métadonnées métier (ou métadonnées externes) et les métadonnées de processus . Dan Linstedt , créateur de la méthodologie Data Vault , affirme que les métadonnées métier « …fournissent la définition de la fonctionnalité, la définition des données, la définition des éléments et la définition de la manière dont les données sont utilisées au sein de l'entreprise… les métadonnées métier incluent les exigences métier, les échéanciers, les indicateurs de performance, les flux de processus et la terminologie métier. »

    Les métadonnées métier sont importantes car elles facilitent grandement l'utilisation des données par les professionnels. Un exemple simple de métadonnée métier est une entrée de glossaire. La fonctionnalité de survol dans une application ou un formulaire web permet d'afficher la définition du glossaire lorsque le curseur est positionné sur un champ ou un terme.de veille stratégique (BI) et remarquer une tendance dans les données. Cet utilisateur peut avoir des connaissances sur les raisons de cette tendance. Certains outils de veille stratégique permettent à l'utilisateur d'ajouter une annotation au rapport pour expliquer cette tendance. Une telle annotation peut améliorer la compréhension des données par d'autres utilisateurs. Cet exemple est particulièrement pertinent car il est créé par un utilisateur métier pour être utilisé par d'autres utilisateurs métier.

    La NISO distingue trois types de métadonnées : descriptives, structurelles et administratives. Les métadonnées descriptives servent généralement à la recherche et à l’identification, fournissant des informations permettant de localiser un objet, telles que le titre, les auteurs, les sujets, les mots-clés et l’éditeur. Les métadonnées structurelles décrivent l’organisation des composantes d’un objet. Par exemple, l’ordre des pages formant les chapitres d’un livre constitue un exemple de métadonnées structurelles. Enfin, les métadonnées administratives fournissent des informations facilitant la gestion de la source. Elles concernent les informations techniques, comme le type de fichier ou la date et les modalités de création du fichier. Deux sous-types de métadonnées administratives sont les métadonnées de gestion des droits et les métadonnées de préservation. Les métadonnées de gestion des droits expliquent les droits de propriété intellectuelle , tandis que les métadonnées de préservation contiennent des informations permettant de préserver et de sauvegarder une ressource.

    Les référentiels de données statistiques ont leurs propres exigences en matière de métadonnées afin de décrire non seulement la source et la qualité des données mais aussi les processus statistiques utilisés pour créer les données, ce qui est particulièrement important pour la communauté statistique afin de valider et d'améliorer le processus de production de données statistiques.

    Un autre type de métadonnées, les métadonnées d'accessibilité , commence à se développer . Bien que ce concept ne soit pas nouveau pour les bibliothèques, les progrès en matière de conception universelle ont accru son importance. Des projets comme Cloud4All et GPII ont identifié le manque de terminologies et de modèles communs pour décrire les besoins et les préférences des utilisateurs, ainsi que les informations correspondant à ces besoins, comme une lacune majeure dans la fourniture de solutions d'accès universel. Ces informations constituent les métadonnées d'accessibilité. Le site web Schema.org a intégré plusieurs propriétés d'accessibilité basées sur la spécification des éléments de données du modèle d'information IMS Global Access for All. Si les efforts visant à décrire et à normaliser les divers besoins d'accessibilité des chercheurs d'information se consolident, leur intégration dans les schémas de métadonnées établis reste encore limitée. Par exemple, si les termes « public cible » et « niveau de lecture » du Dublin Core (DC) et du MARC 21 peuvent servir à identifier les ressources adaptées aux utilisateurs dyslexiques, et si le terme « format » du DC peut servir à identifier les ressources disponibles en braille, en format audio ou en gros caractères, des travaux supplémentaires restent à accomplir.

    Histoire

    Les métadonnées étaient traditionnellement utilisées dans les catalogues de fiches des bibliothèques jusqu'aux années 1980, lorsque celles-ci ont converti leurs données de catalogue en bases de données numériques . Dans les années 2000, avec le stockage croissant des données et des informations sous forme numérique, ces données numériques ont été décrites à l'aide de normes de métadonnées .

    Une première description des « métadonnées » pour les systèmes informatiques a été écrite par David Griffel et Stuart McIntosh au Centre d'études internationales du MIT en 1967 : « En résumé, nous avons des énoncés dans un langage objet concernant les descriptions de sujets des données et les codes de jetons pour les données. Nous avons également des énoncés dans un métalangage décrivant les relations et les transformations des données, ainsi que les relations de devoir/être entre la norme et les données. »

    Définition

    Les métadonnées désignent les « données sur les données ». Elles sont définies comme les données fournissant des informations sur un ou plusieurs aspects des données ; elles servent à résumer les informations de base sur les données, ce qui facilite leur suivi et leur manipulation. Voici quelques exemples :

    • Moyens de création des données
    • Source des données
    • Date et heure de création
    • Créateur ou auteur des données
    • Emplacement sur le réseau informatique où les données ont été créées
    • Normes utilisées
    • Qualité des données

    Par exemple, une image numérique peut inclure des métadonnées décrivant sa taille, sa profondeur de couleur, sa résolution, sa date de création, la vitesse d'obturation et d'autres données. Les métadonnées d'un document texte peuvent contenir des informations sur sa longueur, son auteur, sa date de rédaction et un bref résumé. Les métadonnées des pages web peuvent également contenir des descriptions de leur contenu, ainsi que des mots-clés associés. Ces liens sont souvent appelés « méta-tags » et ont longtemps été le principal facteur déterminant l'ordre des résultats de recherche. 21] L'utilisation des méta-tags dans les recherches web a diminué à la fin des années 1990 en raison du « bourrage de mots-clés », recherche et leur faire croire que certains sites web étaient plus pertinents qu'ils ne l'étaient réellement.

    Metadata can be stored and managed in a database, often called a metadata registry or metadata repository. However, without context and a point of reference, it might be impossible to identify metadata just by looking at it. For example: by itself, a database containing several numbers, all 13 digits long could be the results of calculations or a list of numbers to plug into an ISBNsGIS have widely adopted the term. In these fields, the word metadata is defined as "data about data". While this is the generally accepted definition, various disciplines have adopted their own more specific explanations and uses of the term.

    Slate reported in 2013 that the United States government's interpretation of "metadata" could be broad, and might include message content such as the subject lines of emails.

    Structures

    Metadata can come in different layers: This physical herbarium record of Cenchrus ciliaris consists of the specimens as well as metadata about them, while the barcode points to a digital record with metadata about the physical record.

    Les métadonnées (ou métacontenu), ou plus précisément les vocabulaires utilisés pour les formuler, sont généralement structurées selon un concept standardisé, à l'aide d'un schéma de métadonnées bien défini, incluant des normes et des modèles de métadonnées . Des outils tels que les vocabulaires contrôlés , les taxonomies , les thésaurus , les dictionnaires de données et les registres de métadonnées permettent d'appliquer une standardisation plus poussée aux métadonnées. L'homogénéité de la structure des métadonnées est également primordiale pour le développement des modèles de données et la conception des bases de données .

    Syntaxe

    La syntaxe des métadonnées (métacontenu) désigne les règles établies pour structurer les champs ou éléments des métadonnées (métacontenu). Un même schéma de métadonnées peut être exprimé dans différents langages de balisage ou de programmation, chacun nécessitant une syntaxe spécifique. Par exemple, Dublin Core peut être exprimé en texte brut, HTML , XML et RDF .

    Un exemple courant de métacontenu (guide) est la classification bibliographique, le sujet, la cote Dewey . Toute « classification » d'un objet implique toujours une affirmation. Pour classer un objet comme appartenant, par exemple, à la cote Dewey 514 ( Topologie ) (c'est-à-dire les livres portant le numéro 514 sur leur dos), l'affirmation implicite est : « <livre><titre><514> ». Il s'agit d'un triplet sujet-prédicat-objet, ou plus précisément, d'un triplet classe-attribut-valeur. Les deux premiers éléments du triplet (classe, attribut) sont des métadonnées structurelles dotées d'une sémantique définie. Le troisième élément est une valeur, de préférence issue d'un vocabulaire contrôlé, de données de référence (données maîtres). La combinaison des métadonnées et des données maîtres aboutit à une affirmation qui est une affirmation de métacontenu : « métacontenu = métadonnées + données maîtres ». Tous ces éléments peuvent être considérés comme un « vocabulaire ». Les métadonnées et les données de référence sont des vocabulaires pouvant être assemblés en énoncés de métacontenu. De nombreuses sources fournissent ces vocabulaires, qu'il s'agisse de métadonnées ou de données de référence : UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO 25964, Pantone, la nomenclature binomiale linnéenne, etc. L'utilisation de vocabulaires contrôlés pour les composants des énoncés de métacontenu, que ce soit pour l'indexation ou la recherche, est préconisée par la norme ISO 25964 : « Si l'indexeur et le chercheur sont amenés à choisir le même terme pour un même concept, alors les documents pertinents seront récupérés. » Ceci est particulièrement pertinent pour les moteurs de recherche d'Internet, tels que Google. Le processus indexe les pages puis associe les chaînes de caractères à l'aide de son algorithme complexe ; aucune intelligence ni « inférence » n'est à l'œuvre, il ne s'agit que d'une illusion.

    Schémas hiérarchiques, linéaires et planaires

    Les schémas de métadonnées peuvent être hiérarchiques, avec des relations entre les éléments et une imbrication de ces éléments, créant ainsi des relations parent-enfant. Le schéma IEEE LOM , par exemple, illustre ce type de schéma hiérarchique : chaque élément appartient alors à un élément parent. Les schémas de métadonnées peuvent également être unidimensionnels (ou linéaires), chaque élément étant alors totalement indépendant des autres et classé selon une seule dimension. Le schéma Dublin Core , unidimensionnel, en est un exemple. Enfin, les schémas de métadonnées sont souvent bidimensionnels (ou planaires), chaque élément étant alors totalement indépendant des autres mais classé selon deux dimensions orthogonales.

    Granularité

    Le degré de structuration des données ou métadonnées est appelé « granularité » . La « granularité » désigne le niveau de détail fourni. Des métadonnées à haute granularité permettent des informations plus approfondies, plus détaillées et mieux structurées, et autorisent un niveau de manipulation technique plus élevé. Une granularité plus faible signifie que les métadonnées peuvent être créées à moindre coût, mais ne fourniront pas d'informations aussi détaillées. L'impact majeur de la granularité se fait sentir non seulement sur la création et la capture, mais aussi sur les coûts de maintenance. Dès que les structures de métadonnées deviennent obsolètes, l'accès aux données référencées l'est également. Par conséquent, la granularité doit prendre en compte l'effort de création des métadonnées ainsi que celui nécessaire à leur maintenance.

    Hypercartographie

    Dans tous les cas où les schémas de métadonnées dépassent la représentation planaire, un type d'hypermappage est nécessaire pour permettre l'affichage et la visualisation des métadonnées selon l'aspect choisi et pour proposer des vues spécifiques. L'hypermappage s'applique fréquemment à la superposition de données géographiques et géologiques.

    normes

    Les normes internationales s'appliquent aux métadonnées. D'importants travaux sont menés au sein des communautés de normalisation nationales et internationales, notamment l'ANSI (American National Standards Institute) et l'ISO (Organisation internationale de normalisation), afin de parvenir à un consensus sur la normalisation des métadonnées et des registres. La norme de base pour les registres de métadonnées est l'ISO/ CEI 11179, Registres de métadonnées (MDR). Le cadre de cette norme est décrit dans l'ISO/CEI 11179-1:2004 . Une nouvelle édition de la Partie 1 est en cours de finalisation et sa publication est prévue pour 2015 ou début 2016. Elle a été révisée afin de s'aligner sur l'édition actuelle de la Partie 3, ISO/CEI 11179-3:2013 , qui étend le MDR pour prendre en charge l'enregistrement des systèmes de concepts (voir ISO/CEI 11179 ). Cette norme spécifie un schéma permettant d'enregistrer à la fois la signification et la structure technique des données pour une utilisation univoque par les humains et les ordinateurs. La norme ISO/IEC 11179 définit les métadonnées comme des objets d'information relatifs aux données, ou « données sur les données ». Dans la partie 3 de la norme ISO/IEC 11179, ces objets d'information sont des données relatives aux éléments de données, aux domaines de valeurs et à d'autres objets d'information sémantiques et représentationnels réutilisables qui décrivent la signification et les détails techniques d'une donnée. Cette norme prescrit également les modalités d'un registre de métadonnées, ainsi que l'enregistrement et l'administration des objets d'information au sein de ce registre. La partie 3 de la norme ISO/IEC 11179 prévoit également la description de structures composées dérivées d'autres éléments de données, par exemple par des calculs, des regroupements d'un ou plusieurs éléments de données, ou d'autres formes de données dérivées. Bien que cette norme se présente initialement comme un registre d'« éléments de données », son objectif est de permettre la description et l'enregistrement du contenu des métadonnées indépendamment de toute application particulière, afin que ces descriptions puissent être découvertes et réutilisées par des humains ou des ordinateurs pour le développement de nouvelles applications, de bases de données ou pour l'analyse de données collectées conformément au contenu des métadonnées enregistrées. Cette norme est devenue la base générale d'autres types de registres de métadonnées, réutilisant et étendant la partie de la norme relative à l'enregistrement et à l'administration.

    La communauté géospatiale possède une longue tradition de normes spécialisées en métadonnées géospatiales , s'appuyant notamment sur les bibliothèques et catalogues de cartes et d'images. Les métadonnées formelles sont généralement indispensables pour les données géospatiales, car les méthodes classiques de traitement de texte ne sont pas applicables.

    Les termes de métadonnées Dublin Core constituent un ensemble de termes lexicaux permettant de décrire les ressources à des fins de recherche. L'ensemble original de 15 termes de métadonnées classiques , connu sous le nom d'ensemble d'éléments de métadonnées Dublin Core est approuvé dans les documents de normalisation suivants :

    • IETF RFC 5013
    • Norme ISO 15836-2009
    • Norme NISO Z39.85.

    Le vocabulaire DCAT (W3C Data Catalog Vocabulary) est un vocabulaire RDF qui complète Dublin Core avec des classes pour les ensembles de données, les services de données, les catalogues et les enregistrements de catalogue. DCAT utilise également des éléments de FOAF, PROV-O et OWL-Time. DCAT fournit un modèle RDF prenant en charge la structure typique d'un catalogue contenant des enregistrements, chacun décrivant un ensemble de données ou un service.

    Bien qu'il ne s'agisse pas d'une norme, le microformat (également mentionné dans la section « Métadonnées sur Internet » ci-dessous) est une approche web de balisage sémantique qui vise à réutiliser les balises HTML/XHTML existantes pour transmettre des métadonnées. Le microformat respecte les normes XHTML et HTML, mais n'est pas une norme en soi. Tantek Çelik , un de ses défenseurs , a mis en évidence un problème lié aux approches alternatives :

    Voici un nouveau langage que nous voulons que vous appreniez, et vous devez maintenant générer ces fichiers supplémentaires sur votre serveur. C'est fastidieux. (Les microformats) facilitent l'accès à ce langage.

    Utiliser

    En matière de métadonnées, les règles de nommage et de conception constituent un ensemble de lignes directrices et de conventions de nommage qui vont au-delà des limites autorisées par une simple spécification de norme d'échange de données. La norme la plus couramment utilisée pour l'élaboration de ces règles est XML Schema . Par exemple, l'utilisation de noms d'éléments de données en majuscules (camelCase) est une convention répandue dans de nombreuses normes, mais non spécifiée par XML Schema. Les règles de nommage et de conception sont devenues un aspect essentiel des normes d'échange de données de chaque organisation. Aux États-Unis , l'adoption de normes de nommage et de conception est recommandée pour chaque agence fédérale et étatique.

    Métadonnées du fichier

    Exemple de métadonnées d'un fichier audio Opus, utilisant les commentaires Vorbis
    Exemple de métadonnées d'un fichier audio Opus , utilisant le commentaire Vorbis

    La plupart des types de fichiers informatiques courants peuvent intégrer des métadonnées, notamment les documents (par exemple, les fichiers Microsoft Office , OpenDocument , PDF ), les images (par exemple, JPEG , PNG ), les fichiers vidéo (par exemple , AVI , MP4 ) et les fichiers audio (par exemple , WAV , MP3 ) .

    Les utilisateurs peuvent ajouter des métadonnées aux fichiers, mais certaines métadonnées sont souvent ajoutées automatiquement par les applications de création ou par les périphériques utilisés pour produire les fichiers, sans intervention de l'utilisateur.

    Bien que les métadonnées soient utiles pour retrouver les fichiers, elles peuvent présenter un risque pour la confidentialité lors du partage de ces fichiers. L'utilisation d'outils de suppression de métadonnées pour nettoyer les fichiers avant de les partager permet d'atténuer ce risque.

    Photographies

    Les métadonnées peuvent être enregistrées dans un fichier photo numérique. Elles permettent d'identifier le propriétaire, les informations relatives aux droits d'auteur et aux coordonnées, la marque et le modèle de l'appareil photo ayant pris la photo, ainsi que les informations d'exposition (vitesse d'obturation, ouverture, etc.) et des informations descriptives, comme des mots-clés, rendant ainsi le fichier ou l'image consultable sur un ordinateur et/ou Internet. Certaines métadonnées sont créées par l'appareil photo, comme l'espace colorimétrique, les canaux de couleur, le temps d'exposition et l'ouverture (EXIF), tandis que d'autres sont saisies par le photographe et/ou un logiciel après le téléchargement sur un ordinateur. La plupart des appareils photo numériques enregistrent des métadonnées concernant le numéro de modèle, la vitesse d'obturation, etc., et certains permettent de les modifier ; cette fonctionnalité est disponible sur la plupart des reflex numériques Nikon depuis le Nikon D3 , sur la plupart des nouveaux appareils Canon depuis le Canon EOS 7D et sur la plupart des reflex numériques Pentax depuis le Pentax K-3. L'utilisation de mots-clés dans les métadonnées facilite l'organisation en post-production. Des filtres permettent d'analyser un ensemble de photos et d'effectuer des sélections selon des critères tels que la note ou la date de prise de vue. Sur les appareils dotés de la géolocalisation ( notamment les smartphones), le lieu de prise de vue peut également être indiqué.

    Les normes relatives aux métadonnées photographiques sont régies par des organismes qui élaborent les normes suivantes, notamment :

    • Modèle d'échange d'informations IPTC (Conseil international de la presse et des télécommunications)
    • Schéma de base IPTC pour XMP
    • XMP – Plateforme de métadonnées extensible (norme ISO)
    • Exif – Format de fichier image échangeable, maintenu par la CIPA (Camera & Imaging Products Association) et publié par la JEITA (Japan Electronics and Information Technology Industries Association)
    • Dublin Core (Initiative de métadonnées Dublin Core – DCMI)
    • PLUS (Système universel de licences d'images)
    • VRA Core (Visual Resource Association)
    • JPEG ou JPG est un groupe d'experts photographiques conjoint

    Vidéo

    Les métadonnées sont particulièrement utiles pour la vidéo, car les informations relatives à son contenu (telles que les transcriptions de conversations et les descriptions textuelles des scènes) ne sont pas directement compréhensibles par un ordinateur, mais une recherche efficace du contenu est souhaitable. Ceci est particulièrement utile dans des applications vidéo telles que les logiciels de reconnaissance automatique de plaques d'immatriculation et d'identification de véhicules, où les données des plaques d'immatriculation sont enregistrées et utilisées pour générer des rapports et des alertes. Les métadonnées vidéo proviennent de deux sources : (1) les métadonnées opérationnelles collectées, c'est-à-dire les informations relatives au contenu produit, telles que le type d'équipement, le logiciel, la date et le lieu ; (2) les métadonnées créées par des humains, afin d'améliorer la visibilité dans les moteurs de recherche, la découvrabilité, l'engagement du public et d'offrir des opportunités publicitaires aux éditeurs vidéo. MetaSync d'Avid et Bridge d'Adobe sont des exemples de logiciels de montage vidéo professionnels ayant accès aux métadonnées.

    Systèmes de fichiers

    Divers systèmes de fichiers utilisent des métadonnées, comme FAT32 et NTFS .

    Télécommunications

    Les informations relatives aux dates, origines et destinations des appels téléphoniques, des messages électroniques, des messages instantanés et autres moyens de télécommunication, par opposition à leur contenu, constituent une autre forme de métadonnées. La collecte massive de ces métadonnées par les services de renseignement a suscité la controverse suite aux révélations d' Edward Snowden concernant le fait que certains services, comme la NSA, conservaient (et conservent peut-être encore) des métadonnées en ligne sur des millions d'internautes pendant une durée pouvant aller jusqu'à un an, qu'ils aient ou non fait l'objet d'une enquête.

    métadonnées géospatiales

    Métadonnées créées manuellement, dans ce cas-ci pour un pot de Sphagnum papillosum faisant partie d'une expérience de jardin commun à l'Université de Greifswald

    Les métadonnées peuvent être créées par traitement automatisé de l'information ou manuellement. Les métadonnées élémentaires enregistrées par ordinateur peuvent inclure des informations sur la date de création d'un objet, son créateur, sa date de dernière mise à jour, sa taille et son extension. Dans ce contexte, un objet désigne :

    • Un objet physique tel qu'un livre, un CD, un DVD, une carte papier, une chaise, une table, un pot de fleurs, etc.
    • Un fichier électronique tel qu'une image numérique, une photo numérique, un document électronique, un fichier de programme, une table de base de données, etc.

    Un moteur de métadonnées collecte, stocke et analyse les informations relatives aux données et aux métadonnées utilisées au sein d'un domaine.

    virtualisation des données

    les objets métiers des différents systèmes et applications de l'entreprise. L'homogénéité des métadonnées structurelles est également cruciale pour la prise en charge de la virtualisation des données.

    Services de statistiques et de recensement

    Les travaux de normalisation et d'harmonisation ont facilité les efforts déployés par l'industrie pour mettre en place des systèmes de métadonnées au sein de la communauté statistique. Plusieurs lignes directrices et normes relatives aux métadonnées, telles que le Code de bonnes pratiques de la statistique européenne et la norme ISO 17369:2013 ( Échange de données et de métadonnées statistiques ou SDMX) , définissent les principes clés de gestion des données et métadonnées statistiques par les entreprises, les organismes gouvernementaux et autres entités. Des organismes comme Eurostat [ , le Système européen de banques centrales [ et l' Agence américaine de protection de l'environnement dans le but d'améliorer l'efficacité de la gestion des processus statistiques.

    bibliothéconomie et sciences de l'information

    alphanumérique abrégée ( la cote ) permettant de localiser le livre dans les rayonnages. La classification décimale de Dewey, utilisée par les bibliothèques pour le classement des documents par sujet, est un exemple ancien d'utilisation des métadonnées. Le catalogue papier initial contenait des informations sur chaque document décrit sur sa fiche : titre, auteur, sujet et une cote permettant de le retrouver. À partir des années 1980 et 1990, de nombreuses bibliothèques ont remplacé ces fiches papier par des bases de données informatisées. Ces bases de données facilitent et accélèrent considérablement les recherches par mots-clés. Une autre méthode ancienne de collecte de métadonnées est l'utilisation, par le Bureau du recensement des États-Unis, du questionnaire dit « long form ». Ce questionnaire comprend des questions permettant de constituer des données démographiques et d'identifier des tendances de répartition. Les bibliothèques utilisent les métadonnées dans leurs catalogues , le plus souvent dans le cadre d'un système intégré de gestion de bibliothèque (SIGB) . Les métadonnées sont obtenues par le catalogage de ressources telles que les livres, les périodiques, les DVD, les pages web ou les images numériques. Ces données sont stockées dans le SIGB, conformément à la norme de métadonnées MARC . L'objectif est d'orienter les usagers vers l'emplacement physique ou électronique des documents ou des sections qu'ils recherchent, et de leur fournir une description de ces documents.

    Les exemples plus récents et spécialisés de métadonnées de bibliothèque incluent la création de bibliothèques numériques, notamment les archives ouvertes de prépublications et les photothèques numériques. Bien que souvent fondées sur les principes des bibliothèques, leur orientation vers une utilisation par des non-bibliothécaires, en particulier pour la fourniture de métadonnées, implique qu'elles ne suivent pas les approches de catalogage traditionnelles ou courantes. Compte tenu de la nature personnalisée des documents inclus, les champs de métadonnées sont souvent créés spécifiquement, par exemple les champs de classification taxonomique, les champs de localisation, les mots-clés ou la mention de droit d'auteur. Les informations standard sur les fichiers, telles que leur taille et leur format, sont généralement incluses automatiquement. Le fonctionnement des bibliothèques est depuis des décennies un sujet clé dans les efforts de normalisation internationale . Les normes relatives aux métadonnées dans les bibliothèques numériques comprennent Dublin Core , METS , MODS , DDI , DOI , URN , le schéma PREMIS , EML et OAI-PMH . Les principales bibliothèques du monde donnent des indications sur leurs stratégies en matière de normes de métadonnées.

    Un concept similaire est celui de synset (ou ensemble de synonymes) , un groupe d'un ou plusieurs synonymes partageant une signification commune dans un contexte donné. Les synsets sont un concept fondamental en linguistique informatique et en sémantique lexicale , notamment utilisé dans la base de données lexicale anglaise WordNet . Ce concept a été étendu à d'autres langues et à des projets multilingues tels qu'EuroWordNet [ BabelNet [ 64 l'initiative Global WordNet . Il a été démontré que les synsets jouent un rôle important dans certains domaines du traitement automatique du langage naturel , en établissant un lien entre les unités lexicales et signification conceptuelle, permettant ainsi :

    Science

    données FAIR et aux identifiants persistants

    Les métadonnées des publications scientifiques sont généralement créées par les éditeurs de revues et les bases de données bibliographiques telles que PubMed et Web of Science . Les données contenues dans les manuscrits ou les accompagnant en tant que matériel supplémentaire font moins souvent l'objet de métadonnées bien qu'elles puissent être soumises, par exemple, à des bases de données biomédicales après publication. Les auteurs originaux et les responsables des bases de données sont alors chargés de la création des métadonnées, avec l'aide de processus automatisés. Des métadonnées complètes pour toutes les données expérimentales constituent le fondement des principes directeurs FAIR , qui garantissent que les données de recherche sont faciles à trouver , accessibles , interopérables et réutilisables .

    Ces métadonnées peuvent ensuite être utilisées, complétées et rendues accessibles de manière utile. OpenAlex est un index en ligne gratuit de plus de 200 millions de documents scientifiques qui intègre et fournit des métadonnées telles que les sources, les citations , les informations sur les auteurs , les domaines scientifiques et les sujets de recherche. Son API et son site web open source peuvent être utilisés pour la métascience, la scientométrie et de nouveaux outils permettant d'interroger ce Web sémantique d' articles . Un autre projet en développement, Scholia , utilise les métadonnées des publications scientifiques pour diverses visualisations et fonctionnalités d'agrégation, comme la mise à disposition d'une interface utilisateur simple résumant la littérature sur une caractéristique spécifique du virus SARS-CoV-2 à l'aide de la propriété « sujet principal » de Wikidata .

    Dans le domaine de la recherche, des métadonnées transparentes sur les contributions des auteurs aux travaux ont été proposées – par exemple le rôle joué dans la production de l’article, le niveau de contribution et les responsabilités.

    De plus, diverses métadonnées relatives aux publications scientifiques peuvent être créées ou complétées ; par exemple, certaines organisations tentent de suivre et de relier les citations d’articles en les classant comme « soutien », « mention » ou « contredisant » l’étude. D’autres exemples incluent le développement de métriques alternatives qui, outre leur utilité pour l’évaluation et la recherche, agrègent également de nombreuses discussions publiques concernant un article scientifique sur les réseaux sociaux tels que Reddit , les citations sur Wikipédia et les articles de presse relatifs à l’étude , ainsi qu’un appel à démontrer si les résultats originaux sont confirmés ou reproductibles .

    Musées

    Dans un contexte muséal, les métadonnées désignent les informations créées par des spécialistes de la documentation culturelle, tels que les archivistes , les bibliothécaires , les régisseurs et les conservateurs de musée , afin d'indexer, structurer, décrire, identifier ou spécifier les œuvres d'art, les éléments architecturaux, les objets culturels et leurs images. Les métadonnées descriptives sont le plus souvent utilisées dans les musées à des fins d'identification des objets et de recherche documentaire.

    Usage

    Les métadonnées sont développées et appliquées au sein des institutions de collecte et des musées afin de :

    • Faciliter la découverte des ressources et exécuter des requêtes de recherche.
    • Créer des archives numériques qui stockent des informations relatives à divers aspects des collections muséales et des objets culturels, et qui servent à des fins d'archivage et de gestion.
    • Offrir au public un accès aux objets culturels grâce à la publication de contenus numériques en ligne.

    normes

    De nombreux musées et centres du patrimoine culturel reconnaissent que, compte tenu de la diversité des œuvres d'art et des objets culturels, aucun modèle ni norme unique ne suffit à décrire et à cataloguer ces œuvres. Par exemple, un artefact sculpté autochtone pourrait être classé comme œuvre d'art, artefact archéologique ou élément du patrimoine autochtone. Les premières étapes de la normalisation en matière d'archivage, de description et de catalogage au sein de la communauté muséale ont débuté à la fin des années 1990 avec l'élaboration de normes telles que les Catégories pour la description des œuvres d'art (CDWA), Spectrum, le Modèle conceptuel de référence CIDOC (CRM), le Catalogage des objets culturels (CCO) et le schéma XML CDWA Lite. Ces normes utilisent les langages de balisage HTML et XML pour le traitement automatique, la publication et la mise en œuvre. Les Règles anglo-américaines de catalogage (AACR), initialement conçues pour la caractérisation des livres, ont également été appliquées aux objets culturels, aux œuvres d'art et à l'architecture. Les normes, telles que le CCO, sont intégrées au système de gestion des collections (SGC) d'un musée, une base de données permettant aux musées de gérer leurs collections, leurs acquisitions, leurs prêts et leur conservation. Les chercheurs et les professionnels du domaine soulignent que « l'évolution rapide des normes et des technologies » pose des défis aux documentalistes culturels, en particulier aux professionnels non formés techniquement. base de données relationnelle pour catégoriser les œuvres culturelles et leurs images. Les bases de données relationnelles et les métadonnées permettent de documenter et de décrire les relations complexes entre les objets culturels et les œuvres d'art aux multiples facettes, ainsi qu'entre les objets et les lieux, les personnes et les mouvements artistiques. Les structures de bases de données relationnelles sont également avantageuses pour les institutions de collecte et les musées, car elles permettent aux archivistes de faire une distinction claire entre les objets culturels et leurs images ; une distinction imprécise pourrait entraîner des recherches confuses et inexactes.

    objets culturels

    La matérialité, la fonction et la finalité d'un objet, ainsi que ses dimensions (hauteur, largeur, poids, etc.), ses exigences de conservation (environnement à température et humidité contrôlées, par exemple) et la spécialisation du musée et de la collection, influencent la richesse descriptive des données qui lui sont attribuées par les documentalistes culturels. Les pratiques de catalogage institutionnelles établies, les objectifs et l'expertise des documentalistes culturels, ainsi que la structure des bases de données, influencent également les informations relatives aux objets culturels et leur catégorisation. De plus, les musées utilisent souvent des logiciels commerciaux standardisés de gestion de collections qui encadrent et limitent la manière dont les archivistes peuvent décrire les œuvres d'art et les objets culturels. Par ailleurs, les institutions de collecte et les musées utilisent des vocabulaires contrôlés pour décrire les objets culturels et les œuvres d'art de leurs collections. Les vocabulaires Getty et ceux de la Bibliothèque du Congrès sont reconnus dans le milieu muséal et recommandés par les normes CCO. Les musées sont encouragés à utiliser des vocabulaires contrôlés contextualisés et pertinents pour leurs collections, afin d'améliorer la fonctionnalité de leurs systèmes d'information numériques. Les vocabulaires contrôlés sont avantageux dans les bases de données car ils offrent un haut niveau de cohérence, améliorant ainsi la recherche de ressources. Les structures de métadonnées, y compris les vocabulaires contrôlés, reflètent les ontologies des systèmes dont elles sont issues. Souvent, les processus de description et de catégorisation des objets culturels par le biais des métadonnées dans les musées ne reflètent pas les perspectives des communautés qui les ont créés.

    Contenu en ligne

    Les métadonnées ont joué un rôle déterminant dans la création de systèmes d'information et d'archives numériques au sein des musées et ont facilité la publication de contenus numériques en ligne. Ceci a permis à des publics qui n'auraient peut-être pas eu accès aux objets culturels en raison de barrières géographiques ou économiques d'y accéder désormais. Dans les années 2000, avec l'adoption croissante des normes archivistiques et la création de bases de données complexes par les musées, la question des données liées entre les bases de données muséales a émergé au sein des communautés muséales, archivistiques et de bibliothéconomie. Les systèmes de gestion des collections (SGC) et les outils de gestion des ressources numériques peuvent être locaux ou partagés. Les chercheurs en humanités numériques soulignent les nombreux avantages de l'interopérabilité entre les bases de données et les collections muséales, tout en reconnaissant les difficultés liées à sa mise en œuvre.

    Loi

    États-Unis, les problèmes liés aux métadonnées dans les litiges se multiplient. Les tribunaux se sont penchés sur diverses questions relatives aux métadonnées, notamment leur accessibilité aux parties. Le Règlement fédéral de procédure civile (Federal Rules of Civil Procedure) prévoit des règles spécifiques pour la communication des informations stockées électroniquement, et la jurisprudence ultérieure, s'appuyant sur ces règles, a précisé l'obligation pour les parties de produire les métadonnées lors d'un litige devant un tribunal fédéral. En octobre 2009, la Cour suprême de l'Arizona a statué que les métadonnées constituent des documents publics . Les métadonnées des documents se sont révélées particulièrement importantes dans les contextes juridiques où les litiges exigent leur production, lesquelles peuvent contenir des informations sensibles préjudiciables à une partie. L'utilisation d'outils de suppression de métadonnées pour « nettoyer » ou expurger les documents permet d'atténuer les risques de transmission involontaire de données sensibles. Ce processus protège partiellement (voir la rémanence des données ) les cabinets d'avocats contre les fuites potentiellement dommageables de données sensibles lors de la communication électronique des pièces .

    Les sondages d'opinion ont montré que 45 % des Américains n'ont « absolument pas confiance » dans la capacité des réseaux sociaux à garantir la sécurité de leurs données personnelles et que 40 % estiment que ces réseaux ne devraient pas pouvoir stocker d'informations sur les individus. 76 % des Américains se disent peu confiants quant à la sécurité des informations collectées par les agences de publicité et 50 % estiment que les agences de publicité en ligne ne devraient pas être autorisées à enregistrer leurs informations.

    Union européenne

    Au sein de l’UE, les révélations de Snowden ont joué un rôle déterminant dans la révision des questions relatives à la protection de la vie privée et au traitement des données personnelles. En 2025, sur les 18 pays européens étudiés par la directive sur la conservation des données , seuls l’Allemagne, les Pays-Bas et la Roumanie n’avaient aucune réglementation en vigueur en la matière.

    Le 6 octobre 2020, la Cour de justice de l’Union européenne (CJUE) a jugé que les systèmes de conservation massive et indiscriminée des données étaient illégaux au regard du droit de l’UE. La France a adopté une loi le 18 décembre 2013 facilitant la collecte de données par les forces armées et les services de renseignement français. En avril 2022, la Cour constitutionnelle portugaise a déclaré inconstitutionnelles les décisions de la CJUE relatives à la conservation des données générées ou traitées dans le cadre de la fourniture de services de communications électroniques accessibles au public ou de réseaux de communications publics.

    Australie

    En Australie, la nécessité de renforcer la sécurité nationale a conduit à l'adoption d'une nouvelle loi sur le stockage des métadonnées. Cette nouvelle loi autorise les services de sécurité et de police à accéder aux métadonnées d'un individu sur une période allant jusqu'à deux ans, dans le but de faciliter la prévention des attentats terroristes et des crimes graves.

    Législation

    Les métadonnées législatives ont été discutées dans divers forums, tels que les ateliers organisés par le Legal Information Institute de la Cornell Law School les 22 et 23 mars 2010. La documentation de ces ateliers est intitulée « Pratiques suggérées en matière de métadonnées pour la législation et la réglementation ».

    Ces discussions ont permis de dégager quelques points clés, dont les titres de section sont listés ci-dessous :

    • Considérations générales
    • Structure du document
    • Contenu du document
    • Métadonnées (éléments de)
    • superposition
    • Point dans le temps versus post-hoc

    Soins de santé

    La recherche médicale australienne a été pionnière dans la définition des métadonnées pour les applications en soins de santé. Cette approche constitue la première tentative reconnue de se conformer aux normes internationales en sciences médicales plutôt que de définir une norme propriétaire sous l'égide de l' Organisation mondiale de la Santé (OMS). La communauté médicale n'a cependant pas approuvé la nécessité de suivre les normes de métadonnées, malgré les recherches qui les soutenaient.

    Recherches biomédicales

    Les recherches en biomédecine et en biologie moléculaire génèrent fréquemment d'importantes quantités de données, notamment les résultats du séquençage du génome ou du métagénome , les données protéomiques , et même les notes ou plans élaborés au cours de la recherche elle-même . Chaque type de données implique ses propres métadonnées et les processus nécessaires à leur production. Les normes générales de métadonnées, telles que ISA-Tab permettent aux chercheurs de créer et d'échanger des métadonnées expérimentales dans des formats cohérents. Les approches expérimentales spécifiques possèdent souvent leurs propres normes et systèmes de métadonnées : les normes de métadonnées pour la spectrométrie de masse incluent mzML et SPLASH , tandis que les normes basées sur XML , telles que PDBML et SRA XML servent de normes respectivement pour les données de structure macromoléculaire et de séquençage.

    Les résultats de la recherche biomédicale se concrétisent généralement sous forme de manuscrits évalués par des pairs, et ces publications constituent une autre source de données entrepôt de données (ED) est un référentiel de données stockées électroniquement au sein d'une organisation. Les entrepôts de données sont conçus pour gérer et stocker ces données. Ils se distinguent des systèmes de veille stratégique (SS) car ces derniers sont conçus pour exploiter les données afin de générer des rapports et d'analyser l'information, dans le but de fournir des orientations stratégiques à la direction. Les métadonnées constituent un outil essentiel pour le stockage des données dans les entrepôts de données. L'objectif d'un entrepôt de données est d'héberger des données standardisées, structurées, cohérentes, intégrées, exactes, « nettoyées » et actualisées, extraites des différents systèmes opérationnels de l'organisation. Ces données extraites sont intégrées à l'environnement de l'entrepôt de données afin d'offrir une vision globale de l'entreprise. Les données sont structurées de manière à répondre aux exigences de reporting et d'analyse. La conception d'une structure de métadonnées commune, à l'aide d'une méthode de modélisation des données telle que le modèle entité-relation (ERM), est cruciale dans tout projet de développement d'entrepôt de données. Ces modèles détaillent les métadonnées de chaque donnée présente dans l'entrepôt. Les métadonnées et les outils permettant de les gérer et de les extraire sont des composantes essentielles d'un système d'entrepôt de données/de veille stratégique. Ralph Kimball décrit les métadonnées comme l'ADN de l'entrepôt de données, car les métadonnées définissent les éléments de l'entrepôt de données et la façon dont ils fonctionnent ensemble.

    Kimball et al. distinguent trois grandes catégories de métadonnées : techniques, métier et de processus. Les métadonnées techniques sont principalement définitionnelles , tandis que les métadonnées métier et de processus sont principalement descriptives . Ces catégories se recoupent parfois.

    • Les métadonnées techniques définissent les objets et les processus d'un système DW/BI, d'un point de vue technique. Elles comprennent les métadonnées système, qui définissent les structures de données telles que les tables, les champs, les types de données, les index et les partitions du moteur relationnel, ainsi que les bases de données, les dimensions, les mesures et les modèles d'exploration de données. Les métadonnées techniques définissent également le modèle de données et son mode d'affichage pour les utilisateurs, notamment les rapports, les planifications, les listes de distribution et les droits d'accès.
    • Les métadonnées métier sont des contenus de l'entrepôt de données décrits en termes plus accessibles. Elles indiquent quelles données sont disponibles, d'où elles proviennent, leur signification et leurs relations avec les autres données de l'entrepôt. Les métadonnées métier peuvent également servir de documentation pour le système DW/BI. Les utilisateurs qui consultent l'entrepôt de données visualisent principalement les métadonnées métier.
    • Les métadonnées de processus servent à décrire les résultats des différentes opérations effectuées dans l'entrepôt de données. Lors du processus ETL , toutes les données clés des tâches sont enregistrées à chaque exécution. Cela inclut l'heure de début, l'heure de fin, le temps processeur utilisé (en secondes), les lectures et écritures disque, ainsi que le nombre de lignes traitées. Ces données s'avèrent précieuses lors du dépannage des processus ETL ou de requêtes . Les métadonnées de processus constituent la mesure des faits lors de la conception et de l'utilisation d'un système DW/BI. Certaines organisations tirent leurs revenus de la collecte et de la vente de ces données à des entreprises ; dans ce cas, les métadonnées de processus deviennent les métadonnées métier des tables de faits et de dimensions. La collecte des métadonnées de processus est dans l'intérêt des responsables métiers, qui peuvent ainsi identifier les utilisateurs de leurs produits, les produits qu'ils utilisent et le niveau de service dont ils bénéficient.

    Internet

    Le format HTML utilisé pour définir les pages web permet l'inclusion de divers types de métadonnées, allant du texte descriptif de base, des dates et des mots-clés à des schémas de métadonnées plus avancés tels que les normes Dublin Core , e-GMS et AGLS . Les pages et les fichiers peuvent également être géolocalisés avec des coordonnées , catégorisés ou étiquetés, y compris de manière collaborative comme avec les folksonomies .

    Lorsque des identifiants sont définis pour un média ou peuvent être générés, des informations telles que les étiquettes et descriptions de fichiers peuvent être extraites d' Internet – par exemple, pour les films. Diverses bases de données en ligne sont agrégées et fournissent des métadonnées pour différentes données. Wikidata, une base de données collaborative , possède des identifiants non seulement pour les médias, mais aussi pour des concepts abstraits, divers objets et d'autres entités, qui peuvent être consultés par les humains et les machines pour extraire des informations utiles et relier les connaissances à d'autres bases de connaissances.

    Les métadonnées peuvent être incluses dans l'en-tête de la page ou dans un fichier séparé. Les microformats permettent d'ajouter des métadonnées aux données de la page de manière invisible pour les utilisateurs, mais facilement accessible aux ordinateurs, aux robots d'exploration et aux moteurs de recherche . De nombreux moteurs de recherche se montrent prudents quant à l'utilisation des métadonnées dans leurs algorithmes de classement, en raison de leur exploitation et des pratiques d'optimisation pour les moteurs de recherche ( SEO) visant à améliorer le positionnement. Pour plus d'informations, consultez l' article sur l'élément Meta . Cette prudence se justifie, car, selon Doctorow , les utilisateurs ne font pas preuve de la rigueur nécessaire lors de la création de leurs métadonnées, et ces dernières s'inscrivent dans un contexte concurrentiel où elles servent les intérêts de leurs créateurs. Des études montrent que les moteurs de recherche prennent en compte les pages web intégrant des métadonnées et Google publie sur son site la liste des balises Meta qu'il interprète. La startup de recherche d'entreprise Swiftype reconnaît les métadonnées comme un signal de pertinence que les webmasters peuvent mettre en œuvre pour leur moteur de recherche spécifique au site Web, allant même jusqu'à publier leur propre extension, connue sous le nom de Meta Tags 2.

    industrie de la radiodiffusion

    Dans le secteur de la diffusion , les métadonnées sont liées aux supports de diffusion audio et vidéo pour :

    Ces métadonnées peuvent être associées aux médias vidéo grâce aux serveurs vidéo . La plupart des grands événements sportifs diffusés, comme la Coupe du Monde de la FIFA ou les Jeux Olympiques, utilisent ces métadonnées pour distribuer leur contenu vidéo aux chaînes de télévision par le biais de mots-clés . C'est souvent le diffuseur hôte qui est responsable de l'organisation des métadonnées via son Centre International de Diffusion et ses serveurs vidéo. Ces métadonnées sont enregistrées avec les images et saisies par des opérateurs de métadonnées ( enregistreurs ) qui les associent en direct aux métadonnées disponibles dans des grilles de métadonnées grâce à un logiciel (tel que Multicam (LSM) ou IPDirector, utilisé lors de la Coupe du Monde de la FIFA ou des Jeux Olympiques).

    Écologie et environnement

    Les métadonnées écologiques et environnementales visent à documenter les aspects suivants de la collecte des données pour une étude donnée : qui, quoi, quand, où, pourquoi et comment. Cela signifie généralement quelle organisation ou institution a collecté les données, de quel type de données il s’agit, à quelle(s) date(s) la collecte a eu lieu, la justification de cette collecte et la méthodologie employée. Les métadonnées doivent être générées dans un format couramment utilisé par la communauté scientifique concernée, tel que Core , Ecological Metadata Language [ ou Dublin Core . Des outils d’édition de métadonnées existent pour faciliter leur génération (par exemple, Metavist , Mercury , Morpho ). Les métadonnées doivent décrire la provenance des données (leur origine et les transformations qu’elles ont subies) et indiquer comment citer les sources.

    Musique numérique

    Lors de leur première commercialisation en 1982, les disques compacts ne contenaient qu'une table des matières (TOC) indiquant le nombre de pistes et leur durée en échantillons. Quatorze ans plus tard, en 1996, une révision de la norme CD Red Book a introduit le CD-Text pour inclure des métadonnées supplémentaires. Cependant, le CD-Text n'a pas été largement adopté. Peu après, il est devenu courant pour les ordinateurs personnels de récupérer les métadonnées à partir de sources externes (par exemple CDDB , Gracenote ) en se basant sur la TOC.

    Dans les années 2000, les formats audio numériques , tels que les fichiers audio numériques ( DAF ), ont supplanté les formats musicaux comme les cassettes et les CD . Les fichiers audio numériques peuvent désormais contenir davantage d'informations que leur simple nom. Ces informations descriptives sont appelées métadonnées audio . Les logiciels permettant d'ajouter ou de modifier ces informations sont appelés éditeurs de métadonnées . Les métadonnées servent à nommer, décrire, cataloguer et indiquer la propriété ou les droits d'auteur d'un fichier audio numérique. Leur présence facilite grandement la recherche d'un fichier audio spécifique au sein d'un ensemble, généralement grâce à un moteur de recherche qui accède aux métadonnées. Avec le développement des différents formats audio numériques, des efforts ont été déployés pour standardiser l'emplacement de stockage de ces informations au sein des fichiers numériques.

    De ce fait, la quasi-totalité des formats audio numériques, y compris les fichiers MP3 , WAV (diffusion) et AIFF , possèdent des emplacements standardisés similaires pouvant être renseignés avec des métadonnées. Ces métadonnées, pour la musique numérique compressée et non compressée, sont souvent encodées dans la balise ID3 . Les éditeurs courants tels que TagLib prennent en charge les formats MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 et ASF.

    Applications cloud

    Grâce à la disponibilité des applications cloud , notamment celles permettant d'ajouter des métadonnées au contenu, ces dernières sont de plus en plus accessibles via Internet.

    Administration et gestion

    Stockage

    Les métadonnées peuvent être stockées soit en interne , dans le même fichier ou la même structure que les données (on parle alors de métadonnées intégrées ), soit en externe , dans un fichier ou un champ distinct des données décrites. Un référentiel de données stocke généralement les métadonnées séparément des données, mais peut être conçu pour prendre en charge les approches de métadonnées intégrées. Chaque option présente des avantages et des inconvénients :

    • Le stockage interne implique que les métadonnées sont toujours incluses dans les données qu'elles décrivent ; elles sont donc toujours disponibles avec les données et peuvent être modifiées localement. Cette méthode crée une redondance (empêchant la normalisation) et ne permet pas de gérer l'ensemble des métadonnées d'un système en un seul endroit. Elle améliore sans doute la cohérence, car les métadonnées sont mises à jour automatiquement dès que les données sont modifiées.
    • Le stockage externe permet de regrouper les métadonnées de tous les contenus, par exemple dans une base de données, pour une recherche et une gestion plus efficaces. La redondance peut être évitée en normalisant l'organisation des métadonnées. Dans cette approche, les métadonnées peuvent être associées au contenu lors du transfert d'informations, par exemple dans le cas du streaming ; ou être référencées (par exemple, sous forme de lien web) depuis le contenu transféré. En revanche, la séparation des métadonnées et des données, notamment dans les fichiers autonomes qui font référence à leurs métadonnées sources ailleurs, accroît les risques de décalage entre les deux, car les modifications apportées à l'un peuvent ne pas être répercutées sur l'autre.

    Les métadonnées peuvent être stockées sous forme lisible par l'humain ou sous forme binaire. Le stockage des métadonnées dans un format lisible par l'humain, tel que XML, présente l'avantage de permettre aux utilisateurs de les comprendre et de les modifier sans outils spécialisés. Toutefois, les formats textuels sont rarement optimisés en termes de capacité de stockage, de temps de communication ou de vitesse de traitement. Un format de métadonnées binaire permet une efficacité accrue à tous ces égards, mais nécessite un logiciel spécifique pour convertir les informations binaires en contenu lisible par l'humain.

    Gestion de bases de données

    Chaque système de base de données relationnelle possède ses propres mécanismes de stockage des métadonnées. Voici quelques exemples de métadonnées de base de données relationnelle :

    • Tableaux de toutes les tables d'une base de données, leurs noms, tailles et nombre de lignes dans chaque table.
    • Tableaux des colonnes de chaque base de données, des tables dans lesquelles elles sont utilisées et du type de données stockées dans chaque colonne.

    En termes de bases de données, cet ensemble de métadonnées est appelé catalogue . La norme SQL spécifie une méthode uniforme d'accès au catalogue, appelée schéma d'information , mais toutes les bases de données ne l'implémentent pas, même si elles respectent d'autres aspects de la norme SQL. Pour un exemple de méthodes d'accès aux métadonnées spécifiques à une base de données, voir la documentation sur les métadonnées Oracle . L'accès programmatique aux métadonnées est possible via des API telles que JDBC ou SchemaCrawler.

    culture populaire

    L'une des premières analyses satiriques du concept de métadonnées tel que nous le comprenons aujourd'hui est la nouvelle de science-fiction américaine Hal Draper , « MS Fnd in a Lbry » (1961). Dans cette nouvelle, le savoir de toute l'humanité est condensé dans un objet de la taille d'un tiroir de bureau. Cependant, l'ampleur des métadonnées (par exemple, un catalogue de catalogues, ainsi que des index et des historiques) finit par avoir des conséquences à la fois désastreuses et humoristiques pour l'humanité. Cette histoire préfigure les conséquences modernes d'une priorité accordée aux métadonnées au détriment des données elles-mêmes, et les risques inhérents à une telle éventualité, à titre d'avertissement.La documentation désigne l'ensemble des informations contextuelles qui expliquent et décrivent un jeu de données, un système ou un processus de recherche afin d'en garantir la compréhension, l'utilisation et la réutilisation. Elle couvre des détails généraux tels que le contexte de l'étude, les méthodes de collecte des données, les inventaires de fichiers, les guides de codage, les dictionnaires de données, les guides d'utilisation et les notes de flux de travail. À l'inverse, les métadonnées constituent une forme de documentation spécifique et hautement structurée qui fournit des informations normalisées sur les données elles-mêmes : titre, créateur, format de fichier, taille, conditions d'accès et organisation des fichiers ou des sections.

    Les métadonnées et la documentation sont donc des concepts liés mais distincts en gestion de l'information. Toutes deux jouent un rôle crucial dans la gouvernance, l'utilisation et la préservation des données. Tandis que la documentation fournit le récit complet et les instructions relatives aux données, les métadonnées offrent des descripteurs concis et structurés qui aident les utilisateurs et les systèmes à identifier, localiser, gérer et préserver efficacement les données.

    Plus d articles de Worldlex Wiki

    Revenez a l index pour explorer davantage de pages sur l histoire, la science, la culture, la geographie et la societe en francais.

    Explorer l index