Article de reference

données ouvertes

Carte des données ouvertes Nuage de données ouvertes interconnectées en août 2014 L’étiquetage clair des conditions de licence est un élément clé des données ouvertes, et des ic...

Carte des données ouvertes
Nuage de données ouvertes interconnectées en août 2014
L’étiquetage clair des conditions de licence est un élément clé des données ouvertes, et des icônes comme celle illustrée ici sont utilisées à cette fin.

Les données ouvertes sont des données librement accessibles, exploitables, modifiables et partageables par tous, à toutes fins. Elles sont généralement diffusées sous une licence ouverte .

Les objectifs du mouvement des données ouvertes sont similaires à ceux d'autres mouvements « open source » tels que les logiciels libres, le matériel libre , les contenus ouverts , les spécifications ouvertes , l'éducation ouverte , les ressources éducatives libres , la gouvernance ouverte , la connaissance ouverte , l'accès ouvert , la science ouverte et le web ouvert. L'essor du mouvement des données ouvertes s'accompagne d'une montée en puissance des droits de propriété intellectuelle. La philosophie sous-jacente aux données ouvertes est bien établie (par exemple dans la tradition scientifique mertonienne ), mais le terme « données ouvertes » lui-même est récent, ayant gagné en popularité avec l'avènement d'Internet et du Web et, surtout , avec le lancement des initiatives gouvernementales de données ouvertes Data.gov , Data.gov.uk et Data.gov.in.

Les données ouvertes peuvent être des données liées — on parle alors de données ouvertes liées .

L'une des formes les plus importantes de données ouvertes est celle des données ouvertes gouvernementales (DOG), créées par les institutions gouvernementales. L'importance des données ouvertes gouvernementales tient au fait qu'elles font partie intégrante du quotidien des citoyens, même pour les tâches les plus routinières et banales, en apparence éloignées de l'action gouvernementale.

L’abréviation FAIR/O data est parfois utilisée pour indiquer que l’ensemble de données ou la base de données en question est conforme aux principes des données FAIR et porte une licence ouverte explicite adaptée aux données .

Aperçu

Le concept de données ouvertes n'est pas nouveau, mais sa définition formelle est relativement récente. Les données ouvertes, en tant que phénomène, désignent les données gouvernementales accessibles à tous, avec possibilité de redistribution sous quelque forme que ce soit et sans restriction de droits d'auteur. Une autre définition, dite « de données ouvertes », peut se résumer ainsi : « Une donnée est ouverte si chacun est libre de l'utiliser, de la réutiliser et de la redistribuer, sous réserve, au plus, de l'obligation de mentionner la source et/ou de partager à l'identique. » D'autres définitions, comme celle de l' Open Data Institute (« les données ouvertes sont des données auxquelles chacun peut accéder, qu'il peut utiliser ou partager »), proposent une version abrégée accessible, mais renvoient à la définition formelle. Les données ouvertes peuvent inclure des éléments non textuels tels que des cartes , des génomes , des connectomes , des composés chimiques , des formules mathématiques et scientifiques, des données médicales, ainsi que des données relatives aux pratiques, aux biosciences et à la biodiversité.

Un obstacle majeur au mouvement des données ouvertes réside dans la valeur commerciale des données. L'accès aux données, ou leur réutilisation, est souvent contrôlé par des organismes publics ou privés. Ce contrôle peut s'exercer par le biais de restrictions d'accès, de licences , de droits d'auteur , de brevets et de frais d'accès ou de réutilisation. Les défenseurs des données ouvertes soutiennent que ces restrictions nuisent à l'intérêt général et que les données devraient être disponibles sans restriction ni frais. Il existe également de nombreux autres obstacles, de moindre importance.

Les créateurs de données ne jugent pas nécessaire de préciser les conditions de propriété, de licence et de réutilisation, présumant que l'absence de revendication de droits d'auteur les fait tomber dans le domaine public . Par exemple, de nombreux scientifiques estiment que les données publiées avec leurs travaux ne leur appartiennent pas et considèrent que la publication dans une revue scientifique équivaut à une mise à disposition implicite des données dans le domaine public . L'absence de licence rend difficile la détermination du statut d'un jeu de données et peut restreindre l'utilisation des données proposées dans un esprit d'ouverture. Du fait de cette incertitude, des organismes publics ou privés peuvent agréger ces données, prétendre qu'elles sont protégées par le droit d'auteur, puis les revendre.

Principales sources

L'état des données ouvertes , un ouvrage de 2019 publié par African Minds

Les données ouvertes peuvent provenir de n'importe quelle source. Cette section répertorie certains des domaines qui publient (ou du moins envisagent de publier) une grande quantité de données ouvertes.

En sciences

Le concept d’ accès libre aux données scientifiques a été établi avec la création du système des Centres mondiaux de données , en préparation de l’ Année géophysique internationale de 1957-1958. Le Conseil international des unions scientifiques (aujourd’hui Conseil international pour la science ) supervise plusieurs Centres mondiaux de données avec pour mission de minimiser les risques de perte de données et de maximiser leur accessibilité.

Bien que le mouvement des données scientifiques ouvertes soit bien antérieur à Internet, la disponibilité d'un réseau rapide et facilement accessible a considérablement modifié le contexte des données scientifiques ouvertes , car la publication ou l'obtention de données est devenue beaucoup moins coûteuse et moins chronophage.

Le Projet Génome Humain a été une initiative majeure illustrant le potentiel des données ouvertes. Il s'appuyait sur les Principes des Bermudes , qui stipulent que : « Toutes les informations relatives aux séquences génomiques humaines […] doivent être librement accessibles et dans le domaine public afin d'encourager la recherche et le développement et d'en maximiser les retombées pour la société » . Des initiatives plus récentes, telles que le Consortium de Génomique Structurale, ont démontré que l'approche des données ouvertes peut être utilisée efficacement dans le contexte de la R&D industrielle

En 2004, les ministres des Sciences de tous les pays membres de l’ Organisation de coopération et de développement économiques (OCDE), qui regroupe la plupart des pays développés, ont signé une déclaration stipulant que toutes les données d’archives financées par des fonds publics devraient être accessibles au public. Suite à une demande et à d’intenses discussions avec les institutions productrices de données des États membres, l’OCDE a publié en 2007 les Principes et lignes directrices de l’OCDE pour l’accès aux données de recherche financées par des fonds publics, à titre de recommandation non contraignante .

Exemples de données ouvertes en science :

  • https://www.earth-system-science-data.net/ – Revue de publications décrivant et proposant des liens vers des jeux de données scientifiques ouverts relatifs aux sciences du système Terre. L’évaluation du jeu de données lui-même fait partie intégrante du processus d’évaluation par les pairs. Lancée en 2008
  • data.uni-muenster.de – Données ouvertes sur les artefacts scientifiques de l'Université de Münster, en Allemagne. Lancé en 2011.
  • Projet Dataverse Network – logiciel de dépôt d’archives favorisant le partage de données , la citation persistante des données et la recherche reproductible.
  • linkedscience.org/data – Ensembles de données scientifiques ouverts encodés sous forme de données liées . Lancé en 2011, terminé en 2018.
  • systemanaturae.org – Base de données scientifiques ouvertes sur la faune sauvage classée par espèce animale. Lancée en 2015.

Au sein du gouvernement

Il existe divers arguments en faveur de l'ouverture des données publiques. Certains partisans affirment que la mise à disposition du public d'informations gouvernementales sous forme de données ouvertes lisibles par machine peut favoriser la transparence, la responsabilité et la participation citoyenne. « Les données ouvertes peuvent être un puissant levier de responsabilité publique : elles facilitent plus que jamais l'analyse, le traitement et la combinaison des informations existantes, permettant ainsi un niveau de contrôle public inédit. » Les gouvernements qui rendent leurs données accessibles au public peuvent encourager les citoyens à s'impliquer dans les différents services publics et « valoriser ces données ». Les experts en données ouvertes ont nuancé l'impact que l'ouverture des données publiques peut avoir sur la transparence et la responsabilité des gouvernements. Dans un article largement cité, les chercheurs David Robinson et Harlan Yu soutiennent que la publication de données lisibles par machine peut donner une apparence de transparence aux gouvernements, sans pour autant les rendre plus transparents ou responsables. S’appuyant sur des études antérieures sur la transparence et la lutte contre la corruption, le politologue de la Banque mondiale, Tiago C. Peixoto, a étendu l’argument de Yu et Robinson en soulignant une chaîne minimale d’événements nécessaires pour que les données ouvertes mènent à la responsabilisation :

  1. Les données pertinentes sont divulguées ;
  2. les données sont largement diffusées et comprises par le public ;
  3. le public réagit au contenu des données ; et
  4. Les responsables publics répondent soit à la réaction du public, soit sont sanctionnés par le public par des moyens institutionnels.

Certains affirment que l’ouverture des informations officielles peut soutenir l’innovation technologique et la croissance économique en permettant à des tiers de développer de nouveaux types d’applications et de services numériques.

Plusieurs gouvernements nationaux ont créé des sites web pour diffuser une partie des données qu'ils collectent. Il s'agit d'un projet collaboratif au sein des administrations municipales visant à promouvoir une culture de l'ouverture des données ou des données publiques ouvertes.

De plus, d'autres paliers gouvernementaux ont mis en place des sites web de données ouvertes. Au Canada, de nombreuses entités gouvernementales s'engagent en faveur des données ouvertes . Data.gov répertorie les sites de 40 États américains et de 46 villes et comtés américains proposant des données ouvertes, par exemple l'État du Maryland , l'État de Californie et la ville de New York .

Au niveau international, les Nations Unies disposent d'un site web de données ouvertes qui publie des données statistiques provenant des États membres et des agences onusiennes , et la Banque mondiale a publié un ensemble de données statistiques relatives aux pays en développement . La Commission européenne a créé deux portails pour l' Union européenne : le portail de données ouvertes de l'UE , qui donne accès aux données ouvertes des institutions, agences et autres organismes de l'UE , et le portail européen des données, qui fournit des ensembles de données provenant d'organismes publics locaux, régionaux et nationaux à travers l'Europe . Ces deux portails ont été fusionnés sur data.europa.eu le 21 avril 2021.

L’Italie est le premier pays à publier des procédures et des lignes directrices standardisées sous licence Creative Commons afin de faciliter leur diffusion au sein de l’administration publique. Ce modèle ouvert, appelé Cycle de gestion des données ouvertes, a été adopté dans plusieurs régions, notamment la Vénétie et l’Ombrie . De grandes villes comme Reggio de Calabre et Gênes l’ont également adopté.

En octobre 2015, le Partenariat pour un gouvernement ouvert a lancé la Charte internationale des données ouvertes , un ensemble de principes et de bonnes pratiques pour la publication de données ouvertes gouvernementales formellement adoptés par dix-sept gouvernements de pays, d'États et de villes lors du Sommet mondial du PGO au Mexique .

En juillet 2024, l’ OCDE a adopté la licence Creative Commons CC-BY-4.0 pour ses données et rapports publiés.

Dans les organisations à but non lucratif

De nombreuses organisations à but non lucratif offrent un accès libre à leurs données, à condition que cela ne porte pas atteinte aux droits à la vie privée de leurs utilisateurs, membres ou tiers . Contrairement aux entreprises à but lucratif , elles ne cherchent pas à monétiser leurs données. OpenNWT a lancé un site web proposant des données ouvertes sur les élections. Le CIAT offre des données ouvertes à toute personne souhaitant effectuer des analyses de données massives afin d'améliorer les retombées de la recherche agricole internationale. DBLP , propriété de l'organisation à but non lucratif Dagstuhl , propose sa base de données de publications scientifiques en informatique en accès libre.

Les services d'échange d'hébergement , tels que Bewelcome, Warm Showers et CouchSurfing (avant sa commercialisation), ont permis aux scientifiques d'accéder à leurs données anonymisées à des fins d'analyse, de recherche publique et de publication.

Publication de données ouvertes

Politiques et stratégies

À petite échelle, les politiques et stratégies des entreprises ou des organismes de recherche en matière d'ouverture des données varient, parfois considérablement. L'une des stratégies courantes consiste à utiliser un espace de données partagé. Un espace de données partagé est une plateforme logicielle et matérielle interopérable qui agrège (ou regroupe) les données, l'infrastructure de données et les applications de production et de gestion des données afin de permettre à une communauté d'utilisateurs de mieux gérer, analyser et partager leurs données avec d'autres, à court et à long terme. Idéalement, cette cyberinfrastructure interopérable devrait être suffisamment robuste pour faciliter les transitions entre les différentes étapes du cycle de vie d'une collection de données et de ressources informationnelles , tout en s'appuyant sur des modèles de données et des outils d'espace de travail communs permettant et soutenant une analyse de données robuste. Les politiques et stratégies sous-jacentes à un espace de données partagé impliquent idéalement de nombreux acteurs, notamment le fournisseur de services de l'espace de données partagé, les contributeurs de données et les utilisateurs de données.

Grossman et al. proposent six considérations majeures pour une stratégie de données communes qui favorise l'ouverture des données dans les entreprises et les organismes de recherche. Une telle stratégie devrait répondre au besoin suivant :

  • Des identifiants numériques permanents et persistants, qui permettent de contrôler l'accès aux ensembles de données ;
  • métadonnées permanentes et découvrables associées à chaque identifiant numérique ;
  • Accès basé sur une interface de programmation d'application (API), lié à un service d'authentification et d'autorisation ;
  • portabilité des données ;
  • échange de données sans frais d'accès, de sortie et d'entrée ; et
  • une approche rationnée du traitement des données par les utilisateurs sur les plateformes de données communes.

Au-delà des entreprises individuelles et des centres de recherche, et à un niveau plus macro, des pays comme l'Allemagne ont lancé leurs propres stratégies nationales officielles d'ouverture des données, détaillant comment les systèmes de gestion des données et les données communes devraient être développés, utilisés et maintenus pour le bien public.

Arguments pour et contre

L'ouverture des données publiques n'est qu'une étape sur la voie de l'amélioration de l'éducation, de la gouvernance et de la création d'outils pour résoudre d'autres problèmes concrets. Si de nombreux arguments ont été avancés de manière catégorique, l'analyse qui suit des arguments pour et contre l'ouverture des données met en lumière leur forte dépendance au type de données et à leurs usages potentiels.

Les arguments avancés en faveur des données ouvertes sont les suivants :

  • « Les données appartiennent à l’ humanité ». Les génomes , les données sur les organismes, les sciences médicales et les données environnementales, conformément à la Convention d’Aarhus , en sont des exemples typiques .
  • Les travaux ont été financés par des fonds publics et devraient donc être accessibles à tous.
  • Il a été créé par ou au sein d'une institution gouvernementale (c'est courant dans les laboratoires nationaux et les agences gouvernementales américaines).
  • Les faits ne peuvent légalement faire l'objet de droits d'auteur.
  • Les commanditaires de la recherche n'en retirent pas pleinement profit si les données qui en résultent ne sont pas librement accessibles.
  • Les restrictions sur la réutilisation des données créent un anti-biens communs.
  • Les données sont nécessaires au bon déroulement des activités humaines communautaires et constituent un important moteur du développement socio-économique (soins de santé, éducation, productivité économique , etc.).
  • Dans la recherche scientifique, le rythme des découvertes est accéléré par un meilleur accès aux données.
  • Rendre les données ouvertes contribue à lutter contre la « dégradation des données » et à garantir la préservation des données de recherche scientifique au fil du temps.
  • L’apprentissage des statistiques bénéficie des données ouvertes. Les enseignants peuvent utiliser des ensembles de données pertinents au niveau local pour enseigner les concepts statistiques à leurs étudiants.
  • L’accès libre aux données au sein de la communauté scientifique est essentiel pour accélérer le rythme des découvertes et identifier les tendances significatives.

Il est généralement admis que les données factuelles ne peuvent être protégées par le droit d'auteur. Les éditeurs ajoutent fréquemment des mentions de droit d'auteur (interdisant souvent la réutilisation) aux données scientifiques accompagnant leurs publications. Il peut être difficile de déterminer si les données factuelles intégrées au texte intégral font partie du champ d'application du droit d'auteur.

Si l'extraction humaine de faits à partir de publications papier est généralement acceptée comme légale, il existe souvent une restriction implicite à l'extraction par machine effectuée par des robots.

Contrairement à l'accès ouvert , où des groupes d'éditeurs ont exprimé leurs préoccupations, les données ouvertes sont généralement contestées par des institutions individuelles. Leurs arguments ont été moins débattus publiquement et les citations pertinentes sont moins nombreuses à l'heure actuelle.

Les arguments contre la mise à disposition de toutes les données en tant que données ouvertes sont les suivants :

  • Les fonds publics ne peuvent pas être utilisés pour reproduire ou contester les activités du secteur privé (par exemple PubChem ).
  • Les gouvernements doivent rendre des comptes sur l'utilisation efficace de l'argent des contribuables : si des fonds publics sont utilisés pour agréger des données et si ces données n'apportent des avantages commerciaux (privés) qu'à un petit nombre d'utilisateurs, ces derniers devraient rembourser aux gouvernements le coût de la fourniture de ces données.
  • Les données ouvertes peuvent conduire à l’exploitation et à la publication rapide de résultats basés sur des données relatives aux pays en développement par des instituts de recherche riches et bien équipés, sans aucune autre implication ni aucun bénéfice pour les communautés locales ( recherche héliportée ) ; de même, l’accès libre historique aux forêts tropicales a conduit à l’appropriation illicite (« pillage mondial ») des ressources phytogénétiques des pays en développement.
  • Les revenus générés par la publication des données peuvent servir à couvrir les coûts de production et/ou de diffusion de ces données, permettant ainsi une diffusion continue.
  • Les revenus générés par la publication de données permettent aux organisations à but non lucratif de financer d'autres activités (par exemple, la publication de données par une société savante soutient cette société).
  • Le gouvernement confère une légitimité spécifique à certaines organisations pour recouvrer les coûts ( NIST aux États-Unis, Ordnance Survey au Royaume-Uni).
  • Les préoccupations relatives à la protection de la vie privée peuvent exiger que l’accès aux données soit limité à des utilisateurs spécifiques ou à des sous-ensembles de données.
  • La collecte, le « nettoyage », la gestion et la diffusion des données sont généralement des processus exigeants en main-d'œuvre et/ou en coûts – quiconque fournit ces services devrait recevoir une rémunération équitable pour ces services.
  • Les sponsors ne tirent pleinement profit de leurs données que si celles-ci sont utilisées de manière appropriée – ce qui nécessite parfois des efforts de gestion, de diffusion et de valorisation de la marque de qualité, qui peuvent être réalisés au mieux en facturant des frais aux utilisateurs.
  • Souvent, les utilisateurs finaux ciblés ne peuvent pas utiliser les données sans traitement supplémentaire (analyse, applications, etc.) – si quelqu'un a accès aux données, personne n'aura forcément intérêt à investir dans le traitement nécessaire pour les rendre utiles (les données biologiques, médicales et environnementales en sont des exemples typiques).
  • Il n’existe aucun contrôle sur l’utilisation secondaire (agrégation) des données ouvertes.

L'article intitulé « Optimisation de la localisation des mobilités douces grâce à des politiques durables et aux données ouvertes » soutient que les données ouvertes constituent un outil précieux pour améliorer la durabilité et l'équité des mobilités douces en milieu urbain. L'auteur affirme que ces données permettent d'identifier les besoins des différents quartiers d'une ville, de développer des algorithmes justes et équitables, et de justifier la mise en place d'infrastructures de mobilité douce.

Lien avec d'autres activités ouvertes

Les objectifs du mouvement Open Data sont similaires à ceux des autres mouvements « ouverts ».

  • L'accès ouvert vise à rendre les publications scientifiques librement accessibles sur Internet. Dans certains cas, ces articles incluent également des jeux de données ouverts.
  • Les spécifications ouvertes sont des documents décrivant des types de fichiers ou des protocoles, et dont la licence est ouverte. Ces spécifications visent principalement à améliorer les logiciels gérant les mêmes types de fichiers ou protocoles, mais les monopoles contraints par la loi à adopter des spécifications ouvertes pourraient compliquer la tâche.
  • Le contenu ouvert vise à rendre librement accessibles les ressources destinées à un public humain (telles que des textes, des photos ou des vidéos).
  • Open Knowledge International défend l'ouverture des connaissances sur divers sujets, notamment en matière de données ouvertes. Elle couvre : a) les données scientifiques, historiques, géographiques ou autres ; b) les contenus tels que la musique, les films et les livres ; c) les informations gouvernementales et administratives. Les données ouvertes sont incluses dans la définition d'Open Knowledge, mentionnée dans le protocole de Science Commons pour la mise en œuvre de l'accès ouvert aux données.
  • La science des carnets ouverts fait référence à l'application du concept de données ouvertes à la plus grande partie possible du processus scientifique, y compris les expériences ratées et les données expérimentales brutes.
  • Les logiciels libres concernent les licences libres sous lesquelles les programmes informatiques peuvent être distribués et ne concernent généralement pas en priorité les données.
  • Les ressources éducatives libres sont des documents et des médias librement accessibles et sous licence ouverte, utiles pour l'enseignement, l'apprentissage et l'évaluation, ainsi que pour la recherche.
  • La recherche ouverte / la science ouverte / les données scientifiques ouvertes (science ouverte liée) désignent une approche visant à ouvrir et à interconnecter les ressources scientifiques telles que les données, les méthodes et les outils grâce à des techniques de données liées afin de permettre une recherche transparente, reproductible et interdisciplinaire.
  • Open-GLAM (Galeries, Bibliothèques, Archives et Musées) est une initiative et un réseau qui favorisent les échanges et la collaboration entre les institutions culturelles soutenant l'accès libre à leurs collections numérisées. L' initiative GLAM-Wiki aide ces institutions à partager leurs ressources sous licence libre avec le monde entier grâce à des projets collaboratifs avec des contributeurs expérimentés de Wikipédia . Les données ouvertes sur le patrimoine sont associées à Open-GLAM, car les données sous licence libre du secteur patrimonial sont désormais fréquemment utilisées dans la recherche, l'édition et la programmation , notamment dans le domaine des humanités numériques .

Données ouvertes en tant que biens communs

Idées et définitions

Formellement, les définitions de données ouvertes et de biens communs s'articulent autour du concept de ressources partagées et facilement accessibles. Concrètement, les biens communs numériques incluent les données ouvertes, puisqu'ils comprennent les ressources en ligne, telles que les données. De manière générale, l'examen des principes opérationnels des données ouvertes révèle un certain chevauchement entre les données ouvertes et les biens communs (numériques) dans la pratique. Les principes des données ouvertes diffèrent parfois selon le type de données étudié. Néanmoins, ils se recoupent en partie et leur principal objectif est l'absence d'obstacles à la réutilisation des données (ou ensembles de données). Quelle que soit leur origine, les principes communs aux différents types de données ouvertes font écho aux éléments clés de la définition des biens communs. Il s'agit, par exemple, de l'accessibilité, de la réutilisation, de la facilité de recherche et de la non-propriété. Par ailleurs, bien que dans une moindre mesure, les menaces et les opportunités associées aux données ouvertes et aux biens communs sont similaires. En résumé, elles concernent les risques et les avantages liés à l'utilisation (non contrôlée) des ressources communes par une grande variété d'acteurs.

Le système

Les biens communs et les données ouvertes peuvent être définis par les caractéristiques des ressources qui relèvent de ces concepts, mais aussi par les caractéristiques des systèmes que leurs défenseurs promeuvent. La gouvernance est un enjeu central pour les chercheurs travaillant sur les données ouvertes et les biens communs. Les éléments clés qui caractérisent les spécificités des biens communs et des données ouvertes résident dans leurs différences (voire leur opposition) aux logiques de marché dominantes façonnées par le capitalisme. C’est peut-être cette caractéristique qui explique l’essor récent du concept de biens communs, associé à une vision plus sociale des technologies numériques, notamment des biens communs numériques et, en particulier, des biens communs de données.

Cas réel

L'application des données ouvertes au service du bien commun a été démontrée dans des travaux de recherche universitaires . L'article « Optimisation de la localisation des mobilités douces grâce à des politiques durables et aux données ouvertes » utilise les données ouvertes de deux manières. Premièrement, il les utilise pour identifier les besoins des différentes zones d'une ville. Par exemple, il peut exploiter des données sur la densité de population, la congestion routière et la qualité de l'air afin de déterminer où les ressources de mobilité douce, telles que les supports à vélos et les bornes de recharge pour véhicules électriques, sont les plus nécessaires. Deuxièmement, il utilise les données ouvertes pour développer des algorithmes justes et équitables. Par exemple, il peut utiliser des données démographiques pour garantir que les ressources de mobilité douce soient distribuées de manière à être accessibles à tous, indépendamment de l'âge, du handicap ou du sexe. L'article aborde également les difficultés liées à l'utilisation des données ouvertes pour l'optimisation des mobilités douces. L'une de ces difficultés réside dans le fait que les données ouvertes sont souvent incomplètes ou inexactes. Une autre difficulté est l'intégration de données ouvertes provenant de différentes sources. Malgré ces obstacles, l'article soutient que les données ouvertes constituent un outil précieux pour améliorer la durabilité et l'équité des mobilités douces dans les villes.

Un projet mené par Human Ecosystem Relazioni à Bologne (Italie) illustre comment la relation entre les données ouvertes et les biens communs, et comment leur gouvernance peut potentiellement perturber la logique de marché qui domine autrement le big data.

Ce projet visait à extrapoler et identifier les relations sociales en ligne liées à la « collaboration » à Bologne. Les données ont été collectées sur les réseaux sociaux et les plateformes collaboratives citoyennes. Elles ont ensuite été analysées en fonction de leur contenu, de leur signification, de leur localisation, de leur période et d'autres variables. Globalement, les relations sociales en ligne favorisant la collaboration ont été analysées à l'aide de la théorie des réseaux. L'ensemble de données ainsi obtenu a été mis à disposition en ligne sous forme de données ouvertes (agrégées et anonymisées) ; néanmoins, les individus peuvent récupérer l'intégralité de leurs données. Cette démarche s'inscrit dans l'optique de faire des données un bien commun. Ce projet illustre le lien entre données ouvertes et biens communs, et comment ils peuvent, de deux manières, remettre en question la logique marchande qui sous-tend l'utilisation du big data. Premièrement, il montre comment de tels projets, s'inscrivant dans la logique des données ouvertes, peuvent engendrer la création de véritables biens communs de données. Le projet lui-même proposait différents types d'assistance aux utilisateurs des plateformes de réseaux sociaux pour la suppression de contenus. Deuxièmement, l'ouverture des données relatives aux interactions sur les réseaux sociaux en ligne a le potentiel de réduire considérablement le pouvoir monopolistique des plateformes de réseaux sociaux sur ces données.

Mandats des bailleurs de fonds

Plusieurs organismes de financement qui imposent l’accès ouvert imposent également les données ouvertes. Les Instituts de recherche en santé du Canada (IRSC) donnent une bonne description des exigences (tronquée par endroits) :

  • déposer immédiatement les données bioinformatiques, les données de coordonnées atomiques et moléculaires et les données expérimentales dans la base de données publique appropriée dès la publication des résultats de recherche.
  • Les données originales doivent être conservées pendant au moins cinq ans après l'octroi de la subvention. Cette obligation s'applique à toutes les données, qu'elles soient publiées ou non.

Parmi les autres organismes promouvant le dépôt de données et de textes intégraux figure le Wellcome Trust . Un article universitaire publié en 2013 préconisait qu'Horizon 2020 (le mécanisme de financement de la recherche de l'UE) exige que les projets financés remettent leurs bases de données en tant que « livrables » à la fin du projet afin qu'elles puissent être vérifiées quant à leur utilisabilité par des tiers, puis partagées.