Documenter ses données

Comment décrire ses données avant de les publier ?

Sommaire

Ouvrir ses données, c’est bien, mais cela ne suffit pas. Pour qu’elles puissent être retrouvées sur Internet et éventuellement réutilisées, encore faut-il qu’elles puissent être identifiées grâce à des descripteurs précis. Il est fortement conseillé d’adopter une méthodologie dès le début du projet, afin de ne pas avoir à reprendre chaque jeu de données plusieurs mois voire plusieurs années après leur production (voir aussi les articles sur les plans de gestion de données). La description rétrospective provoque un risque de perte de données évident.

Les entrepôts de données possèdent généralement des guides d’utilisation quant à la bonne description des données avant dépôt. Dans son Aide en ligne, l’entrepôt pluridisciplinaire national Recherche Data Gouv propose ainsi un guide de saisie des métadonnées générales et un guide de saisie des métadonnées de fichier (nommage, etc.) avec les champs obligatoires ou recommandés. Il est recommandé de rédiger un fichier Readme avec les jeux de données déposés. Recherche Data Gouv offre dans sa boite à outils un modèle de fichier Readme.

Les guides de description varient selon la discipline mais peuvent tout à fait servir de modèle lorsqu’on ne connaît pas les standards associés à son domaine ou lorsqu’il y a absence de standard (1). Lorsque votre discipline le permet (cas de la cristallographie ou de l’astronomie par exemple), il est recommandé d’utiliser des standards de métadonnées existants. N’hésitez pas à consulter les standards principaux en physique et chimie.

La plupart du temps, les entrepôts prévoient un socle de métadonnées qui permet  au minimum de retrouver le jeu de données. Celui-ci correspond la plupart du temps au standard Dublin Core, créé en 1995 et composé de 15 éléments relativement basiques (titre, créateur, sujet, date…) (2). S’appuyer sur des métadonnées basiques (type Dublin Core) et y adjoindre quelques métadonnées propres à sa discipline peut être un moyen d’augmenter la visibilité de sa recherche. Plus les métadonnées sont riches, plus la recherche associée est “découvrable”.

Les services mis en place au CERN

Le CERN a mis en place un cadre précis, adapté aux volumes gigantesques de données produites. “La reproductibilité requiert d’aller au-delà de l’ouverture”, indiquent des chercheurs du CERN dans un article publié dans NaturePhysics (3) en 2018. Leur défi consiste à décrire des données en physique des particules réputées uniques du fait des appareils utilisés. Les données obtenues sont par ailleurs difficilement réplicables en raison des volumes colossaux qu’elles représentent. D’où l’importance d’une bonne description des données afin de permettre à plusieurs communautés de pouvoir s’en servir de manière optimale. Le CERN  a ainsi développé plusieurs services et outils permettant de standardiser les descriptions des fichiers et les analyses en physique des particules.

Parmi les dispositifs mis en place, le CERN Analysis Preservation. Il s’agit d’une plateforme web open source qui permet aux chercheurs de déposer tous les fichiers et documents ayant mené à une analyse. Le dépôt se décline en plusieurs étapes qu’il est nécessaire de valider (objectifs de l’analyse, personnes impliquées, provenance des données – appareils, bases de données etc.-, les données elles-mêmes, les logiciels d’analyses utilisés, les résultats finaux – graphiques, texte etc.). D’autres informations supplémentaires peuvent être ajoutées, telles que les références bibliographiques ou les “discussions internes” entre chercheurs. Toutes ces étapes sont détaillées dans la documentation, et plus exactement sur cette page

Ces prérequis permettent d’avoir un socle commun de métadonnées et d’informations permettant de bien comprendre tous les enjeux de l’analyse. De plus, les informations renseignées sont modélisées en JSON, format ouvert de données, et accessibles via une API (Application Programming Interface). Cela permet de récupérer informatiquement les informations présentes sur la plateforme. Il est également possible de restreindre l’accès aux analyses à seulement quelques collaborateurs et de placer un embargo afin de retarder l’apparition en accès libre. Bien sûr, cette plateforme est plutôt destinée aux chercheurs en physique collaborant de près ou de loin avec le CERN et utilisant les grandes infrastructures de recherche associées. Cependant, cela donne une idée du processus qui peut être mis en place et des critères à envisager pour une bonne description des données.

Les Très Grandes Infrastructures de Recherche (T.G.I.R.) françaises

Des initiatives françaises ont également vu le jour en physique-chimie avec les grandes infrastructures de recherche adossées au CNRS, à l’instar de l’Institut Laue-Langevin (ILL) à Grenoble qui dispose de son propre portail de données et d’une politique de données assez avancée. Les métadonnées à renseigner, qui sont ensuite compilées dans une base de données, comprennent par exemple la configuration des appareils ou encore la description de l’échantillon obtenu.
Même sans un cadre institutionnel très défini, la mise en place de bonnes pratiques peut se faire relativement simplement : le fait d’adjoindre aux données un fichier de type lisezmoi (‘readme’ en anglais) permet de décrire en détail la façon dont les données ont été obtenues et dans quel but. Vous pourrez par exemple retrouver ici le guide de construction des fichiers readme pour l’entrepôt de données 4TU associé à l’Université de Twente et l’Université de Delft aux Pays-Bas.

L’exemple de l’Université de Cambridge

A l’Université de Cambridge, des chercheurs ont dès le milieu des années 2000 mené un projet, baptisé Spectra (4), visant à améliorer la réutilisation des données en chimie organique, en cristallographie et en chimie computationnelle (5). Une application web a été mise au point, afin de faciliter la collecte de métadonnées, avant le dépôt des jeux de données dans l’entrepôt institutionnel Dspace. Parmi les métadonnées choisies, certaines sont très basiques (créateur de la données, date) quand d’autres sont plus spécifiques (formule chimique, identifiant InChi etc).
Une réflexion a été menée à la suite du projet Spectra (6) afin d’améliorer le dépôt des données en chimie. L’un des objectifs consistait à automatiser une partie des métadonnées. Ainsi, pour chaque jeu de données d’une même collection, une partie des métadonnées est automatiquement remplie. Par exemple, pour une molécule, des algorithmes sont utilisés pour générer l’identifiant InChI. Ensuite, ces informations sont ajoutées au schéma de métadonnées de DataCite dans la partie “sujet”. DataCite peut ainsi grâce aux métadonnées attribuer un DOI à chaque collection et chaque jeu de données. Voir un exemple ici.

  1. Nathalie Reymonet, Magalie Moysan, Aurore Cartier, Renaud Délémontez. Réaliser un plan de gestion de données “ FAIR ” : modèle . 2018. ffsic_01690547v2
  2. Plus d’informations sur le site de la BnF.
  3. Chen, Xiaoli, et al. “Open Is Not Enough.” Nature Physics, vol. 15, no. 2, Feb. 2019, pp. 113–19, doi:10.1038/s41567-018-0342-2.
  4. Submission, Preservation and Exposure of Chemistry Teaching and Research Data.
  5. Downing, Jim, et al. « SPECTRa: The Deposition and Validation of Primary Chemistry Research Data in Digital Repositories ». Journal of Chemical Information and Modeling, vol. 48, no 8, août 2008, p. 1571‑81. ACS Publications, doi:10.1021/ci7004737.
  6. Matthew J. Harvey, Andrew McLean, Henry S. Rzepa, « A metadata-driven approach to data repository design ». Journal of Cheminformatics. s. d., doi:10.1186/s13321-017-0190-6