Conserver ses données

Les outils à envisager

Sommaire

Le stockage : serveurs et outils collaboratifs

Dans les pratiques les plus courantes, les données sont stockées sur un ordinateur, un disque dur externe ou une clef USB, cette dernière solution étant aussi pratique que risquée (1). La plupart du temps, les utilisateurs se rendent compte du péril encouru au moment où le dommage a déjà eu lieu : crash de la machine, écrasement des données par inadvertance, perte ou vol… 

L’utilisation d’un serveur, qui présente moins de risques et un espace de stockage plus important, est un support incontournable des projets de recherche. Cette centralisation des ressources est souvent complétée par des outils collaboratifs qui favorisent le partage d’informations entre les membres d’une équipe-projet, surtout lorsque celle-ci est régie par de multiples tutelles.

L’Université de Lyon 1 propose par exemple une plateforme collaborative baptisée Box UCBL reposant sur la technologie NextCloud (logiciel libre d’hébergement de fichiers). Tout utilisateur possédant un compte Lyon 1 peut s’y connecter et partager des fichiers, avec un espace de 5 Go maximum. Le partage de fichiers fonctionne comme un Drive et il est possible d’envoyer un lien à son interlocuteur afin que celui-ci rejoigne un espace de travail tout en modulant ses droits. L’UMS Gricad propose aux chercheurs travaillant sur le périmètre de l’Université Grenoble Alpes des infrastructures de calcul intensif et de traitement de donnée, un cloud (avec des serveurs virtuels) et une plateforme de travail collaboratif.

Le stockage est indissociable des conventions de nommage des fichiers, afin de faciliter leur identification plusieurs semaines, mois ou années après leur création. Pour des données associées à une expérience, on peut par exemple noter l’intitulé de l’expérience, le projet associé et la date de réalisation.

Outre les serveurs institutionnels classiques, des outils sécurisés sont disponibles en ligne. La plateforme EUDAT.eu, soutenue par les programmes de recherche européens (PCRD 7 et H2020), propose par exemple plusieurs services en ligne, couvrant les différents besoins en gestion de données comme le stockage, la recherche et l’archivage.

B2Drop permet par exemple de stocker des données de recherche et les synchroniser sur plusieurs appareils. On peut également partager des données avec des collègues ou membres d’un groupe. Il accorde 20 Go de données par utilisateur et 2 Go par fichier. Il a vocation à être utilisé uniquement pour des données utilisées fréquemment, au cours d’un projet entre plusieurs établissement par exemple. Il n’y a pas de métadonnées associées aux données.

Les entrepôts de données, initialement conçus pour favoriser la publication en open access des données scientifiques, présentent des modalités de diffusion variées (accès ouvert, accès restreint, embargo…) Ils peuvent, d’une certaine manière, faire office d’instance de stockage. C’est dans ce sens que certains chercheurs entrevoient Zenodo, l’entrepôt de données mis à disposition par le Cern. La plateforme, qui se présente comme un projet expérimental d’une durée minimum de 20 ans, ne s’engage cependant pas à assurer la lisibilité des données dans le temps (2). L’infrastructure de l’entrepôt est sécurisée, fournit des identifiants pérennes (DOI) et accepte des jeux de données volumineux, dans la limite de 50 Go. Le dépôt sur Zenodo suppose de décrire les données afférentes : titre, auteur, version, mots-clés etc. Cette méthode vous permettra d’économiser de la place sur vos machines personnelles et de savoir exactement où retrouver vos données.

L’archivage : une question sensible

Lorsqu’un projet se termine, on est amené à décider du sort fait aux données produites. Peut-on opter pour une suppression partielle de certaines d’entre elles ? Leur valeur intrinsèque justifie-t-elle, au contraire, d’envisager une solution d’archivage de long terme, aussi coûteuse soit-elle ?

Plusieurs solutions existent pour préserver les données et leur intégrité dans le temps.

Acteur majeur en matière d’archivage scientifique et basé à Montpellier, le CINES (Centre Informatique National de l’Enseignement Supérieur) est une solution qui assurera la pérennité de vos données. La première étape consiste à envoyer une lettre d’intention adressée au directeur du CINES et contenant la présentation du projet, les types de données, les formats utilisés ainsi que la volumétrie des jeux de données. Ces informations sont présentes dans le plan de gestion de données s’il a été réalisé. Une équipe projet sera ensuite déployée pour mettre en œuvre l’archivage des données, qui se déroule en général sur une durée comprise entre 6 mois et 1 an. Les coûts varient selon le type de service (nombre de copies sur disque ou bande magnétique) et selon la volumétrie de données à archiver (3).

Pour les projets les moins volumineux (inférieurs à 10 téraoctets), le tarif de base applicable s’élève à 1043 euros TTC par To archivé et par an. Le service inclut une copie locale sur disque, une copie locale sur bande et une réplication à 300 km de distance.

Pour les projets les plus volumineux (supérieurs à 100 To), le coût est ramené à 221 euros TTC par To archivé. Le service comprend cette fois deux copies locales sur bande et une réplication à distance.

La mise en place de ces prestations suppose, au préalable, le paiement d’un forfait d’accompagnement de 2500 euros TTC.

A partir du site du Cines, il est également possible d’accéder à la plateforme FACILE, un outil en ligne de validation des formats. La plateforme dispose également de la liste des formats éligibles au dépôt et de la possibilité de contacter un expert si besoin.

La plateforme EUDAT.eu, citée précédemment, possède « un système de préservation des données sur le long terme » avec le service B2Share. Toutefois, l’outil B2SHARE ne se présente pas comme une solution d’archivage avec engagement sur la lisibilité des contenus à long terme, contrairement au CINES. 

Le service est gratuit pour tous les chercheurs européens, qu’ils soient affiliés à des organismes de recherche, des Universités ou non-affiliés. Les jeux de données disposent d’un identifiant pérenne distribué par la plateforme. Certaines métadonnées de base doivent être renseignées tels que le titre et la description des données. Il est bien sûr tout à fait possible de renseigner plus de métadonnées, notamment grâce à la présence d’extensions et d’interfaces spécifiques à certaines communautés.

Comme le mot en anglais share l’indique, les données peuvent être publiées et partagées avec les communautés. En revanche, c’est toujours à l’utilisateur de définir la politique d’accès de ses données, il peut donc s’il le souhaite restreindre l’accès.

Pour améliorer la recherche de données dans B2SHARE, EUDAT a par ailleurs intégré un service d’annotations : B2NOTE. Ces annotations permettent de classifier des groupes de données ou des fichiers. Trois types d’annotations sont disponibles. Premièrement, le tag sémantique, provenant d’ontologies existantes (actuellement uniquement depuis Bioportal (4), avec des ontologies pour la biologie). Deuxièmement, il est possible de créer et d’associer des mots-clés de son choix, lorsqu’un tag n’est pas présent. Troisièmement, il est possible de laisser des commentaires décrivant de manière plus complète la ressource.

Bien que cet outil ne soit pas indispensable, il peut être intéressant de l’utiliser pour améliorer l’indexation de ses propres données ou pour effectuer des recherches plus fines dans les données de B2SHARE.

  1. “Le stockage des données sur des ordinateurs portables, des disques durs externes, ou des périphériques de stockage tels que des clés USB n’est pas recommandé.” Voir modèle de PGD de l’ANR : https://anr.fr/fileadmin/documents/2019/ANR-modele-PGD.pdf
  2. “Zenodo makes no promises of usability and understandability of deposited objects over time.” https://about.zenodo.org/policies/
  3. Comment archiver au CINES : https://www.cines.fr/archivage/comment-archiver-au-cines/
  4. https://bioportal.bioontology.org/