L’archivage : une question sensible
L’archivage : une question sensible
Lorsqu’un projet se termine, on est amené à décider du sort fait aux données produites. Peut-on opter pour une suppression partielle de certaines d’entre elles ? Leur valeur intrinsèque justifie-t-elle, au contraire, d’envisager une solution d’archivage de long terme, aussi coûteuse soit-elle ?
Plusieurs solutions existent pour préserver les données et leur intégrité dans le temps.
Acteur majeur en matière d’archivage scientifique et basé à Montpellier, le CINES (Centre Informatique National de l’Enseignement Supérieur) est une solution qui assurera la pérennité de vos données. La première étape consiste à envoyer une lettre d’intention adressée au directeur du CINES et contenant la présentation du projet, les types de données, les formats utilisés ainsi que la volumétrie des jeux de données. Ces informations sont présentes dans le plan de gestion de données s’il a été réalisé. Une équipe projet sera ensuite déployée pour mettre en œuvre l’archivage des données, qui se déroule en général sur une durée comprise entre 6 mois et 1 an. Les coûts varient selon le type de service (nombre de copies sur disque ou bande magnétique) et selon la volumétrie de données à archiver (3).
Pour les projets les moins volumineux (inférieurs à 10 téraoctets), le tarif de base applicable s’élève à 1043 euros TTC par To archivé et par an. Le service inclut une copie locale sur disque, une copie locale sur bande et une réplication à 300 km de distance.
Pour les projets les plus volumineux (supérieurs à 100 To), le coût est ramené à 221 euros TTC par To archivé. Le service comprend cette fois deux copies locales sur bande et une réplication à distance.
La mise en place de ces prestations suppose, au préalable, le paiement d’un forfait d’accompagnement de 2500 euros TTC.
A partir du site du Cines, il est également possible d’accéder à la plateforme FACILE, un outil en ligne de validation des formats. La plateforme dispose également de la liste des formats éligibles au dépôt et de la possibilité de contacter un expert si besoin.
La plateforme EUDAT.eu, citée précédemment, possède « un système de préservation des données sur le long terme » avec le service B2Share. Toutefois, l’outil B2SHARE ne se présente pas comme une solution d’archivage avec engagement sur la lisibilité des contenus à long terme, contrairement au CINES.
Le service est gratuit pour tous les chercheurs européens, qu’ils soient affiliés à des organismes de recherche, des Universités ou non-affiliés. Les jeux de données disposent d’un identifiant pérenne distribué par la plateforme. Certaines métadonnées de base doivent être renseignées tels que le titre et la description des données. Il est bien sûr tout à fait possible de renseigner plus de métadonnées, notamment grâce à la présence d’extensions et d’interfaces spécifiques à certaines communautés.
Comme le mot en anglais share l’indique, les données peuvent être publiées et partagées avec les communautés. En revanche, c’est toujours à l’utilisateur de définir la politique d’accès de ses données, il peut donc s’il le souhaite restreindre l’accès.
Pour améliorer la recherche de données dans B2SHARE, EUDAT a par ailleurs intégré un service d’annotations : B2NOTE. Ces annotations permettent de classifier des groupes de données ou des fichiers. Trois types d’annotations sont disponibles. Premièrement, le tag sémantique, provenant d’ontologies existantes (actuellement uniquement depuis Bioportal (4), avec des ontologies pour la biologie). Deuxièmement, il est possible de créer et d’associer des mots-clés de son choix, lorsqu’un tag n’est pas présent. Troisièmement, il est possible de laisser des commentaires décrivant de manière plus complète la ressource.
Bien que cet outil ne soit pas indispensable, il peut être intéressant de l’utiliser pour améliorer l’indexation de ses propres données ou pour effectuer des recherches plus fines dans les données de B2SHARE.
- “Le stockage des données sur des ordinateurs portables, des disques durs externes, ou des périphériques de stockage tels que des clés USB n’est pas recommandé.” Voir modèle de PGD de l’ANR : https://anr.fr/fileadmin/documents/2019/ANR-modele-PGD.pdf
- “Zenodo makes no promises of usability and understandability of deposited objects over time.” https://about.zenodo.org/policies/
- Comment archiver au CINES : https://www.cines.fr/archivage/comment-archiver-au-cines/
- https://bioportal.bioontology.org/