Conserver ses données

Que garder, que supprimer ?

Sommaire

Une absence cruelle de consensus

Si la publication des données devient une injonction récurrente, aucun consensus ne se dessine quant au choix des données qu’il est nécessaire de garder à long terme.

Pourquoi ne pas tout garder ?

Avec l’évolution technologique et des différents appareils de mesure utilisés dans la recherche, le volume des données de recherche numériques à traiter et à conserver augmente de manière exponentielle.

A ceux qui disent « gardons tout ! », Whyte et Wilson (1) objectent 4 faits :

  • La quantité des données de recherche augmente trop (dans certaines disciplines comme l’astronomie ou la physique des particules, ce sont désormais plusieurs Terra-octets de données qui sont générées chaque jour) ;
  • Les copies effectuées pour sécuriser les données multiplient au moins par 2 le coût de conservation des données ;
  • Il devient de plus en plus difficile de trouver les données qui nous intéressent, et
  • La gestion et la préservation coûtent du temps et de l’argent, dépenses dont on peut se passer pour des données qui ne nécessitent pas d’être gardées.

Il est important également de se demander si les données seront utilisables par d’autres : sont-elles correctement décrites ? Sont-elles enregistrées sous un format qui permettra leur réutilisation ?

Le logigramme ci-dessous présente les grands principes de la sélection des données pour l’archivage.

source : Magalie Moysan, Coordinatrice pôle Sécurisation des données et documents, responsable département archives, Univ. de Paris

Comment choisir ?

Ainsi, la nécessité d’évaluer les données, et choisir quelles données doivent être conservées ne semble plus à prouver. Dans son rapport intitulé « What to keep ? », le JISC (Joint Information Systems Committee) (2) récapitule les questions-clés  :

  • Que faut-il garder ?
  • Pourquoi ?
  • Pour combien de temps ?
  • Où ?
  • Et comment ?

Les différences entre les disciplines de recherche, voire entre les différentes sous-disciplines d’un même champ de recherche étant trop importantes, ces questions n’ont malheureusement pas de réponse générale. Pour certaines communautés, le besoin de recourir à des données anciennes fait partie intégrante de la méthode de travail. C’est par exemple le cas pour les spécialistes des éco-systèmes marins, qui peuvent s’appuyer sur les données du Conseil International pour l’Exploration de la Mer, dont certains jeux de données s’étendent sur plus de 100 ans (3)

Malgré les disparités disciplinaires, il existe cependant quelques pistes de réflexion susceptibles de vous aider.

Motifs de préservation des données

Tjalsma et Rombouts (4) identifient 3 motifs principaux de conservation des données de recherche sur le long terme :

  • Permettre la réutilisation des données (par la même équipe de recherche, ou non, par des utilisateurs de la même discipline de recherche, ou non, …)
  • Permettre la vérification des données et découvertes s’appuyant sur elles (évaluation par les pairs, confiance du public envers la recherche académique ou privée, …)
  • Conservation pour des questions d’héritage (recherche historique, histoire des sciences, héritage culturel national ou international, …)

Obligations légales ou contractuelles

Pour chacune de ces options, il faut d’abord se demander s’il existe des obligations de préserver les données pour le long terme – soient-elles légales, ou imposées par les financeurs de la recherche ou par les éditeurs de journaux scientifiques (pour plus d’informations, voir les articles sur les exigences des financeurs et des éditeurs de journaux scientifiques).
Il est aussi important de prendre en compte toute obligation de ne pas préserver des données (exemple des données personnelles, récoltées pour une utilisation précise avec consentement préalable).

Valeur scientifique des données

Une fois les considérations légales, réglementaires et contractuelles prise en compte, d’autres critères entrent en compte :

  • Quelle est la valeur des données évaluées ? (valeur actuelle, et valeur future estimée)
    • Valeur scientifique / historique / culturelle
    • Valeur financière : coûts de production, coûts potentiels de préservation
  • Les données sont-elles uniques ? Quel est le risque lié à la perte de ces données ? Peuvent-elles être répliquées ? (exemple observation astronomique d’un événement unique) 

Les chercheurs, créateurs et utilisateurs des données, sont souvent les mieux placés pour répondre sur les questions de valeur et d’unicité des données avec lesquelles ils travaillent. Dans le cadre du projet NanOQTech, coordonné par le CNRS et impliquant notamment des équipes en chimie inorganique, physique atomique et optique quantique, les chercheurs estiment que la préservation de long terme des données est “importante” du fait du caractère “hautement prospectif” de NanOQTech, qui pourra connaître des “développements futurs complètement inconnus à l’heure actuelle”.

Les critères techniques

Dans différents rapports et documents exprimant des lignes directrices (4, 5 et 6), on trouve aussi tout une gamme de critères plus techniques, portant sur le stockage des données.

Ces critères, généralement, ne permettent pas en eux-mêmes de prendre une décision quant à la préservation à long terme des données. Il est cependant nécessaire de les clarifier avant toute décision.

  • Quels sont formats utilisés, et pourquoi (ouverts / propriétaires, quels logiciels, sous quelles versions, …) ?
  • La description des données, sous la forme des métadonnées, est-elle accessible et suffisante pour permettre leur réutilisation ?
  • Quels types de données (brutes, traitées, publiées,…) ?
  • Quelles restrictions d’accès et d’utilisation des données (licences, copyright, brevets,…) ?
  • Comment les données sont elles préservées, quelles sont les infrastructures disponibles (bases de données institutionnelles, entrepôts disciplinaires ou multidisciplinaires, le ou lesquels,…) ?
  • Quels sont les coûts de préservation des données, et comment sont-ils couverts, par qui sont-ils financés ?

Combien de temps faut-il garder les données de recherche ?

Certains établissements de recherche et d’enseignement supérieur ont déjà commencé à définir des guides d’aide à la décision pour leurs chercheurs, mais il n’existe encore une fois aucune réponse générale pour les chercheurs dont les institutions n’ont pas mis en place de politiques de préservation de données.
Les durées pendant lesquelles il est demandé aux chercheurs de conserver leurs données varient beaucoup dans les exemples de politiques de conservation des données.
5 ans après la fin du projet dans le code de conduite des Pays-Bas pour les pratiques scientifiques, 10 ans dans le guide de rétention des données de l’université de Cambridge.
L’institut Pasteur indique que les cahiers de laboratoire étant conservés 25 ans, il devrait en aller de même pour les données de recherche. (7, 8 et 9)
Pour les projets de recherche financés par le programme Horizon 2020, bien que la durée de préservation des données de recherche générées par le projet ne soit pas spécifiée, l’article 18 de la convention de financement précise que les documents permettant de justifier des budgets par exemple, doivent être gardés au minimum 5 ans après le paiement du solde final (cette durée peut être diminuée à 3 ans pour les projets les plus courts). (10)
Certains projets choisissent donc de préserver pour cette même durée de 5 ans les données de recherche qu’ils génèrent. C’est le cas par exemple du projet POLYPHEM travaillant sur les centrales solaires à concentration de petite envergure. (11)

On trouve une constante dans le fait que plus d’intérêt est porté aux données liées à des essais cliniques et aux observations astronomiques ou environnementales, et qu’elles doivent être conservées plus longtemps.

Quand prendre toutes ces décisions ?

Les archivistes, bibliothécaires et experts en gestion de données sont formels : plus les décisions de préservation des données sont prises tôt dans leur processus de création, plus on est capables de prévoir les conditions de préservation (obligations légales et contractuelles, et critères techniques de formats, descriptions, structure des jeux de données, coûts et financements…).

Il est cependant difficile d’évaluer à l’avance la valeur future d’un jeu de données, et plus encore si on ne connaît pas encore précisément son contenu. Il est donc nécessaire que les décisions puissent évoluer avec l’avancement des projets de recherche.
Par exemple, la valeur des données de l’ESA (Agence Spatiale Européenne) a été réévaluée après leur création avec la problématique croissante du changement climatique.

Pour plus de précisions sur ces sujets, voir les articles sur les plans de gestion de données et les exigences des financeurs.

Perspectives et conclusion

La gestion et la préservation des données de la recherche est une discipline en évolution constante, et les critères de sélection et validation des données esquissés aujourd’hui sont voués à varier rapidement dans les années à venir.

Il semble important, pour faire progresser cette discipline, que les différentes disciplines et sous disciplines de la recherche (voire même dans un premier temps les unités de recherche) réussissent, pour celles qui ne l’ont pas encore fait, à développer des critères d’évaluation et de sélection adaptés aux données qu’elles créent et utilisent.
Pour permettre aux communautés (disciplinaires et multi disciplinaires) de chercheurs de développer ces critères, il est également nécessaire que les différentes parties prenantes échangent ensemble, afin notamment :

  • d’harmoniser les demandes et conditions des organismes et institutions de financement et de recherche
  • de définir les règles communes quant à l’importance des données dans l’évaluation des travaux de recherche et des chercheurs
  • de définir les modalités de financement de la préservation des données de la recherche
  1. Whyte, A. & Wilson, A. (2010). « How to Appraise and Select Research Data for Curation ». DCC How-to Guides. Edinburgh: Digital Curation Centre. Accessible en ligne : http://www.dcc.ac.uk/resources/how-guides
  2. Beagrie , Neil (2019) « What to Keep: A Jisc research data study ». [Publication] Accessible en ligne : https://repository.jisc.ac.uk/7262/
  3. Tâche 7.2 du projet AtlantOS : Data Management Handbook. Accessible en ligne : https://www.atlantos-h2020.eu/download/7.4-Data-Management-Handbook.pdf
  4. Selection of Research Data, Guidelines for appraising and selecting research data, Heiko Tjalsma – Data Archiving and Networked Services (DANS), Jeroen Rombouts – 3TU.Datacentrum
  5. The NERC Data Value Checklist (NERC 2015 – first version issued in 2013)
  6. DCC (2014). ‘Five steps to decide what data to keep: a checklist for appraising research data v.1’. Edinburgh: Digital Curation Centre. Accessible en ligne : http://www.dcc.ac.uk/resources/how-guides
  7. Université de Cambridge : Déclaration sur la gestion et la rétention des documents (Statement of Records Management Practice and Master Records Retention Schedule.) Accessible en ligne : https://www.information-compliance.admin.cam.ac.uk/records-management
  8. Code de conduite pour les pratiques scientifiques des Pays-Bas (Netherlands Code of Conduct for Scientific Practices)
  9. Archivage / Conservation à long terme des données de recherche, Ceris et Institut Pasteur
  10. Version 5.2 du modèle de convention de subvention du programme Horizon 2020 (26/06/2019) (H2020 AGA – Annotated Model Grant Agreement V5.2). Accessible en ligne : https://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/amga/h2020-amga_en.pdf
  11. D9.1 POLYPHEM Data Management Plan (Plan de gestion de données du projet POLYPHEM)
    Accessible en ligne : https://ec.europa.eu/research/participants/documents/downloadPublic?documentIds=080166e5be029c44&appId=PPGMS
  12. NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. Accessible en ligne : https://www.nsf.gov/pubs/2005/nsb0540/