Adopter un plan de gestion des données

Un Plan de Gestion des Données : à quoi ça sert ?

« Cela a l’air ennuyeux, mais c’est essentiel. » (1)
Non sans humour, un éditorial de Nature résume le défi qui attend les chercheurs invités à produire des plans de gestion des données, désormais considérés comme un livrable obligatoire par les organismes de financement de la recherche, à l’échelle nationale et européenne. 

Si les plans de gestion des données peuvent être perçus comme un document administratif fastidieux à renseigner, ils se révèlent souvent utiles pour formaliser et résoudre les problématiques générées par la gestion des données et des codes durant tout leur cycle de vie dans le cadre de toute recherche, et notamment pour les doctorants.

Rédiger un Plan de Gestion des Données : une exigence et des enjeux

Dès 2017, dans le cadre du pilote sur l’Open Research Data, l’ERC a instauré la rédaction d’un plan de gestion de données dans les 6 mois suivant l’allocation du financement. Depuis 2021, tous les récipiendaires d’un financement européen ont cette obligation. La première version du PGD doit être fournie dans les 6 premiers mois suivant le lancement du projet. Deux mises à jour de ce document sont à opérer a minima (une à mi-projet et une fin de projet). Le modèle de PGD recommandé par Horizon Europe est totalement orienté vers la FAIRisation des données. A noter, la réflexion sur la gestion des données dans une perspective FAIR s’amorce dès la rédaction du projet de recherche soumis dans le cadre d’Horizon Europe. Dans la description technique de la proposition, une section concerne les modalités de gestion des données et des autres produits de recherche : “ Applicants generating/collecting data and/or other research outputs (except for publications) during the project must provide maximum 1 page on how the data/ research outputs will be managed in line with the FAIR principles (Findable, Accessible, Interoperable, Reusable), addressing the following (the description should be specific to your project).”

En France, depuis 2019, les porteurs de projets soutenus par l’ANR doivent fournir à cette dernière un plan de gestion des données, communicable dans les six mois qui suivent le démarrage du projet. Le document, de nature évolutive, a vocation à être ajusté à mi-parcours, avant la transmission de la version définitive, pour les projets de plus de 30 mois. Toutefois, “le dernier versement de l’aide est conditionné par la réception d’un PGD et de ses mises à jour à la date de fin des travaux scientifiques”, comme le précise la FAQ PGD

Le document, décliné en différentes thématiques vise à anticiper chaque étape de la gestion, en lien avec le cycle de vie de la donnée : collecte ou production, organisation – documentation, stockage, sécurité, traitement, partage et conservation, aspects juridiques.

  • Quelles données vont être obtenues : quels types de données, comment sont-elles collectées, où les stocker, comment on sécurise le stockage, quelle volumétrie, quels formats, quelle organisation, quelle documentation …
  • Comment vont-elles être utilisées : comment on les partage pendant le projet, comment on les traite, où on les traite,
  • Comment elles vont être stockées et sauvegardées
  • Comment elles vont être valorisées : comment les diffuser, sous quel format, sous quelle licence, quelles données, comment associer les codes, …
  • Comment elles vont être préservées : à quel terme, quelles données, où, comment …
  • Comment assurer le financement des ressources nécessaires ?

Au-delà du livrable et des exigences administratives des agences de financement, le PGD est une incitation à la planification de la démarche de gestion des données de recherche associées à un projet. Initiée dès le dépôt de la demande de financement, la réflexion sur les données produites et leur gestion se construit avec le projet et s’affine tout au long du celui-ci.

Enjeux et intérêt pour les chercheurs

Si le Plan de gestion des données (PGD) est exigé par de nombreuses agences de financement, rédiger un PGD présente aussi un intérêt pratique, que vous soyez chercheur, porteur de projet, directeur de laboratoire, responsable d’équipement ou doctorant. 

Il facilite la mise en place de bonnes pratiques à toutes les étapes de la recherche (collecte, analyse, diffusion ..)  selon les principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable).

Il vous donne une vision d’ensemble des données que vous produisez et utilisez, tout au long de votre projet

Il décrit vos stratégies et pratiques de gestion des données.

Il permet de s’assurer que des données ayant une valeur scientifique pour votre équipe et votre communauté sur le moyen/long terme seront traitées et conservées efficacement, en toute sécurité et d’anticiper d’éventuels problèmes de stockage ou questions juridiques que votre projet pourrait soulever.

Il documente la traçabilité des données, les responsabilités, les droits d’utilisation et de réutilisation et la façon dont les données pourront être partagées entre les partenaires. Le PGD clarifie l’ensemble de ces points et permet d’inscrire votre projet dans une démarche de science ouverte. 

Le PGD est donc d’une grande utilité, pour ses partenaires mais aussi pour soi.

  • Pour soi : une recherche, un doctorat s’inscrivant sur plusieurs années, le PGD permet de garder une trace pour soi de l’évolution du projet, des décisions concernant la gestion des données.
  • Pour les partenaires d’un projet, pour l’équipe. Le PGD facilite le partage d’information entre les membres de l’équipe projet. Il est d’autant plus utile qu’il est intégré dans les process de travail des équipes : réfléchir au PGD dès la phase d’élaboration du projet, permet d’intégrer les coûts associés au budget du projet, d’identifier les responsabilités, d’intégrer la gestion des données dans les processus de travail des équipes et d’anticiper la documentation et la réutilisation des informations préexistantes.

En bref le PGD permet :
– de gagner du temps et d’économiser des ressources
– d’anticiper et gérer les risques associés à la perte des données, à la divulgation malveillante de données sensibles ou confidentielles
– de prévoir les coûts associés au stockage, à la documentation, au nettoyage et à la sélection des données de recherche, à chaque étape du cycle de vie de la donnée
– d’identifier les démarches juridiques, les points à discuter entre partenaires pour répondre à des obligations légales et éthiques, en amont du projet
– de faciliter l’accès aux données mais aussi leur compréhension et appropriation par des utilisateurs potentiels (par exemple par de nouveaux membres du projet)
– d’attribuer la responsabilité de la gestion des données à chaque étape du cycle de vie ou pour des tâches spécifiques à des membres identifiés de l’équipe

Différents périmètres d’application du PGD

Si le PGD le plus répandu est le PGD d’un projet de recherche, il est possible (et recommandé) de décliner ce type de document dans différents contextes :

  • Pour un doctorat : si toutes les questions ne sont pas forcément du ressort du doctorant, les questions relatives à la production ou réutilisation de données, à leur organisation, leur description, leur stockage, leur sauvegarde et leur diffusion. Il est donc important de réfléchir à un PGD le plus en amont possible, plan qui pourra être une trame de discussion avec les encadrants, les responsables d’équipes, etc.
  • Pour une entité (laboratoire, par exemple). Dans ce cas, le PGD aide à définir et décrire la politique d’une entité en terme de gestion des données de recherche : comment les rôles sont répartis au sein de l’équipe, quels moyens sont alloués à cette gestion, quelles sont les pratiques partagées au sein de la structure en matière de gestion, de partage des données produites, quels sont les dispositifs de stockage ou de sauvegarde. Ces éléments peuvent ensuite être repris dans les PGD des projets dépendant de ce laboratoire.
  • Pour les codes et logiciels de recherche : pour anticiper les questions concernant le développement et la valorisation des codes et logiciels, il est possible de rédiger un plan spécifique à ce type de production scientifique : au moment de la rédaction d’un plan de gestion des données, il est désormais possible d’indiquer, comme produit de recherche, un code ou un logiciel. Le questionnaire a été conçu pour prendre en compte les spécificités du cycle de vie des codes sources et logiciels (par ex, pour l’environnement de développement, et d’exécution, la forge, le gestionnaire de version, le langage, les dépendances, etc.). 

Un modèle de PGD

Il existe différents modèles de plan de gestion de données, émanant de différents établissements ou financeurs.

Cependant, un modèle commun de PGD, le modèle Science Europe structuré, est désormais  recommandé par le Comité Science Ouverte, toutes les agences de financement françaises (ADEME, ANR, ANRS-MIE, Anses, FRM, INCa) et de nombreux établissement

Ce modèle structuré est accessible par défaut sur le site DMP OPIDoR. Il permet la récupération automatique d’informations (par ex sur les projets financés), l’utilisation d’identifiants pérennes (ORCID, ROR, DOI), l’intégration de référentiels propres aux communautés (standards de métadonnées par exemple) dans le respect des principes FAIR

Il facilite les échanges d’informations avec l’ANR et différents services en charge de la gestion des données (mésocentres par exemple). Il est lisible par les
Il intègre également la gestion des codes et logiciels, au sein d’un même PGD. 

Le modèle commun permet de produire des formats de PGD lisibles par les humains et exploitables par les machines et un format d’échange conforme aux recommandations RDA.

Un outil : DMP Opidor

Créé en 2016, DMP Opidor est un outil d’aide à la création en ligne de plans de gestion de données (Data Management Plan ou DMP). Cet outil est hébergé et géré par l’Inist-CNRS.

Il comporte plusieurs fonctionnalités intéressantes : 

  • Possibilité de rédaction collaborative, de relecture, de commentaire
  • Possibilité d’export et de partage
  • Consultation des recommandations rédigées par l’ANR, un certain nombre d’établissements, consultation des PGD publics
  • Possibilité de mise en relation avec une cellule d’accompagnement en proximité (par exemple, les ateliers de la donnée)
  • Possibilité de partage automatique avec l’Agence nationale de la recherche (ANR).

Des webinaires sont organisés très régulièrement par l’INIST pour accompagner la rédaction des PGD depuis la plateforme. Il existe également un tutoriel sur DoraNum : l’outil de rédaction de DMP Opidor.

D’autres outils existent au niveau international : 

Avec le développement de l’IA générative, des outils ont été développés pour assister la rédaction de plans de gestion de données. Ils sont souvent encore en phase expérimentale (tel, cet outil ou de celui-ci. Ces outils sont à envisager avec prudence: les données relatives à votre projet risquent-elles d’être divulguées ou réutilisées pour alimenter le modèle ? Les informations fournies sont-elles exactes ou hallucinées ? Quel est le coût environnemental de l’usage de cet outil ? 

 Autres ressources

Plusieurs guides peuvent aider la rédaction : 

Un site SOS PGD  référence les les services proposés dans les universités françaises pour accompagner les chercheurs dans la rédaction d’un plan de gestion de données.

Quelques sites peuvent enfin orienter les chercheurs sur certaines questions spécifiques :

  • Des outils d’estimation des coûts afférents à la gestion des données. Celui-ci, développé par la plus grande Université publique des Pays-Bas (TU Delft), repose sur la part d’emploi temps plein nécessaire en fonction du volume de données produites (inférieur ou supérieur à 5 To), le caractère confidentiel ou non des données traitées, le nombre de partenaires et les éventuels enjeux de données personnelles. Cet autre outil, développé par l’EPFL en Suisse, prend en compte les coûts d’infrastructures (serveur, cahiers de laboratoire électroniques, entrepôts de données etc). Des estimations plus globales tendent à affecter, en moyenne, 5 % du budget total du projet pour couvrir les frais relatifs à la gestion des données. 
  • Un outil d’évaluation de la conformité de votre plan de gestion aux principes FAIR gouvernant les données (Faciles à trouver, Accessibles, Interopérables, Réutilisables), développé par l’ARDC (qui dépend de l’infrastructure nationale de recherche australienne).
  • Un panorama des standards de métadonnées applicables à la chimie et la physique.
  • Un recensement des formats informatiques à privilégier ou à éviter, en fonction du degré de pérennité recherché.
  • Des outils d’aide à la sélection de la licence de diffusion que vous souhaitez attribuer à vos jeux de données. Vous trouverez ici un outil de sélecteur de licences déposé sur Github. Vous pouvez aussi consulter la plateforme choosealicense.

Les PGD en quelques dates-clés

1966 : des esquisses de plans de gestion des données émergent dans le domaine de l’aéronautique.
1973 : la NASA publie un rapport technique qui s’apparente à un PGD.
2006 : le Medical Research Council (Royaume-Uni) requiert la mise en place de PGD pour les projets qu’il finance.
2007 : le Wellcome trust (Royaume-Uni), aujourd’hui membre du Plan S, requiert la mise en place de PGD pour les projets qu’il finance.
2007 : l’OCDE publie des lignes directrices, appelant les communautés scientifiques à documenter et à archiver les données de recherche.
2011 : la National Science Foundation (Etats-Unis) requiert la mise en place de PGD pour les projets qu’elle finance.
2014 : l’UE requiert la mise en place de PGD pour les projets financés dans le cadre de H2020.
2019 : l’ANR requiert la mise en place de PGD pour les projets qu’elle finance.
Chronologie inspirée de : Smale, Nicholas, et al. « The History, Advocacy and Efficacy of Data Management Plans ». BioRxiv, octobre 2018. www.biorxiv.org, doi: 10.1101/443499.

  1. « Everyone Needs a Data-Management Plan ». Nature, vol. 555, mars 2018, p. 286. doi:10.1038/d41586-018-03065-z.
  2. Womack, Ryan P. « Research Data in Core Journals in Biology, Chemistry, Mathematics, and Physics ». PLOS ONE, vol. 10, nᵒ 12, déc 2015. doi:10.1371/journal.pone.0143460.
  3. Rapport de la Commission européenne : « Realising the European Open Science Cloud », 2016.
  4. Exposé des motifs de la loi pour une République numérique, consulté sur Legifrance.
  5. Rapport de la Cour des comptes sur les infrastructures numériques et l’ESR, 2020.
  6. Rapport de la Commission européenne : « Providing researchers with the skills and competencies they need to practise Open Science », 2017.
  7. Ibid.
  8. Commission européenne, « Realising the European Open Science Cloud », op. cit.