Adopter un plan de gestion des données

Des PGD dans vos domaines

Accueil Planifier son projet Adopter un plan de gestion des données Des PGD dans vos domaines

Un outil au service des communautés
- En chimie
- En physique
Où trouver des exemples de PGD dans sa discipline ?

La rédaction d’un Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) est devenu un attendu des financeurs et une recommandation pour de nombreux établissements.

Plusieurs institutions dans les domaines de la physique et de la chimie, incitent à la rédaction d’un tel document. C’est le cas par exemple du département de chimie de l’Université de Cambridge, qui produit une série de recommandations sur la gestion et le partage des données de recherche. Il souligne l’importance de préparer un PGD au niveau d’une équipe de recherche ou d’un projet individuel, selon les recommandations contenues dans cette page et préconise la rédaction d’un PGD pour tout projet de recherche. Pour le CERN, les plans de gestion de données sont un prérequis indispensable, notamment dans le contexte d’équipements producteurs de flux de données et de volumétries extremes : “In a data driven environment like CERN, such documentation can also be considered essential to ensure the longevity of project and research results.” L’institution propose un template qui lui est propre.

Plusieurs communautés scientifiques s’organisent pour développer des plans de gestion de données adaptés à leur domaine, qui puissent se prêter à des usages collaboratifs et faciliter les partages d’informations relatives aux données et l’utilisation de standards. La Research Data Alliance dispose d’un groupe de travail dédié à la mise en place de PGD disciplinaires (the working group of the Research Data Alliance on Discipline-specific Guidance for DMP).

L’INIST CNRS travaille à l’intégration de questionnaires et référentiels adaptés aux différentes disciplines et thématiques dans DMP Opidor.

Quel que soit le domaine disciplinaire dans lequel vous travaillez, en Physique ou en Chimie, le Plan de Gestion de Données vous donne une vision d’ensemble des données que vous produisez et utilisez, tout au long de votre projet.

Un outil au service des communautés

En chimie : l’exemple du consortium allemand NFDI4Chem

Le consortium allemand NFDI4Chem (German National Research Data Initiative (NFDI) for Chemistry) développe des services et infrastructures pour accompagner la communauté des chimistes dans la gestion de leurs données, tout au long de leur cycle de vie. Dans le souci de favoriser l’adoption des principes FAIR (la standardisation des formats, l’interopérabilité des données), il propose un template de plan de gestion des données spécifique à la chimie. Ce modèle, développé suite à une série d’entretiens réalisés auprès de chercheurs, s’appuie sur la checklist de la Deutsche Forschungsgemeinschaft, commentée et enrichie d’options de réponses adaptées à cette discipline. Cet article décrit la démarche et la méthodologie suivie pour élaborer ce PGD. Ses principaux points forts ? L’intégration de la gestion des échantillons physiques au PGD, le recensement des formats, outils, logiciels, méthodes utilisés en chimie pour accompagner les chercheurs dans la description de leurs données. Nous reprenons ici les points qui nous semblent les plus spécifiques.

Point de départ : identifier des jeux de données.

Pour cela, deux points sont soulignés : choisir une granularité appropriée et des critères d’homogénéité de méthodes, de technologies utilisées pour générer et/ou traiter les données.

Comment décrire des données générées par le projet et des données réutilisées en chimie ?

Données de spectroscopie, structures chimiques, conditions de réaction, propriétés physiques, formalisations théoriques, résultats expérimentaux et numériques numériques, codes et logiciels, etc., les types de données traités sont variés, en chimie.

Il est fréquent de réutiliser des données, qu’il s’agisse de structures chimiques ou de résultats d’analyses antérieures. Le PGD permet de les décrire et d’indiquer leur source (par exemple, inorganic crysal structure database, CCDS, jeu de données déposés dans un entrepôt…).

Les types et volumétrie des données complètent cette description (le PGD propose une liste des formats les plus utilisés en chimie, voir également la liste proposée sur le site Datacc.org), accompagnée d’une recommandation : “When choosing a data format, it is advisable to use standardised, non-proprietary formats that are commonly used in chemistry. Raw data should also be retained in the original file format if the file size allows”.

La description des étapes complémentaires de traitement (méthodes de caractérisation et d’analyse), telles que précisée dans le cahier de laboratoire, par exemple, permet de compléter cette première section du PGD.

Comment documenter les données et garantir leur qualité ?

La tenue d’un cahier de laboratoire papier ou électronique pour documenter des méthodes, protocoles et données en chimie est ancrée dans les pratiques de nombreux chercheurs. L’utilisation de cahiers de laboratoire en version numérique facilite la documentation du projet de recherche et le renseignement du PGD. Il structure l’information et documente le cycle de vie des données. Le PGD permet de préciser comment l’ELN est utilisé et comment il s’articule avec le système de gestion et stockage des données.

Il est recommandé d’utiliser les mêmes métadonnées descriptives que celles employées dans l’entrepôt de dépôt cible (par exemple Crystallography Open Database) ou de se baser sur des constructions organisées de l’information (des schémas) recommandés et utilisés par la communauté des chimistes :

pour les molécules par exemple MolecularEntity
pour les utilisateurs de méthodes de résonance magnétique nucléaire (voir ici une description plus précise de ce schéma)
Normes comme IUPAC FAIRSpec, pertinentes pour les données spectroscopiques

Le PGD renvoie également vers les recommandations élaborées par NFDI4Chem en matière de métadonnées et d’ontologies propres à la chimie. Les logiciels et outils nécessaires pour traiter les données sont également précisées sur la base d’une liste non exhaustive d’outils fréquemment utilisés en chimie.

Les porteurs de projet sont invités à décrire les mesures spécifiques prises pour s’assurer de la qualité du recueil et du traitement, qu’il s’agisse des modes opératoires standards employés, de l’utilisation de méthodes de calibration, des modalités de répétition des mesures et de validation des données d’input et d’output, de la documentation des paramètres et des données, etc.

La description des processus de contrôle qualité des données produites est également suggérée : peer review par un collègue ou un ingénieur en charge de la gestion des données, utilisation de programmes de contrôle de cohérence (checksum), d’analyses statistiques comparatives de jeux de données, etc.

Comment le stockage et la sécurité des données sont-ils assurés pendant le projet ?

Cette section aborde non seulement la question du stockage des données pendant le projet mais aussi celle de la documentation des échantillons physiques employés. Comment les substances sont-elles gérées (lieux de stockage et conditions spécifiques de stockage) et associées aux données d’analyse correspondantes. Des plateformes de gestion d’échantillons ou des outils dédiés sont-ils utilisés ?

Plusieurs options sont énoncées pour lier échantillons physiques et données : une convention de nommage, les métadonnées d’un cahier de laboratoire électronique ou un module de gestion de stock de substances…

Sont également abordés, les enjeux de sécurité des données (en cas de dépôt de brevet, de partenariat public privé ou d’accord de non divulgation, par exemple).

A quelles obligations, bonnes pratiques la gestion des données doit-elle se conformer ?

Cette section traite des obligations éthiques et des standards professionnels devant être respectés et des restrictions éventuelles au partage des données. Les politiques des éditeurs en matière d’ouverture des données sont rappelées, avec en référence un article publié dans la revue Pure and Applied Chemistry en 2023 : “The current landscape of author guidelines in chemistry through the lens of research data sharing ». Voir aussi sur ce point le site DATACC.

Comment les données sont-elles partagées et réutilisées ? Comment les sélectionner ? Comment garantir leur accessibilité à long terme ?

Le PGD permet de clarifier le processus de diffusion et de partage des données. De nombreux chimistes publient des données comme « informations supplémentaires » associées à des articles, dans des documents au format PDF.

La rédaction d’un PGD peut permettre de décrire le processus de gestion et de partage des données et encourager le dépôt dans des entrepôts disciplinaires lorsque c’est approprié, privilégiant les entrepôts proposant un DOI pour assurer la trouvabilité et la réutilisation.

Cette section aborde également la question du stockage sur le long terme des échantillons physiques (qui peut être réalisée en Allemagne par le service central ComPlat du KIT). Une stratégie d’élimination des échantillons est-elle en place ? Comment l’optimisation des ressources est-elle gérée ?

Description des ressources nécessaires pour la réalisation de la gestion des données:

Cette section décrit l’ensemble des ressources: ressources humaines (ETP et compétences requises), infrastructures (serveur de fichier, cloud, serveurs virtualisés, bases de données, entrepôts de données…) à partir d’une liste à choix.

En physique : des communautés PaN et HEP

Les infrastructures de recherche PaN (telles, le consortium CERIC-ERIC de Trieste, le synchrotron ESRF de Grenoble…) fournissent des dispositifs de mesure et des services d’analyse pour des communautés scientifiques variées (en chimie, sciences des matériaux, ou paléontologie). Elles génèrent des données complexes et volumineuses, impliquant l’intervention d’une multiplicité d’acteurs (typiquement, l’équipe de recherche, le gestionnaire de l’accès à l’instrument, le scientifique spécialisé dans l’utilisation de l’instrument, le gestionnaire des données de recherche, etc.). Elles mobilisent des dispositifs expérimentaux sophistiqués. L’ensemble de ces spécificités concourent à faire de la gestion des données un enjeu essentiel pour cette communauté.

La documentation des données, méthodes, instruments, et des environnements expérimentaux utilisés tout au long du cycle de vie de l’expérience a fait l’objet de nombreux travaux. Les projets européens PaNOSC (Photon and Neutron Data Open Science Cloud Project) et ExPaNDS (European Open Science Cloud Photon Data Services), financés dans le cadre du programme H2020, ont produit des recommandations et bonnes pratiques de gestion et de FAIRisation des données partageables par la communauté européenne des photons et neutrons (PaN). Ces projets ont notamment permis d’élaborer :

un ensemble de métadonnées commun aux infrastructures PaN (common metadata framework)
un plan de gestion de données machine actionable, réutilisable et évolutif, en partie alimenté automatiquement par les instruments.

Dans ce contexte, la mise en place d’un plan de gestion de données à l’échelle de l’infrastructure permet aux utilisateurs de disposer d’informations dynamiques, intégrant les ajustements effectués au cours de l’expérience (le PGD est mis à jour au moment de la planification de l’expérience, puis en phase d’analyse), comme le montre ce schéma illustrant le workflow d’une expérience menée sur un équipement PaN : voir cet article (Bodin, M, Bolmsten, F et al., 2023. Data Management Plans for the Photon and Neutron Communities. Data Science Journal, 22: 30, pp. 1–12) : “To be of real use, DMPs for PaN facilities should be aligned with the facility workflow for research (Figure 1). It is important that the plan precedes execution; thus, for users, the planning stage is made before the experiment.”

Le PGD issu de ces travaux repose sur un modèle de connaissance commun à l’ensemble des infrastructures. Constitué d’une série de questions, il comporte 7 sections et suit le cycle de vie de la donnée :

Description générale du projet et des problématiques scientifiques étudiées
Description et classification des jeux de données. Cette section détaille le contexte de collecte (description de l’expérience) et les données brutes obtenues (échantillon de données et des logbooks, fichiers et description technique), mais aborde également les questions de la réutilisation et de la reproductibilité des données. Des utilisateurs potentiels et cas de réutilisation peuvent-ils être anticipés ? Ces jeux de données pourraient-ils être reproduits et si oui à quel coût ?
Collecte des données. Cette section précise les conditions de collecte (date, volumétrie), les logiciels requis pour travailler avec les données et les modalités de gestion des versions.
Usage des données et scénarios d’usage. Cette section décrit à la fois la gestion de la sécurité des données et des accès (qui intervient sur les données, qui peut y accéder, comment la sécurité des données est-elle garantie ? Qui gère les backup ?), le partage des données mais aussi les modalités d’organisation des données (des guidelines d’organisation ou de nommage existent-elles ?)
Métadonnées et référencement. L’utilisateur indique dans cette section les métadonnées nécessaires à la compréhension et à l’usage de ses données ainsi que les modalités de collecte (automatique par les instruments, semi-automatique ou manuelles). Les données et métadonnées associées à l’analyse (scripts et fichiers d’input et jeux de données auxiliaires éventuellement utilisés), l’utilisation de jeux de données de calibration, des données de caractérisation des échantillons doivent également être décrites.
Questions juridiques et éthiques.
Sélection des données et préservation à long terme.Cette section décrit les critères qui permettent de sélectionner les données destinées à être stockées ou archivées à l’issue du projet (et pour quelle durée) et à justifier les raisons qui conduisent à une préservation de long terme. Qui pourra accéder aux données préservées ?

La question des coûts associés à la collecte, à la documentation et à la préservation des données est posée dans chacune des sections concernées. Le DMP doit être un document “actif” et mis à jour à chaque étape.

Le PGD du Synchrotron ESRF
L’« ESRF Data Policy 2024 », s’inscrit dans le contexte des principes FAIR. Le PGD de l’ESRF reprend le modèle de connaissance décrit ci-dessus,adapté aux besoins du synchrotron (voir Bodin et al. 2023)Un PGD est créé pour chaque projet. Il est généré automatiquement par le système de gestion, 6 semaines avant le lancement de la 1ere expérience. 60% du DMP est rempli automatiquement à partir des données internes (Data Policy, application de gestion des proposals de l’ESRF, catalogue de métadonnées ICAT, collecte automatique par les instruments…).Le Synchrotron a mis en place l’outil DS-Wizard (https://ds-wizard.org/), qui permet aux utilisateurs de répondre aux questions constituant le PGD. L’ensemble peut ensuite être exporté, avec des champs préremplis, dans différents formats (modèles Horizon Europe, ANR, etc. ou au format ESRF).Les DMP des projets créés depuis 2022 sont accessibles depuis un portail dédié, sur authentification. Au bout de 3 ans, les expériences qui ne sont plus sous embargo sont librement accessibles depuis le Data Portal de l’ESRF.

Où trouver des exemples de PGD dans sa discipline ?

RDA France en constituant un groupe de travail dédié aux plans de gestion de données a souligné la nécessité “de tenir compte de la diversité des cultures et des pratiques disciplinaires pour identifier des exemples pertinents pour une discipline donnée”(Analyse et identification de Plans de Gestion de Données disciplinaires pouvant être utilisés comme exemple. Françoise Genova et al. Research Data Alliance France (RDA France). 2025. ⟨hal-05187206v2}).

Sur la base d’une méthodologie de sélection de PGD, le groupe a établi une première liste disciplinaire (Corpus de Plans de Gestion de Données disciplinaires pouvant être utilisés comme exemple. Françoise Genova et al., 2025, Recherche Data Gouv, v1.0, https://doi.org/10.57745/ZSWLYJ).

Elle comporte de nombreux exemples dans le domaine des sciences de la terre et de l’environnement, quelques exemples en physique /astrophysique et un en génie chimique.

Si la plupart sont des PGD liés à des projets, certains proposent des templates ou des matrices thématiques, par exemple, le modèle de plan de gestion de données de l’Observatoire de Paris : Groupe de travail science ouverte à l’Observatoire de Paris. (2021). Data Management Plan Template of Observatoire de Paris. Observatoire De Paris. https://doi.org/10.25935/X859-TH79.

Tous ces PGD sont présents dans la rubrique des PGD publics sur la plateforme de rédaction de PGDs, DMPOpidor

Voici une sélection parmi les PGD recensés.

En physique et astrophysique

Le Plan de gestion de données du projet « LOcal Clusters And supercLuster In sZ: Adding Thermal, kInetic and relativistic cOrrectioNs«

En Sciences de la terre et de l’environnement

Plusieurs PGD sont liés à des services nationaux d’observation (SNO), en voici une sélection :

PGD du SNO KARST (caractérisation de l’état qualitatif et quantitatif de la ressource en eau des hydrosystèmes karstiques >> https://dmp.opidor.fr/plans/9351/export.pdf?export%5Bquestion_headings%5D=true
PGD du SNO ReefTEMPS – Réseau d’observation des eaux côtières dans la région du Pacifique sud, ouest et sud-ouest >>> https://doi.org/10.13155/94550
PGD du SNO DYNALIT – Dynamique du littoral et du trait de côte: https://dmp.opidor.fr/plans/16155/export.pdf?export%5Bquestion_headings%5D=true
PGD du SNO GLACIOCLIM – mesures d’observation des glaciers et de l’enneigement https://dmp.opidor.fr/plans/23294/export.pdf
PGD du SNO SONEL – Système d’observation du niveau des eaux littorales: https://dmp.opidor.fr/plans/18257/export.pdf?export%5Bquestion_headings%5D=true
PGD du SNO MOOSE -Mediterranean ocean observing system for the environment : https://dmp.opidor.fr/plans/18275/export.pdf?export%5Bquestion_headings%5D=true

D’autres sont des PGD d’infrastructures : PGD de l’infrastructure OLA, qui met à disposition des outils et moyens (bateaux, sondes, drones, …) destinés à explorer les milieux lacustres (PGD – OLA): https://doi.org/10.15454/1RUGHK

D’autres relèvent de projets :

PGD du projet Lautaret Roche Noire : https://dmp.opidor.fr/plans/23291/export.pdf?export%5Bquestion_headings%5D=true
PGD du projet « De la rhéologie à la rupture des plaques tectoniques : de l’affaiblissement à la localisation de la déformation dans le manteau lithosphérique »: https://dmp.opidor.fr/plans/13156/export.pdf?export%5Bquestion_headings%5D=true
PGD du projet « ANR WISPER-Water and Ice-related thermo-mechanical processes in the fractures of Steep alpine bedrock Permafrost » https://dmp.opidor.fr/plans/7067/export.pdf?export%5Bquestion_headings%5D=true
PGD du projet « Theia/OZCAR Information System » : https://dmp.opidor.fr/plans/7725/export.pdf?export%5Bquestion_headings%5D=true
PGD du projet « IMpacts des PRocessus mIcroclimatiques sur la redistributioN de la biodiversiTé forestière en contexte de réchauffement du macroclimat » : https://dmp.opidor.fr/plans/5082/export.pdf?export%5Bquestion_headings%5D=true

En Chimie

Parmi les PGD relevant de la Chimie, nous pouvons relever :

Le PGD du projet ANR EGOUT – Observations Géochimiques des Trajectoires Urbaines: https://dmp.opidor.fr/plans/13919/export.pdf?export%5Bquestion_headings%5D=true
PGD du projet « MAgnetic Vesicle Rotation Induced Cell Killing »: https://dmp.opidor.fr/plans/6264/export.pdf?export%5Bquestion_headings%5D=true

Accessible depuis HAL, où il est également possible de trouver des PGD, la plateforme de spectrométrie Lorraine MASSLor propose un PGD d’entité couplé à l’utilisation du cahier de laboratoire électronique, ElabFTW : Frédéric Aubriet, François Dupire, Jasmine Hertzog, Lionel Vernex-Loset. Plan de Gestion de Données de la plateforme MassLor. Univsersité de Lorraine; CNRS. 2025. ⟨hal-04895780⟩

Conclusion

Certaines communautés se sont emparées des PGD avec pour objectif de contribuer à des pratiques de gestion des données mieux partagées et documentées, à la production de données plus FAIR. Toutefois, en physique et en chimie il existe peu d’exemple de PGD partagés illustrant ces principes.