Ressources

Les acteurs de la gestion des données

Sommaire

Les réseaux constitués ont la particularité de fédérer des professions diverses (informaticiens, chercheurs, professionnels de l’information scientifique et technique, etc.) autour de la gestion des données.

Il ne sera pas question ici de présenter les nombreux réseaux et organismes existants dans le domaine de l’Astronomie et de l’Astrophysique dont la communauté scientifique est très structurée. Sont indiqués uniquement quelques réseaux concernant la chimie, la physique (associée ou non à d’autres disciplines comme l’Astronomie) et des disciplines connexes.

Les réseaux disciplinaires en France

CC-IN2P3

Le Centre de Calcul de l’IN2P3 est une unité de service et de recherche du CNRS (USR6402), rattaché à l’Institut ’IN2P3 ; le centre propose des solutions d’ hébergement, de calcul, stockage des données. Il est possible de traiter des données massives. Un service support et une FAQ facilItent les conditions d’accès à ces services.

France Grilles

Le GIS FRANCE GRILLES met à disposition une infrastructure constituée de machines (matériel) et de services (logiciels) associés. Parmi les partenaires du GIS, on peut citer le CEA, l’INRIA et l’INSERM. Plusieurs types de services sont proposés : FG-DIRAC (gestion des tâches de calcul distribués), FG-IRODS (service de stockage), FG-cloud (service cloud IaaS) et FG-SOL (service pour la préservation et la réutilisation des logiciels de la recherche, service uniquement ouvert à des laboratoires pilotes pour l’instant). La documentation est disponible ici. L’organisation des Journées Calculs Données (JCAD) est l’une des actions de ce réseau. Les vidéos des présentations de l’édition 2019 sont accessibles ici et celles des JCAD 2018 ici. Les JCAD ont pris la suite des journées  journées SUCCES ou SUCCES Days (Scientific meeting of grid, cloud, storage and regional centres’ users), organisées par France Grilles, Grid’5000, GDR RSD, et le Groupe Calcul. Les vidéos des journées 2015, 2016 et 2017 sont accessibles.

Les réseaux disciplinaires internationaux

Escape

L’European Science Cluster of Astronomy & Particle physics ESFRI research infrastructures (ESCAPE) vise à relever les défis de la science ouverte en coopération avec d’autres infrastructures de recherche paneuropéennes (CERN, ESO, JIVE) en astronomie et en physique des particules. Les actions d’ESCAPE seront axées sur le développement de solutions pour les grands ensembles de données traités par les installations de l’ESFRI (European Strategy Forum on Research Infrastructures) .
Ces solutions portent sur l’intégration avec le cloud européen sur l’open science (EOSC) et la production de données « FAIR« . Les livrables et les rapports sont disponibles ici.

EGI

European Grid Infrastructure (EGI) fournit des services informatiques avancés pour soutenir les scientifiques dans la plupart des disciplines, les projets multinationaux et les infrastructures de recherche. Les services proposés concernent le calcul, le stockage, l’archivage ou le transfert de donnée, la sécurité des données, et des applications de type Notebooks. L’accès à ces services est payant. D’autres services sont mis à disposition par les membres et partenaires de la Communauté EGI avec des études de cas

OpenCern

Le CERN a une expertise de longue date dans la gestion des données massives sous tous les aspects (collecte, traitement, analyse, stockage, diffusion, réutilisation). Le CERN s’est également très tôt engagé dans une démarche de science ouverte. Cette expertise est mise au service de la communauté scientifique selon différentes modalités  : 

  • Le portail Opendata : point d’accès unique aux données produites par les recherches menées au CERN (cela représente plus de 2 Petabytes). Ces données sont notamment liées aux projets ATLAS, ALICE, CMS, LHCb, OPERA.  Il diffuse à la fois les résultats des différentes activités de recherche, y compris les logiciels et la documentation d’accompagnement nécessaires à la compréhension et à l’analyse des données partagées.
  • Le CERN s’appuie notamment sur la Grille de calcul mondiale pour le LHC (WLCG) qui permet à plus de 12000 physiciens d’accéder à ses ressources.
  • Les documents, rapports, bulletins, preprints, photos, images, vidéos du CERN sont disponibles sur le CERN Document Server.
  • INSPIRE, dont la nouvelle version est actuellement publique, est une plateforme d’accès à l’information scientifique en Physique des Hautes particules. Elle comprend 8 bases de données interconnectées sur la littérature scientifique (articles, preprints, etc.), les conférences, les institutions, les revues, les chercheurs, les expériences, les emplois et les données. INSPIRE s’appuie sur une interaction très étroite avec arXiv, ADS, HEPData, ORCID, Particle Data Group (PDG).
  • Zenodo, entrepôt pluridisciplinaire de données de la recherche donnant accès à près d’1,5 million de jeux de données.
  • CERN openlab a pour objectif (via un partenariat public-privé) de développer des solutions informatiques pour la communauté scientifique. En 2017, dans ce contexte, le CERN a publié un livre blanc sur les défis informatiques de la recherche scientifique.
La chimie au sein de RDA

La Research Data Alliance (RDA) est une organisation internationale constituée en 2013 pour favoriser le partage des données. Elle rassemble plus de 137 pays et plus de 8400 membres (chercheurs, professionnels des données et professionnels de l’information) venant de toutes les communautés disciplinaires. 

Parmi les thématiques de travail retenues, on trouve la question des métadonnées (avec le catalogue des standards disciplinaires de métadonnées), l’interopérabilité, la citabilité des données. Il existe également des regroupements disciplinaires avec, pour la Chimie, le Chemistry Research Data Interest Group.

Les acteurs institutionnels français

L’INIST

L’INIST (Institut de l’Information Scientifique et Technique) est un acteur important dans la diffusion en France des bonnes pratiques sur la gestion des données. Membre fondateur du consortium DataCite, l’Inist est l’agence d’attribution des identifiants DOI (adaptés aux données)  en France. En cohérence avec les principes FAIR, l’INIST propose en effet de nombreux services liés à la gestion et la valorisation des données. L’INIST a mis ainsi en place Opidor “Outils et services pour optimiser le partage et l’interopérabilité des données de la recherche”  : 

  • CatOpidor : catalogue qui recense et décrit les services qui contribuent en France à développer une bonne gestion de données (plateforme de calcul, plateforme de données, plateforme de gestion, accompagnement à la gestion de données). Il est possible d’interroger par type de service, par secteur géographique ou par discipline.
  • DMP OPIDoR, outil d’aide à la rédaction d’un Data Management Plan (DMP) en ligne.
  • PidOpidor : cette application (destinée aux organismes de recherche)  permet de gérer et attribuer en masse des DOI (1).
Le Comité pour la science ouverte (CoSO)

Il est chargé de faciliter la mise en oeuvre du Plan National Science Ouverte publié en France juillet 2018. Il rassemble environ 200 membres (chercheurs, bibliothécaires, etc.) issus de tous horizons et constitués en « collèges ». L’un d’entre eux porte sur les données de la recherche. Un blog permet de relayer l’actualité nationale et internationale ainsi que les travaux du comité. En 2020, le collège Données de la recherche souhaite faire une étude de faisabilité pour un service d’entrepôt de données mutualisé, procéder à une enquête sur les usages relatifs aux outils numériques et aux données de la recherche dans les communautés scientifiques françaises et travailler sur l’appropriation de la science ouverte par les communautés disciplinaires.

Les acteurs institutionnels internationaux

DataCite

DataCite est un consortium international dont le rôle est crucial pour la gestion des données de la recherche. Il a été fondé en 2009. Des représentants (centres de données, bibliothèques, agences gouvernementales, universités et organismes de recherche) de 20 pays y participent. 

L’une des missions premières de DataCite est de fournir des identifiants pérennes (DOI) pour les données de la recherche. Un outil permet également à partir du DOI d’un jeu de données, de citer le jeu correspondant selon différentes normes bibliographiques (American Chemical Society ou IEEE par exemple)

Un groupe de travail (Metadata working Group) permet de construire et développer des standards de métadonnées. L’une des réalisations majeures de ce groupe est la publication du schéma de métadonnées recommandé par Datacite avec des exemples associés. La feuille de route de DataCite est accessible ici. DataCite met également un service support permettant d’utiliser les différents services proposés.

CoDATA

Le Committee on Data (CODATA) est le Comité sur les données du Conseil international de la science (ISC). Son objectif est d’améliorer la disponibilité et l’utilisation des données dans tous les domaines de recherche via la collaboration internationale. La France est membre associée de CODATA aux côtés d’une vingtaine d’autres pays et de nombreuses unions scientifiques internationales (International Union of Pure and Applied Chemistry, International Union of Pure and Applied Physics, International Union of Crystallography). 

CODATA travaille sur l’interopérabilité et l’utilisabilité des données. Dans le programme stratégique de l’organisme, l’un des axes de travail porte sur les Fundamental Physical Constants. Un autre groupe de travail se concentre sur les nanomatériaux.Parmi les réalisations, CoData publie depuis 2014 un datajournal Data Science Journal (voir Datajournals); un blog relaie les informations de la communauté participante. CODATA collabore aux grandes conférences sur les données comme les SciDataCon et lInternational Data Week (IDW) et participe aux groupes de travail mis en place par la RDA.

World Data Systems

World Data Systems (WDS) (Trusted Data Services for Global Science) est un organisme interdisciplinaire crée en 2008 par le Conseil international pour la science. WDS compte 81 membres (dont le Centre de Données astronomiques de Strasbourg). Il existe plusieurs groupes de travail actifs, dont la plupart sont menés en coordination avec les groupes de la Research Data Alliance. L’un d’entre eux concerne la publication des données (“Publishing Data”). Les résultats des travaux précédents (notamment sur la bibliométrie, sur la certification) sont disponibles sous la forme de rapports. WDS propose notamment à ses membres ou à ceux qui souhaitent rejoindre l’organisation une procédure de certification pour les entrepôt de données. A noter : un réseau pour les “early careers researchers and scientists” se constitue. Le WDS organise avec CoData la “SciDataCon”, une conférence qui a lieu tous les deux ans.

GO FAIR

GO FAIR Data est née d’une initiative prise par différents acteurs des données ouvertes. qui  vise à mettre en œuvre les principes FAIR, en rendant les données trouvables, accessibles, interopérables et réutilisables. Autogérée, elle offre un écosystème ouvert aux chercheurs, aux institutions et aux organisations qui travaillent ensemble par le biais de réseaux. Les actions menées visent notamment à diffuser la culture de la gestion des données dans les établissements et à former des personnels chargés du traitement des données.

Go Fair, Research Data Alliance, CODATA et World Data Systems ont publié la déclaration “Data Together statement”, qui marque le renforcement de la coopération entre les quatre principales organisations internationales concernant les données de la recherche.

Les infrastructures européennes

European Open Science Cloud

European Open Science Cloud (EOSC) est un portail européen visant à fédérer les initiatives concernant la science ouverte en Europe. Il s’agit d’un projet lancé en 2016. Une Déclaration de l’EOSC a été approuvée par plus de 70 institutions et a donné lieu à la production d’une feuille de route pour la mise en œuvre de l’EOSC qui prévoit les actions suivantes : architecture, données, services, accès et interfaces, règles et gouvernance. Le portail actuel recense les différents services mis à disposition et des supports de formation liés à la gestion des données (par exemple, sur la fouille de texte).

EUDAT

EUDAT Collaborative Data Infrastructure (ou EUDAT CDI) est une infrastructure de services visant à promouvoir une gestion collaborative des données de la recherche en Europe. Elle est soutenue par un réseau de plus de 20 organismes de recherche, centres de données et de calcul européens (3). Le développement d’EUDAT s’est fait en étroite collaboration avec plus de 50 communautés de recherche couvrant de nombreuses disciplines scientifiques. Les services proposés sont détaillés ici.

OpenAire (Open Access Infrastructure for Research in Europe)

Grâce à plusieurs programmes européens (DRIVER, OpenAire et OpenAirePlus), l’infrastructure OpenAire, qui rassemble actuellement 31 pays, a pour objectif de fédérer tous les acteurs impliqués dans la science ouverte au moyen de 34 bureaux nationaux (National Open Access Desks ou NOADs). Le portail OpenAire Explore signale 37 millions de publications, 1,5 million de thèses et 975 000 données.
Sont mis à disposition des chercheurs, des développeurs ou des financeurs : 

Les éditeurs

La question de l’intégrité scientifique préoccupe également les éditeurs, ce qui implique la gestion des données : la communauté scientifique doit pouvoir interroger les méthodes et le mode d’acquisition des données. Dans ce contexte, plusieurs organisations auxquelles participent des éditeurs et d’autres acteurs mettent en oeuvre les principes liés à une gestion FAIR des données.

Committee for Publication Ethics (COPE)

Le Committee for Publication Ethics (COPE), qui aborde l’ensemble des problématiques liées à l’intégrité scientifique, prend en compte les données et la reproductibilté de la recherche en présentant des études de cas (par exemple sur la reproductibilité des méthodes et la rétraction), des séminaires de réflexion, etc.

Centre pour la Science Ouverte

Le Center for Open Science a publié dans la revue Science en 2015 le Transparency and Openness Promotion (TOP) Guidelines. Ce guide distingue 8 thèmes (Citation Standards, Data Transparency, Analytic Methods (Code) Transparency, Research Materials Transparency, Design and Analysis Transparency, Study Preregistration) et 3 niveaux de compatibilité. De nombreux éditeurs (comme Elsevier, TandF, Springer, American Geophysical Union Cambridge University Press Oxford University Press, Research Data Alliance, DataOne, American Society of Civil Engineers) et 1100 revues cherchent à mettre en oeuvre les principes du TOP. Un moteur permet de vérifier la compatibilité d’une revue avec ces principes. 

Coalition for Publishing Data in the Earth and Space Sciences (COPDESS)

La Coalition on Publishing Data in the Earth and Space Sciences (COPDESS), fondée en novembre 2014, développe et recommande les bonnes pratiques sur la gestion et surtout le partage des données dans le domaine des sciences de la terre, à l’adresse des chercheurs et des éditeurs. Ces bonnes pratiques sont conformes à la déclaration d’engagement de la COPDESS, signée par de nombreux éditeurs, par des organismes comme Datacite/Re3data et par des entrepôts comme DataOne, Pangaea (plus d’information ici).  La coalition participe activement au projet Enabling FAIR Data Project. Elle propose une FAQ et un guide pour les auteurs Author Guidelines

La COPDESS réunit des bailleurs de fonds, organismes, des chercheurs, des éditeurs comme l’American Geophysical Union (AGU), Proceedings of the National Academy of Sciences (PNAS), Nature, Science, Elsevier, PLOS, Hindawi, Copernicus Publications,

Pour aller plus loin…

Digital Curation Center

Le Digital Curation Centre (DCC) est un centre d’expertise adossé à l’Université d’Edimbourg et spécialisé dans le domaine du traitement, de la conservation et du partage des données. Son objectif principal est de favoriser l’acquisition des compétences de la communauté scientifique (chercheurs, professionnels de la documentation) en matière de gestion des données de recherche. Depuis 2011, sur tout le cycle de vie des données de la recherche, le DCC donne accès à un grand nombre de ressources, notamment des guides pratiques ou des check-lists, des études de cas, des outils et des services en ligne (par exemple, sur les Data Management Plans, les questions légales, les standards de description des données, etc.).

FOSTER

Le portail FOSTER fédère de multiples ressources européennes de formation sur la science ouverte. Ce portail est issu d’un projet mené et financé dans le cadre de Horizon2020 par 11 universités ou organismes de recherches issus de 6 pays (Allemagne, Danemark, Espagne, Pays-Bas, Portugal, Royaume-Uni, Espagne). De nombreuses ressources sont proposées sur la fouille de texte (Text and Data Mining), la gestion des données et la reproductibilité de la recherche. Une communauté de formateurs partage ses contenus dans toutes les langues.