Vos besoins

Trouver des données

De nombreux jeux de données sont signalés et utilisables par la communauté scientifique. Voici une sélection d’outils pour faciliter leur repérage : moteurs de recherche, entrepôts et data journals.

Sommaire

Des moteurs de recherche généralistes

Datacite Search permet d’identifier des jeux de données (près de 20 millions de jeux de données issus de près de 2000 entrepôts). Ce moteur est mis en place par Datacite, fournisseur mondial de DOI pour les données scientifiques.

Dataset Search est l’outil proposé par Google. Testé tout d’abord en version bêta pendant deux ans, il a finalement été lancé dans sa version officielle en janvier 2020, avec une indexation annoncée de 25 millions de jeux de données. Pour pouvoir être repérés par le moteur de recherche, les jeux de données doivent être issus de sites respectant le format structuré schema.org. Attention, le périmètre d’indexation est très large car les bases de données statistiques des administrations nationales sont prises en compte. Les filtres de recherche sont en revanche très limités.

OpenAire (Open Access Infrastructure for Research in Europe), est une plateforme qui signale aussi bien les publications que les données de recherche. Plus de 100 entrepôts sont moissonnés. Il est possible de filtrer la recherche par nom de projet, par financeur, par type de données etc.

Mendeley Data (Elsevier) est à la fois un moteur indexant plus de 20 millions de données et un entrepôt acceptant les dépôts après création d’un compte.

DataSearch (Elsevier) est une version bêta proposée par Elsevier pour chercher des jeux de données parmi une quinzaine d’entrepôts, sélectionnés en fonction de leur nombre d’utilisateurs notamment.

Dimensions.ia et Lens.org sont des agrégateurs de publications, qui proposent chacun un filtre « dataset » afin de ne chercher que parmi les jeux de données des différents types de publications moissonnées.

Des entrepôts multidisciplinaires

Certains sont adossés aux éditeurs (Mendeley data, Figshare), d’autres dépendent d’Universités (Harvard Data Verse) ou de grands établissements comme le CERN (Zenodo). Retrouver la liste des entrepôts généralistes pertinents ici.

Des bibliothèques de données en physique et chimie

Pour identifier des entrepôts spécialisés, plusieurs options sont envisageables.

  • Nous avons pré-sélectionné une liste d’entrepôts disciplinaires en physique et en chimie qui présentent la particularité de permettre la recherche comme le dépôt de données.
  • Il existe également un nombre non-négligeable d’entrepôts ne permettant que la consultation de données, si vous n’êtes pas affiliés à l’institution ou au projet.
ThématiqueEntrepôtInstitution
AltimétrieAvisoCNES, Toulouse
AstrophysiqueADSSmithsonian Astrophysical Observatory
AstrophysiqueCDPPCentre de Données de la Physique des Plasmas, Toulouse
BiochimieMatrixDBUniversité Lyon 1
Biochimie (brevets)SureChemBLEuropean Bioinformatics Institute
Données nucléairesNEAOCDE
Données solairesBass2000Observatoire de Paris
Géochimie, données atmosphériquesECCADAeris, France
GéomagnétiqueISGIUniversité de Strasbourg
SpectrométrieSPECTR-W3Russian Scientific Research Institute of Technical Physics
Spectrométrie Raman, cristallographieWURMENS, Lyon

Si vous voulez élargir votre recherche, le répertoire Re3data.org (Registry of Research Data Repositories), crée en 2012 et financé par la German Research Foundation DFG référence, en avril 2020, 2487 entrepôts, tous domaines confondus. Parmi eux, 204 sont classés parmi les entrepôts de chimie et 289 en physique.
Si ces chiffres peuvent paraître colossaux, dans la réalité, le choix à disposition n’est pas toujours aussi large qu’il n’y paraît… Certains entrepôts occupent des secteurs de niche (cas d’un entrepôt spécialisé dans les données de conservation du poisson-zèbre sous forme de sperme congelé, pourtant rangé dans les entrepôts de chimie), d’autres nécessitent une affiliation institutionnelle pour pouvoir consulter les données (cas de l’entrepôt de l’Imperial College de Londres).

L’outil Re3Data permet de chercher des entrepôts par mot-clé, par sujet, par pays etc. Pour chaque plateforme, des icônes dressent une sorte de carte d’identité de l’entrepôt.

L’icône bleue vous signale que l’entrepôt fournit des identifiants pérennes (DOI), l’icône rouge indique que l’entrepôt répond à des critères qualité (certification).

D’autres répertoires internationaux existent, tels que Repository Finder, OpenDoar (filtre datasets) et Fairsharing.org.

D’autres pistes : les supplementary materials et les data journals

Adjoints aux publications, les supplementary materials font désormais partie des exigences des éditeurs (voir le site de Nature, les consignes de RSC sur les données expérimentales ou encore les choix éditoriaux de la revue Molecular Brain, dont le rédacteur en chef a retoqué 40 articles entre 2017 et 2019, en raison de données brutes absentes ou insuffisantes). L’auteur y explicite sa méthode, ses calculs et peut joindre des données complémentaires sous forme de tableaux, diagrammes etc. Mais leur caractère éclaté, la disparité de ce qui est demandé d’un journal à l’autre et les volumes limités de données qui peuvent être adjoints sont susceptibles de limiter la découverte de contenus utiles. C’est ainsi qu’ACS a par exemple choisi l’indexation automatique des supporting information de ses revues dans Figshare.

Enfin, vous pouvez explorer la piste des datapapers, ou articles de données. A partir de Web of Science, il est possible de filtrer les résultats en ne retenant que les datapapers comme type de documents.
Vous pouvez aussi explorer une liste de datajournals généralistes et thématiques (Chimie, Physique et disciplines liées) que nous avons constituée :