Trouver des données

Explorer les moteurs de recherche scientifiques et les data journals

Sommaire

Des moteurs de recherche généralistes

Datacite Search permet d’identifier des jeux de données (près de 20 millions de jeux de données issus de près de 2000 entrepôts). Ce moteur est mis en place par Datacite, fournisseur mondial de DOI pour les données scientifiques.

Dataset Search est l’outil proposé par Google. Testé tout d’abord en version bêta pendant deux ans, il a finalement été lancé dans sa version officielle en janvier 2020, avec une indexation annoncée de 25 millions de jeux de données. Pour pouvoir être repérés par le moteur de recherche, les jeux de données doivent être issus de sites respectant le format structuré schema.org. Attention, le périmètre d’indexation est très large car les bases de données statistiques des administrations nationales sont prises en compte. Les filtres de recherche sont en revanche très limités.

OpenAire (Open Access Infrastructure for Research in Europe), est une plateforme qui signale aussi bien les publications que les données de recherche. Plus de 100 entrepôts sont moissonnés. Il est possible de filtrer la recherche par nom de projet, par financeur, par type de données etc.

Mendeley Data (Elsevier) est à la fois un moteur indexant plus de 20 millions de données et un entrepôt acceptant les dépôts après création d’un compte.

Dimensions.ia et Lens.org sont des agrégateurs de publications, qui proposent chacun un filtre « dataset » afin de ne chercher que parmi les jeux de données des différents types de publications moissonnées.

D’autres pistes : les supplementary materials et les data journals

Adjoints aux publications, les supplementary materials font désormais partie des exigences des éditeurs (voir le site de Nature, les consignes de RSC sur les données expérimentales ou encore les choix éditoriaux de la revue Molecular Brain, dont le rédacteur en chef a retoqué 40 articles entre 2017 et 2019, en raison de données brutes absentes ou insuffisantes). L’auteur y explicite sa méthode, ses calculs et peut joindre des données complémentaires sous forme de tableaux, diagrammes etc. Mais leur caractère éclaté, la disparité de ce qui est demandé d’un journal à l’autre et les volumes limités de données qui peuvent être adjoints sont susceptibles de limiter la découverte de contenus utiles. C’est ainsi qu’ACS a par exemple choisi l’indexation automatique des supporting information de ses revues dans Figshare.

Enfin, vous pouvez explorer la piste des datapapers, ou articles de données. A partir de Web of Science, il est possible de filtrer les résultats en ne retenant que les datapapers comme type de documents.
Vous pouvez aussi explorer une liste de datajournals généralistes et thématiques (Chimie, Physique et disciplines liées) que nous avons constituée :