Préparer sa diffusion

Licences et partage de données

Pour permettre l’utilisation de ses données par d’autres chercheurs, que ces données soient déposées dans un entrepôt ou accessibles via une publication, il est nécessaire de prévoir les modalités de cette utilisation grâce à une licence d’usage.

Dans le cadre de la mise en œuvre des principes FAIR, ”L’attribution d’une licence au jeu de données permet de respecter le principe “Réutilisable” en explicitant les conditions de réutilisation des données”. Voir ici.

Ces licences sont de nature diverse et ne permettent pas toutes les mêmes usages, c’est pourquoi il est important de comprendre ce que le choix d’une licence induit comme pratique.

La plupart des entrepôts et des éditeurs prévoient une licence d’usage pour les contenus qu’ils diffusent. L’attribution d’une licence est de fait souvent obligatoire dans le processus de dépôt d’un jeu de données.

Quelles licences pour quel type de ressources ?

Données de la recherche 

Les licences Creative Commons

Très largement répandues, les licences Creative Commons (CC) sont utilisées de manière majoritaire pour les données de la recherche, comme pour les publications scientifiques. 

Elles sont publiées et actualisées régulièrement depuis 2002 par l’organisation Creative Commons. Cette organisation internationale à but non lucratif a pour but de proposer des solutions juridiques et techniques pour favoriser le partage des contenus issus de la culture, de la science et de l’éducation. A ce titre, l’organisation est engagée dans la mise en œuvre de la science ouverte. 

La version actuelle de ces licences est la version 4.0. L’attribution d’une licence à un contenu est définitive.

S’appliquant dans tous les pays, les licences Creative Commons sont conformes avec le droit français concernant le droit d’auteur. Elles permettent de préciser les permissions accordées par l’auteur. 

On combine 6 catégories de licences dont les clauses sont plus ou moins permissives. 

Des pictogrammes permettent d’identifier chacune de ces licences et leur périmètre.

La description complète des licences est disponible ici.

Le degré d’ouverture des licences Creative Commons est résumé dans ce schéma :

Source : Fabrique REL – https://fabriquerel.org/licences/

Pour rendre la licence Creative Commons la plus explicite possible, il est recommandé d’utiliser les logos, nommer la licence,  et de fournir un lien vers celle-ci, par exemple : CC BY 4.0 pour une œuvre sous licence CC BY 4.0. 

Il est possible via l’outil CC license chooser d’obtenir le code html correspondant à la licence choisie et de trouver ici les logos et attributions officiels.

La licence Etalab
Source : Direction interministérielle du numérique (DINUM), Alliance (https://alliance.numerique.gouv.fr/licence-ouverte-open-licence/)

Dans le contexte de l’Open Data et pour faciliter l’ouverture et la réutilisation des données publiques, Etalab, département de la direction interministérielle du numérique (DINUM) qui coordonne la politique d’ouverture et de partage des données publiques, a mis en place la « Licence Ouverte / Open License ». 

Il s’agit d’une licence ouverte, libre et gratuite, qui autorise la reproduction, la redistribution, l’adaptation et l’exploitation commerciale des données , qui apporte la sécurité juridique nécessaire aux producteurs et aux réutilisateurs des données publiques ; elle rend obligatoire la mention de paternité des données.

Elle est compatible avec les licences Open Data développées à l’étranger comme le  gouvernement britannique (Open Government Licence) ainsi que les autres standards internationaux (ODC-BY, CC-BY ..).

Liens de téléchargement : 

La licence Domaine public

La licence CC0 (Public Domain Dedication) permet aux auteurs de renoncer à leurs droits sur leurs productions et de les placer dans le domaine public, afin que d’autres puissent les réutiliser sans aucune condition ni restriction (modification, usage commercial, etc.).

Il n’est pas obligatoire de citer le producteur du jeu de données mais, sur le plan scientifique, il est recommandé aux utilisateurs de citer les producteurs pour identifier la source.

Il s’agit donc de la licence qui permet la plus large réutilisation des jeux de données.

Pour aller plus loin, lire : 

Bases de données

La protection des bases de données relève de deux droits différents : le droit d’auteur et le droit sui generis du producteur de base de données. 

Le droit d’auteur ne s’applique à une base de données que si la structure (modèle, schéma) est originale, c’est-à-dire si la disposition des éléments qu’elle inclut relève d’un choix qui « reflète l’empreinte de la personnalité de l’auteur », ce qui n’est généralement pas le cas des bases de données de recherche.

Le droit sui generis sert à protéger les investissements consentis par les producteurs des bases de données : en général l’établissement dont dépend le chercheur qui produit la base de données. Ce droit est d’une durée de 15 ans après l’achèvement de la base. Il est donc recommandé d’identifier l’ensemble des employeurs et acteurs pour déterminer les participations de chacun.

La licence Open Data Commons Open Database License (ODbL) s’applique aux bases de données. Il s’agit d’une licence libre qui permet l’utilisation sans restriction (exploitation, etc.) de la base de données. 

Elle ne concerne pas les contenus  (images, textes, etc.) de la base qui peuvent être sous des licences particulières (cc-by, cc-b-by-nc, etc.).

Codes et logiciels

Voir la page “licences et propriété intellectuelle” sur le site.

Définir les usages de son jeu de données

Au moment de diffuser un jeu de données, il est important de réfléchir aux conditions d’usage, d’accès, d’utilisation de ce jeu, afin de pouvoir lui attribuer une licence appropriée.

Choisir une licence

Plusieurs critères doivent être pris en compte :

  • les obligations de diffusion, par exemple pour les données géographiques et environnementales (par exemple la directive INSPIRE)
  • les contraintes liées aux jeux de données produits dans le cadre de ZRR ou de PPST, (voir Bassinet, A., Bouchet Moneret, F., Bracco, L., & Jouneau, T. (2023, décembre 6). Les données de la recherche produites en zone à régime restrictif. Atelier de la donnée ADOC Lorraine.
  • les exigences ou recommandations des financeurs (voir partie 4.1)
  • les exigences des éditeurs, en cas de publication avec un article (supplementary materials),
  • les licences proposées par l’entrepôt,
  • les licences des contenus repris et réutilisés dans le jeu de données

Il est recommandé d’appliquer une licence largement utilisée de type licence CC.

Il est généralement possible en cas de doute de consulter les services juridiques de son établissement.

Des outils facilitent l’identification de la licence la plus adaptée, via une série de questions/réponses :

Pour les codes et logiciels :

Définir les accès

Au-delà des licences, il est possible de restreindre l’accès à son jeu de données selon différentes modalités.

  • Embargo

La plupart des entrepôts permettent  de différer l’accès public au jeu de données : il est alors possible de prévoir un délai (période d’embargo) avant la mise à disposition en définissant une date de publication. Ce dispositif peut être utile si on souhaite une publication simultanée du jeu de données et d’un article de recherche. Dans le répertoire des  entrepôts en physique et en chimie disponible sur DATACC, la fiche descriptive de chaque entrepôt  permet de voir quel type d’embargo est possible (durée, conditions, etc.).

  • Accès sur demande

Il est également possible de prévoir un accès uniquement sur demande : en cas de demande de consultation du jeu de données, une requête est alors adressée au déposant via son adresse mail. Ce dispositif peut s’avérer utile en cas de données à fort potentiel stratégique et/ou sensibles.

  • Dans le cadre d’une revue par les pairs : url privée / url privée anonyme.

La plupart des éditeurs disciplinaires ou généralistes (IOP, RSC, AIP, Elsevier, Springer, EGU, …) exigent désormais que les auteurs indiquent une déclaration de disponibilité des données (data availability statement) dans leur article. Cette déclaration peut être une condition de publication. La déclaration est souvent demandée dès le processus de soumission de l’article. Les reviewers peuvent enfin réclamer l’accès aux données lorsqu’ils l’estiment nécessaire, lors de l’évaluation du manuscrit. Pour rappel, les datapapers ou datanotes font l’objet d’un reviewing au même titre qu’un article classique. 

Dans le cas où les jeux de données doivent être revus en aveugle par des pairs dans le cadre, certains entrepôts rendent possible de créer une URL privée ou une url privée pour un accès anonyme. 

A noter : certains entrepôts assurent le reviewing par les pairs des données. C’est le cas par exemple d’ HEPdata.

Les pratiques des financeurs, des éditeurs, des entrepôts

 Les financeurs

Les licences CC et la science ouverte

La licence CC BY favorise une large réutilisation des données. Elle est donc cohérente avec les principes de la science ouverte. 

A noter : la Directive (EU) 2019/1024 of the European Parliament and of the Council of 20 June 2019 on open data and the re-use of public sector information précise, pour les données de la recherche, en accord avec le principe “aussi ouvert que possible, aussi fermé que nécessaire, que les données issues de la recherche financée par des fonds publics peuvent être réutilisées à des fins commerciales ou non commerciales lorsqu’elles sont déjà rendues publiques via des dépôts institutionnels ou thématiques. C’est donc le cas des données diffusées dans des entrepôts. Les licences CC BY NC ne sont donc pas appropriées.

Compatibilité avec les exigences des financeurs

La coalition des financeurs (cOAlition S) indique, dans le premier article de ses Principes que  “les autrices, les auteurs ou leurs institutions conservent les droits d’auteur de leurs publications. Toutes les publications doivent être publiées sous licence ouverte, de préférence sous la licence Attribution (CC BY) de Creative Commons, afin de répondre aux exigences définies par la Déclaration de Berlin “. 

Ce principe est précisé dans les orientations sur la mise en oeuvre du Plan S :

La cOAlition S recommande l’utilisation des licences Creative Commons (CC) et exige l’utilisation de la licence Attribution de Creative Commons (CC BY) 4.0 par défaut. Les exceptions suivantes s’appliquent:

  • La cOAlition S acceptera, comme solutions de rechange, l’utilisation de la licence CC BY-SA 4.0 et l’utilisation de la licence CC0 (domaine public).
  • Les membres de la cOAlition S peuvent approuver l’utilisation de la licence CC BY-ND pour des articles individuels, à condition que cela soit explicitement demandé et justifié par les titulaires de subvention.”

Ces dispositions concernent certes en premier lieu les publications scientifiques mais elles  peuvent s’appliquer aux données de la recherche, l’enjeu étant de favoriser la réutilisabilité des données dans les conditions les plus larges possibles.

L’ANR, membre de la Coalition S, s’inscrit donc pleinement dans ces principes dans le cadre de sa politique science ouverte. 

Les entrepôts

La plupart des entrepôts, qu’ils soient pluridisciplinaires ou thématiques, proposent des licences d’usage. Il s’agit généralement d’un champ obligatoire à renseigner par les déposants.

Entrepôts généralistes  : l’exemple de Recherche Data Gouv

Sur Recherche Data Gouv, la licence attribuée à un jeu de données par défaut est la licence ouverte Etalab 2.0. Il reste possible de modifier cette licence en choisissant des conditions personnalisées : il s’agira de licences Creative Commons.  Le déposant peut préciser les fichiers de données auxquels elles s’appliquent. 

Il est également possible pour le déposant de restreindre l’accès au jeu de données : voir dans la rubrique “Aide en ligne”, dans le menu “déposant”, la partie intitulée Préciser les conditions d’utilisation du jeu de données.

Les entrepôts de Chimie : quelques exemples 

  • Sur Chemotion est proposée la licence CC BY-SA. Un embargo est possible.
  • Sur Crystallography Open Database (COD), la licence attribuée est la licence CC0 : “All data in the COD and the database itself are dedicated to the public domain and licensed under the CC0 License. Users of the data should acknowledge the original authors of the structural data”. Un embargo est possible si les données sont identifiées en tant que « pre-publication deposition ». 
  • Sur EELS Data Base, la licence attribuée est la licence Open Database License (ODbL). Il n’y a pas de possibilité d’embargo.
  • SupraBank propose les licences CC0, CC BY, CC BY-SA. Le déposant peut choisir de déposer ses données en mode « non-publié » (« unpublished »), de façon à en limiter l’accès à lui-même ou à le partager avec un nombre restreint de personnes.

Pour aller plus loin, dans le répertoire des  entrepôts en chimie disponible sur DATACC, la fiche descriptive de chaque entrepôt  permet de voir quel type de licence est disponible.

Les entrepôts en Physique : quelques exemples

  • Data Terra appose une licence Creative Commons  et Etalab. CC BY 4.0 par défaut ; un embargo maximum de 2 ans est possible à partir de la date de publication du dépôt.
  • HEP data appose une licence CC0 par défaut mais il reste possible d’indiquer une autre licence lors du dépôt si nécessaire.
  • NOMAD propose la licence  CC BY 4.0. Un embargo est possible pour une durée maximale de 3 ans ; il est également possible de contrôler l’accès aux données via une autorisation préalable de l’auteur pendant 3 ans.
  • Sur PANGAEA, les licences possibles sont les licences CC BY, CC BY-SA, CC0. Un embargo est possible : les données sont protégées par mot de passe mais les métadonnées sont rendues publiques sans délai. Il est également possible de donner un accès aux données via un lien privé dont la validité est de durée limitée.
  • L’ESRF, dans sa Data Policy, précise que les équipes pourront avoir l’accès exclusif aux données pendant une période d’embargo de trois ans, renouvelable si nécessaire. Après cette période, les données issues de recherches financées par des fonds publics seront publiées sous licence CC BY et accessibles à tous.
  • Les données disponibles sur la base de données “Johns Hopkins Turbulence Databases” sous licence Open Data Commons Attribution License (ODC-By):  “Johns Hopkins Turbulence Databases are made available under the Open Data Commons Attribution License (ODC-By), which means it is open to use, but requires attribution. “

Pour aller plus loin, dans le répertoire des  entrepôts en physique disponible sur DATACC, la fiche descriptive de chaque entrepôt  permet de voir quel type de licence est disponible.

Les éditeurs

La plupart des éditeurs recommandent ou exigent que les données en lien avec l’article soient mises à disposition des lecteurs (voir sur DATACC) et précisent aux auteurs la licence à attribuer. Pour rappel, le paiement d’Article Processing Charges (APC) par les auteurs pour une diffusion en libre accès implique que les articles aient une licence CC BY ou équivalent. Dans tous les cas, il est de toute façon recommandé de déposer sa publication dans une archive ouverte de type ArXiv, HAL …

Par exemple, dans son IOP Publishing research data availability policy, IOP Publishing recommande l’utilisation d’une licence ouverte (licence CC0) : “The journal encourages research data to be made available under open licences that permit reuse freely (eg CC0)”. 

Pour les Physical Review Journals, les auteurs sont encouragés à attribuer une licence ouverte de type CC0 (voir le paragraphe “data licensing” du Guidelines for Data Availability Statements) : Authors are encouraged to make their research data available under open licenses that permit reuse freely, like CC0 « .

Dans l’ACS Research Data Policy, l’American Chemical Society recommande l’utilisation d’une licence CC by : “To ensure data accessibility, we encourage the use of open licenses for reuse of data, such as Creative Commons CC BY

Pour les data papers, dans le répertoire des data journals disponible sur DATACC, la fiche descriptive de chaque journal  permet de voir quel type de licence est disponible.

Ressources

Outils

Il est possible de retrouver la  Liste des licences utilisables pour être en conformité avec la Loi pour une République numérique.

Pour rappel, plusieurs outils permettent aux auteurs de jeux de données d’identifier la licence la plus appropriée aux usages prévus.

Pour les codes et logiciels :

La FAQ du site des Creative Commons peut également apporter des informations sur les conditions d’attribution des licences et détailler leur usage.

Plusieurs logigrammes permettent de s’orienter sur les conditions d’accès ou de partage de ses jeux de données. Ces logigrammes vont au-delà de la seule attribution de licences et permettent de couvrir un grand nombre de problématiques concernant la diffusion des données et la propriété des données :

 Guides

De nombreux guides et ressources sont disponibles sur DoraNum :

Le comité Science Ouverte a également publié en 2022 un guide très complet : Cécile Arènes, Lionel Maurel, Stephanie Rennes. Guide d’application de la Loi pour une République numérique pour les données de la recherche. Comité pour la science ouverte. 2022. ⟨hal-03968218⟩

Le site du CIRAD explicite l’ensemble des licences. Voir : Fily, M.F. 2015. Connaître et utiliser les licences Creative Commons, en 6 points. Montpellier (FRA) : CIRAD, 11 p.

OpenAire présente un guide à destination des chercheurs : “How do I license my research data” voir Margoni, Thomas, & Tsiavos, Prodromos. (2018). Toolkit for Researchers on Legal Issues. Zenodo.

En 2022, une présentation a été faite sur les licences libres lors des Open Science Days de l’Université Grenoble Alpes  :  Clément Fontaine Mélanie. Licence libre, Open data et science ouverte : de quoi parle t-on ? 15 décembre 2022 : présentation et vidéo.