Actualités - Actu en bref

Bulletin de veille – Octobre 2023

Donnez-nous votre avis sur le Bulletin de veille et sur Datacc. Datacc aura bientôt 4 ans. Nous publions ce mois-ci le 34e numéro du Bulletin de veille. Vous ont-t-ils été utiles ? Proposons-nous des contenus qui répondent à vos attentes ? Aidez-nous à mieux connaître vos besoins en répondant à notre enquête.

L’actualité dans vos domaines

La préservation des données pour la physique des hautes énergies. Un article synthétise sur plus de 10 ans les méthodes de conservation des données expérimentales, notamment celles issues des grands collisionneurs, dans le domaine de la physique des hautes énergies. A partir d’expériences concrètes (JADE, ALEPH, ZEUS, etc.), il fait état des efforts accomplis au niveau international plusieurs projets transversaux (HEP data, CERN open data portal, CERN Analysis Preservation, REANA reproducible analysis, ARCHIVER, CERNLIB, DPHEP, etc.) visent ainsi à trouver des solutions génériques, dont la plupart s’appuient sur la science ouverte et les principes FAIR.

Données de microscopie : une interopérabilité des formats est-elle possible ? Les tentatives de standardisation des formats conduisent souvent à la création de nouveaux formats (comme l’illustre XKCD). S’appuyant sur l’exemple de la biologie, avec la création de Open Microscopy Environnement et de Zarr, cet article revient sur la nécessité de créer des formats pivots. Toutefois, les incitations à développer de nouveaux formats sont fortes du côté des constructeurs d’instruments (course à l’innovation et à la performance). Il est également difficile de convaincre les porteurs de projets d’adopter des formats pivots.

Résultats négatifs ou incertains : les clés de l’innovation en chimie. Les techniques d’apprentissage automatique tendent à privilégier les expériences ayant les taux de succès les plus élevés. Les auteurs de cet article publié dans Chemical Science mettent en avant l’utilisation d’algorithmes qui permettraient d’exhiber des résultats inattendus ou singuliers, susceptibles de constituer les innovations de demain (curiosity driven discoveries). Dans cette perspective, les résultats négatifs prennent toute leur valeur. « To fully harness the potential of ML and uncover the ‘unknowns’ of chemistry, we anticipate that the community will start placing a stronger emphasis into small and higher quality datasets that include ‘negative’ experimental outcomes. »

SpectraFit, un outil open source pour l’analyse de données de spectroscopie. Pour analyser les données de spectroscopie des rayons x, une équipe internationale a développé un package python proposant des outils d’analyse statistique et des méthodes d’ajustement. Il peut être utilisé en ligne de commande ou à partir d’un Jupyter Notebook. La conception du package est destinée à faciliter la transparence et la reproductibilité des traitements. Un preprint présente l’outil. La documentation et le code sont disponibles en ligne.

Chemotion pour l’enseignement de la gestion des données de recherche. Afin de sensibiliser les étudiants de premier cycle en chimie aux bonnes pratiques de gestion des données de recherche, l’Université allemande RWTH a expérimenté l’usage du cahier de laboratoire électronique Chemotion dans un contexte pédagogique. L’article de Chemical Education présente les résultats de l’enquête menée auprès des étudiants au cours de trois années d’expérimentation. Il s’agissait d’évaluer la mise en œuvre du cahier de laboratoire électronique, l’intégration des pratiques de gestion des données de la recherche et les supports pédagogiques. L’analyse du jeu de données met en évidence la nécessité d’améliorer l’enseignement de la gestion des données de la recherche et ce, dès le premier cycle. La satisfaction des étudiants concernant l’usage de Chemotion se révèle très mitigée mais tend à progresser avec le temps.

Renforcer le partage des données de réaction. La chimie prédictive et l’informatique réactionnelle ont récemment évolué avec le développement de l’intelligence artificielle. Afin de renforcer encore cette progression, il est nécessaire d’améliorer le partage et la structuration des données de réaction. Cet article analyse plusieurs initiatives de curation et de partage des données en chimie et en biologie moléculaire (The Cambridge Structural Database, The protein Data Bank, PubChem, ChEMBL). L’objectif est d’appliquer ces méthodes aux données de réaction et l’Open Reaction Database en est une réalisation. Les auteurs proposent différentes actions à entreprendre pour rendre les données FAIR, afin de permettre de meilleures conditions de synthèse et améliorer le rendement des réactions. Enfin, ils affirment que le partage des données structurées doit être porté par les organismes de financement de la recherche et les revues plus encore que par les chercheurs. En exigeant le libre accès et la publication FAIR de toutes les données de réaction générées grâce à leur financement, ils peuvent inciter les chercheurs à s’orienter vers la production de données de réaction nativement numériques, structurées et partagées.

Pratiques de partage de données et méthodes en physique, mathématique et informatique. A partir d’un million d’articles publiés dans ArXiv (extraits par lots avec leurs métadonnées), une équipe américaine étudie les pratiques de partage de liens et leur impact sur la réception des articles. Associant fouille de texte pour extraire les URL citées, apprentissage automatique pour déterminer le contexte de citation et test de persistance des liens, les auteurs de ce preprint concluent à une corrélation entre le taux de citation de l’article et le fait de partager des liens vers des articles et des méthodes.

Infrastructures

Symposium EOSC. Au programme du symposium EOSC (20-22 septembre 2023) : la feuille de route pluriannuelle d’EOSC (2025-2027) en cours d’élaboration, mais aussi l’interopérabilité des données et des métadonnées, les identifiants (PIDs), les data spaces, le partage des données et la préservation, ou encore les compétences en matière de curation de données (projet skills4EOSC, Data Stewardship Curricula and Career Path Task Force). Un résumé de ces trois journées, les supports de présentation ainsi que les captations vidéo sont accessibles depuis EOSC Portal.

Des datacenters moins énergivores. Le recours croissant à des services de traitement des données délocalisés de type cloud alourdit l’empreinte environnementale du numérique. En effet, plus les données ont de distance à parcourir, plus la consommation énergétique est grande. Un article du Journal du CNRS partage l’initiative du Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (Lirmm) pour réduire les besoins énergétiques occasionnés par la production et l’utilisation de données. Il s’agit de coupler des datacenters de petite taille avec des panneaux solaires, de les placer à proximité des besoins et de les mettre en réseau, afin, d’une part, de minimiser le trafic en rapprochant le service et les usages, et d’autre part de mutualiser les usages énergétiques, en plus de la capacité de stockage ou de calcul.

Science ouverte

Un système d’information fédéré pour la réutilisation des données. La mise à disposition croissante de nombreux jeux de données de nature hétérogène rend nécessaire une réflexion poussée sur la recherche et la visualisation de ces données, pour faciliter leur réutilisation. Le centre de gestion durable des données de recherche de l’Université de Hambourg, a ainsi développé un entrepôt de données, afin de répondre à ces enjeux et de rendre les données déposées accessibles selon les principes FAIR. L’organisation de cet entrepôt ainsi que la mise en place d’un système de base de données fédéré (FDBS) sont décrites dans cet article.

D(DO)MP : Data and Digital Object Management Plan. Le projet PARSEC, un projet international et pluridisciplinaire financé par le Belmont Forum, une organisation regroupant des institutions et agences de financement dans le domaine de la recherche en environnement, a élaboré un manuel (workbook) et des check lists pour encadrer les pratiques de gestion de données. Des procédures ont été établies pour sélectionner les données, les préparer, gérer leur sécurité et leur partage. D’après cet article, qui dresse un bilan de cette expérience, le D(DO)MP s’est avéré être un catalyseur de bonnes pratiques en matière de gestion des données et ces codes.

Recommandations pour la citation des données et logiciels. Le guide de FORCE11 sur la citation des logiciels à destination des éditeurs fait l’objet d’une publication dans Scientific Data. Ce document doit permettre de rendre la citation de codes et de données au cours du workflow éditorial plus fiable, ces produits de recherche étant souvent incorrectement référencés dans les publications. Une partie de ces recommandations s’adresse également aux auteurs : bien choisir son entrepôt, rédiger la déclaration de disponibilité et les citations croisées correctement. Les logiciels de gestion des citations ne permettent pas toujours de gérer des jeux de données et des logiciels.

Intégrité scientifique

Des Replication games pour améliorer la reproductibilité des articles scientifiques. Un billet dans Nature revient sur les actions de l’Institute for Replication, une association qui œuvre pour favoriser les réplications d’articles publiés en économie et en science politique. Cette association organise des ateliers de réplication à travers le monde, donc le dernier a eu lieu à l’ENS de Lyon le 24 octobre dernier. Il s’agit de répliquer en équipe, sur une journée, des articles publiés, ou d’essayer de les reproduire avec de nouveaux jeux de données. Ces réplications sont ensuite rassemblées dans des méta-papiers pour être publiés. Ce procédé fait écho aux ReproHackatons, qui ont déjà été organisés par le GDR MaDICS (Masses de Données, Informations et Connaissances en Sciences).

Mêmes données, résultats divergents : la reproductibilité à l’épreuve ? Deux jeux de données identiques non encore publiés dans le domaine de l’écologie et de l’écologie évolutive ont été confiés pour analyse à 174 équipes et 246 biologistes. Comme le montre un preprint publié dans EcoEvoRxiv, les résultats divergent sensiblement du fait notamment des choix d’analyse effectués par les différentes équipes. Jusqu’où les résultats d’un article peuvent-ils être considérés comme définitifs ? Les méthodes multi-analystes (many analysts’ method) utilisées dans d’autres disciplines peuvent-elles permettre d’améliorer la reproductibilité ? Un article de Nature revient sur ces résultats….

Retour sur la notion de retractation. L’article du blog « Revues et intégrité » présente le déroulement d’un processus de retractation, propose un bref historique de la correction des articles et explique comment sont décidés les retraits. Il termine par des recommandations notamment celles de l’ICMJE (International committee of medical journal editors) ou celles de COPE (Committee on Publication Ethics).

Études et enquêtes

Disparition d’entrepôts de données. Un article publié dans ArXiv se penche sur la fermeture des entrepôts de données : que deviennent les données déposées dans ces entrepôts ? Restent-elles accessibles ? Y-a-t-il un risque de perte de données ? Après avoir identifié,  à partir de Re3data, 191 entrepôts ayant fermés, les auteurs font les constats suivants : la plupart de ces entrepôts sont disciplinaires et concernent notamment les sciences de la vie et les sciences naturelles. La fermeture intervient généralement après 12 ans d’existence. Dans 88% des cas, les données ne sont plus disponibles sur le site de l’entrepôt. Plusieurs alternatives existent : 44 % des entrepôts de l’échantillon ont migré des données vers un autre entrepôt et 12 % maintiennent un accès limité (via FTP par exemple) à leur collection de données. La disparition des entrepôts, concluent les auteurs, n’est pas un phénomène rare ; elle fait partie du cycle de vie des entrepôts et doit être prise en compte par les responsables de ces infrastructures qui doivent réfléchir à l’accès à long terme des données.

L’usage de HAL dans les universités “Udice”. Un article étudie l’utilisation de HAL dans dix grandes universités de recherche, membres de l’association Udice. Ces universités rassemblent plus de 1 200 laboratoires et représentent plus d’un million de dépôts. Sur cet échantillon représentatif, « les publications – articles et livres – ont un degré d’ouverture relativement bas, en dessous de 31 % ». Il en est de même pour les communications et les posters. Par contre, 52 % des rapports, 67 % des preprints et pratiquement toutes les thèses sont accessibles en texte intégral. On constate également que « les laboratoires en biologie, médecine et santé déposent en moyenne moins que les autres : quatre à cinq fois moins par exemple qu’en informatique, mathématique ou physique ». Si cette étude quantitative confirme la généralisation de l’usage de HAL, les auteurs notent une « évolution de HAL d’un dispositif à usage individuel (auto-archivage) vers un dispositif à destination des institutions (suivi, évaluation), dans lequel les deux principes – la communication directe par auto-archivage (voie verte du libre accès) et le suivi de la production scientifique – coexistent. ».

La place d’Episcience dans le paysage national des revues diamant. Dans son blog, le CCSD revient sur une étude portant sur 18 plateformes d’édition selon le modèle diamant (pépinières de revues, portails nationaux de diffusion, etc.), dont Episcience qui, depuis 2013, diffuse 25 revues actives. Cette étude relève que cette plateforme héberge aussi bien des revues en SHS qu’en STM, des revues à l’interface « entre le monde de la recherche et le monde professionnel » et des revues éditées sur tous les continents, ce qui en fait son originalité. Autre point marquant, Episcience est la « seule plateforme française à fonctionner sur le modèle d’overlay journals » : les pré-publications sont au cœur du dispositif, les différentes versions des articles publiés sont disponibles de manière immédiate, ce qui garantit une plus grande transparence.

Guides et ressources

La science ouverte pour les directeurs d’unité. Comment gérer et partager les données de recherche pour les rendre réutilisables, comment généraliser l’accès ouvert aux publications scientifiques, comment diffuser les algorithmes, codes sources et logiciels libres ? C’est à ces questions que répondent les fiches pratiques à destination des directeurs d’unité, rédigées par le comité science ouverte. A partir d’exemple, ces fiches synthétiques recensent les bonnes pratiques et outils permettant de développer la science ouverte.

Préserver ses droits d’auteur sur ses travaux de recherche. Udice avait organisé un webinaire présentant la stratégie de non cession des droits et expliquant comment la mettre en œuvre. Les supports et l’enregistrement du webinaire, ainsi qu’une FAQ très complète, sont désormais disponibles ici.

2 nouveaux livrets du Passeport pour la science ouverte en anglais. Les livrets Source code and software et Join the debate ont désormais une version anglaise. Pour rappel, le passeport ainsi que les capsules vidéos sont disponibles en français et en anglais.

Analyse immersive et visualisation des données. L’équipe de “Désassemblons le numérique” interviewe Arnaud Prouzeau, chercheur au Centre Inria de l’université de Bordeaux. L’analyse immersive vise à « rassembler dans un espace 3D les utilisateurs, les données et les outils qu’ils utilisent », afin d’exploiter au mieux tous les canaux sensoriels pour appréhender les données. Arnaud Prouzeau illustre son propos par de nombreux exemples (visualisation située, réalité augmentée, analyse de données collaborative). L’interview est à retrouver sur la plateforme Doranum.

Édition scientifique

La pression sur l’édition scientifique. Un article se donne pour but de mesurer selon 5 critères l’accroissement de la pression sur l’édition scientifique. Au-delà de l’augmentation exponentielle du nombre d’articles publiés (+ 47% entre 2016 et 2022), le travail que les scientifiques consacrent à la publication (rédaction, relecture, édition) a considérablement augmenté ; tout en soulignant la complexité du phénomène issu de l’interaction de nombreuses causes, l’étude pointe du doigt la tendance de certains éditeurs à multiplier les numéros spéciaux ainsi que la croissance des facteurs d’impacts. Les auteurs en appellent à plus de transparence dans le processus éditorial et à une révision des modalités d’évaluation de la recherche.

L’université de Lorraine se désabonne de Wiley. Une large consultation a été lancée auprès de la communauté en 2022-2023 pour aboutir à cette décision. Celle-ci s’inscrit en cohérence avec une politique menée depuis 2017 par l’université, qui vise à remettre en cause les abonnements avec certains éditeurs scientifiques commerciaux (Springer, notamment).  Les fonds pourront ainsi être consacrés au développement de la science ouverte. D’autres établissements partagent cette politique, en France et à l’étranger (MIT).

Les plateformes alternatives de publication scientifique. Suite à une enquête menée en 2022, les plateformes alternatives de publication scientifique font l’objet d’un rapport du Knowledge Exchange. Sur les 45 plateformes étudiées, 35 sont issues d’institutions ou d’organisations sans but lucratif. L’usage de la licence cc-by, la plus ouverte, est très répandue (toutes les plateformes en physique et sciences du vivant la proposent) ; pour 35 plateformes, la cession de droit n’est pas exclusive, ce qui permet aux auteurs de conserver leur droit de diffusion de leurs productions, en cohérence avec la stratégie de non cession des droits. Il reste que la plupart des plateformes ont conservé de nombreuses caractéristiques des éditeurs traditionnels (comme les formats de sortie, la prépublication et l’évaluation par les pairs).

L’édition scientifique et l’IA. Springer lance ce mois-ci un assistant à la rédaction d’articles scientifiques basé sur l’IA. L’ACS intègre déjà à son workflow éditorial des outils de ce type pour le contrôle et la correction de la qualité linguistique, et la classification des manuscrits. L’AMS aborde ces questions dans le cadre de son AI Advisory Group et lance une consultation auprès de la communauté des mathématiciens. Un billet de The Scholarly Kitchen revient sur l’expérience de ces sociétés savantes et sur leurs perspectives face aux enjeux de l’IA.

Reconnaître le travail bénévole réalisé par les chercheurs. Les biais auxquels conduisent le peer review, tel qu’il est pratiqué, la sursollicitation des reviewers rendent-ils ce modèle obsolète ? Comment le rendre plus participatif et inclusif ? Ce billet de blog apporte des éléments de réflexion. Autre piste : mettre en place un système de reconnaissance explicite des contributions bénévoles à la science, contributions tel le peer review. Un autre billet décrit ce que pourrait être un système de transaction (voluntary contribution transaction system) reposant sur un échange de jetons ou de Contribution Points. Utilisant une technologie de blockchain pour fiabiliser les transactions, il permettrait de donner de la visibilité aux activités bénévoles et pourrait être utilisé pour l’évaluation des chercheurs.

Commentaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *