Adopter un plan de gestion des données

Les formats standards en physique

Le recours aux formats ouverts fait partie des pistes à retenir pour rendre les données scientifiques ‘Trouvables, Accessibles, Interopérables et Réutilisables’.

Nous avons constitué ci-dessous une liste non-exhaustive de formats standards ouverts utilisés dans le domaine de la physique.

FormatDescription
HDF5Hierarchical Data Format (extension .hdf5) est un format conçu pour des données extrêmement volumineuses, complexes et hétérogènes, notamment utilisé en physique, astronomie, sciences de la terre, ingénierie, génomique et dynamique des fluides computationnelle. Développé à l’origine au National Center for Supercomputing Applications, il est soutenu par HDF, une société à but non lucratif dont la mission est d’assurer le développement des technologies HDF5 et l’accessibilité des données stockées dans HDF. Le format HDF5 utilise une structure de type « répertoire de fichiers » ainsi que des métadonnées, ce qui les rend auto-descriptifs. De nombreux outils logiciels courants utilisés pour la recherche universitaire prennent en charge HDF5, notamment Labview, MATLAB, Mathematica, ParaView et Matplotlib. HDF5 prend également en charge de nombreux langages de programmation tels que Fortran, Python, R, .NET, Julia et bien d’autres. Voici la documentation pour plus d’informations, ainsi qu’une vidéo sur l’utilisation des fichiers HDF5 via HDFView, qui est un outil visuel pour parcourir et éditer des fichiers HDF4 et HDF5.
NexusNeXus (extensions .nxs et .nex) est un format de données commun pour la science des neutrons, des rayons X et des muons. Il est développé en tant que standard international afin de faciliter une plus grande coopération dans l’analyse et la visualisation des données de neutrons, de rayons X et de muons. NeXus est construit sur le format de données scientifiques HDF5 mais ajoute des règles spécifiques pour organiser les données dans les fichiers. Une Application Program Interface (API) a été produite afin de simplifier la lecture et l’écriture des fichiers NeXus. Voici le lien vers la documentation pour plus d’informations.
JCAMP-DXJCAMP-DX est un format permettant l’ouverture et la représentation des données relatives aux spectres Raman, UV, NMR, EPR, de masse, les chromatogrammes, les thermogrammes, etc. Les spectres au format JCAMP-DX peuvent être lus grâce aux logiciels open source JDXview et JSpecView. Voici le lien pour plus d’informations.
NetCDFNetwork Common Data Form (extensions .nc et .cdf) est un format largement utilisé en océanographie et en météorologie pour stocker des variables, telles que la température, la pression, la vitesse du vent et la hauteur des vagues. Ce format permet la création, l’accès et le partage de données scientifiques stockées sous forme de tableaux. Le Centre de programmes Unidata prend en charge et maintient les interfaces de programmation netCDF pour C, C++, Java et Fortran. Des interfaces de programmation sont également disponibles pour Python, IDL, MATLAB, R, Ruby et Perl. Sont référencées ici les logiciels qui peuvent être utilisés pour manipuler ou afficher des données netCDF. HDF Explorer est un programme de visualisation de données qui lit les fichiers de format de données hiérarchiques ainsi que les fichiers de données netCDF.
FITSFlexible Image Transport System (extensions .fits, .fts, .fit) a été développé par le groupe de travail IAU FITS. Il constitue un format de données standard en astronomie approuvé par la NASA et l’Union Astronomique Internationale. Outre des métadonnées ASCII détaillées, il peut contenir une série d’images acquises à partir de différentes sources et dans différents domaines spectraux, ainsi que des tableaux de données multidimensionnels. Le support des fichiers FITS, via des bibliothèques standards, est disponible pour la plupart des langages utilisés dans un cadre scientifique, tels que C, Fortran, Java, Perl, Python, et IDL.
ASDF – AstronomieAdvanced Scientific Data Format (extension .asdf). Il s’agit d’une format des donnée utilisé notamment pour les images astronomiques. Étendu de FTIS, il a été développé pour éliminer la plupart des problèmes actuels avec le format FITS. Les métadonnées sont contenues dans un en-tête YAML (Yet Another Markup language) suivi de données binaires ou ASCII. Voici le lien pour plus d’informations. Pyasdf est une interface (API) en Python qui permet de créer et de modifier le fichier ASDF.
PDSLe format de fichier PDS (Planetary Data System), développé par la NASA, est un format standard conçu par la branche planétaire de la NASA pour stocker les données solaires, lunaires et planétaires collectées sur Terre et par les engins spatiaux interplanétaires. Extensions : .img, .imq, .lbl, .pds.
SEG-YLe format de fichier SEG-Y (extensions .segy et .sgy) est l’un des nombreux standards développés par la Society of Exploration Geophysicists (SEG) pour le stockage des données sismiques.
ASDF – SismologieAdaptable Seismic Data Format. Format de données, basé sur HDF5, pour stocker un nombre illimité de formes d’ondes synthétiques, traitées ou non modifiées dans un seul fichier. Il inclut des informations sur les événements ou les stations, dans le même fichier. Des informations complètes sur la provenance peuvent être stockées avec chaque élément de données. Voici le lien pour plus d’informations.
GRIBGRIB ou GRIdded Binary ou General Regularly-distributed Information sous forme binaire (extensions .grib, .grb, .gb) est un format de données utilisé pour stocker des données météorologiques historiques et prévisionnelles. Le standard GRIB a été conçu et est maintenue par la Commission des systèmes de base de l’Organisation Mondiale de la Météorologie.
EDFLe format européen de données (EDF) est un format simple et flexible pour l’échange et le stockage de signaux biologiques et physiques multicanaux. Une extension d’EDF, nommée EDF+, a été développée en 2002 et est largement compatible avec EDF. EDF+ donne la possibilité d’ajouter également des annotations et des résultats d’analyse.