Capsule Recherche Data Gouv : l'entrepôt de données
Découverte des objectifs, de la genèse et des fonctionnalités de la plateforme d'entrepôt de données portée par Recherche Data Gouv
Les scientifiques du CNRS peuvent désormais déposer leurs données au sein d’un espace institutionnel sur la plateforme nationale Recherche Data Gouv. Quelles sont les ambitions de cette plateforme ?
Conformément à sa feuille de route pour la science ouverte, le CNRS incite ses chercheurs et chercheuses à rendre accessibles leurs données de recherche1 , comme ils le font pour leurs publications scientifiques. Certains scientifiques disposent pour cela d’entrepôts thématiques de confiance2 ou de solutions développées depuis longtemps par leur communauté. Mais comment faire si aucune de ces solutions n’existe dans son domaine ? Afin de répondre à cette question, le CNRS a ouvert en juin 2023 un espace institutionnel CNRS Research Data sur la plateforme Recherche Data Gouv.
« Le CNRS est un des grands pourvoyeurs de données de recherche dans des thématiques pluridisciplinaires. Il est important de traiter cet enjeu globalement, du big data aux “petites” données bien utiles pour faire avancer la science », analyse Sylvie Rousset, directrice de la Direction des données ouvertes de la recherche (DDOR).
L’entrepôt CNRS Research Data permet aux scientifiques de publier leurs données issues de travaux de recherche soutenus par le CNRS. Il propose une collection principale générique et les laboratoires peuvent demander à créer des collections spécifiques – une dizaine l’ont déjà fait. Aujourd’hui, près de 80 jeux de données sont disponibles dans des domaines variés (chimie, physique, sciences de l'ingénierie et des systèmes, sciences de l’Univers, sciences de la vie, etc.), mettant à disposition plus de 6 600 fichiers.
Découverte des objectifs, de la genèse et des fonctionnalités de la plateforme d'entrepôt de données portée par Recherche Data Gouv
Une solution complète et souveraine
Créé à l’état de l’art par un consortium d’établissements mené par Inrae1 pour répondre aux besoins de toute la communauté de recherche, « cet espace s’inscrit dans l’écosystème national Recherche Data Gouv, une initiative qui a été très structurante pour l’ESR et en particulier pour le CNRS. L’organisme participe fortement à son développement », assure Sylvie Rousset qui fait partie du comité de pilotage. « En s’impliquant très tôt, le CNRS a fait bénéficier l'ensemble de la communauté de ses ressources, compétences et acteurs pour soutenir le projet. Il peut en être remercié », confirme Isabelle Blanc, administratrice ministérielle des données, des algorithmes et des codes sources au ministère de l’Enseignement supérieur et de la Recherche (MESR), qui pilote cet écosystème.
L’espace Recherche Data Gouv est accessible depuis un portail web unique et forme une « solution souveraine et une alternative fiable à la publication des données sur des plateformes commerciales », indique l’administratrice. Concrètement, il s’agit d’un entrepôt permettant à chaque établissement d’assurer la curation et la modération de ses données sur un espace institutionnel propre – comme celui ouvert par le CNRS qui « permet à un maximum d'équipes de recherche de ne pas se retrouver sans solution, puisque le CNRS est l'établissement tutelle du plus grand nombre d'unités de recherche en France », selon Isabelle Blanc.
« L’ambition française est celle de la Loi pour une république numérique de 2016 : dès lors que 50 % des travaux de recherche bénéficient d’un financement public, il doit y avoir au moins partage et au mieux ouverture2 des données. », rappelle-t-elle. S'engager à ouvrir l'ensemble des données fait aussi partie des critères d'appréciation des projets par les agences de financement françaises et européennes, et la plupart des éditeurs demandent aujourd’hui que les données liées à une publication soient accessibles. « Recherche Data Gouv se place dans cette dynamique de science ouverte, afin que les données puissent bénéficier à toute la communauté », résume Isabelle Blanc, insistant sur l'objectif de « ne laisser aucun scientifique sans solution pour ouvrir ou partager ses données ».
La priorité : l’accompagnement des scientifiques
« Ouvrir les données est plus complexe qu’ouvrir les publications : c’est tout un travail scientifique complémentaire qui est demandé aux équipes de recherche, le plus en amont possible, lors de la conception de leur projet et qui ne peut être confié à des tiers », explique Isabelle Blanc. Il faut ainsi être capable de décrire les instruments, conditions et protocoles avec lesquels les données ont été produites et collectées. En effet, selon une enquête du MESR entre 2018 et 2020, 80 % des communautés de recherche manquaient soit d’accompagnement soit d’infrastructure. Les autres pays1 avec lesquels le ministère a échangé avaient aussi constaté un besoin d'accompagnement en développant leurs dispositifs nationaux.
L'accompagnement est devenu un élément central du dispositif, prioritaire sur le développement d’une solution technique. En pratique, il s'organise par un maillage de services pour répondre à tous les besoins, selon une stratégie de fédération, de valorisation et d’amplification des initiatives existantes. En premier lieu, les ateliers de la donnée sont des guichets de proximité, disséminés sur tout le territoire, regroupant les expertises complémentaires de différents établissements. Aujourd’hui, 19 ateliers de la donnée mobilisent plus de 350 personnes de 80 établissements et offrent un éventail de plus de 140 services. Dix autres sont en projet et deux appels à labellisation auront lieu en 2024 et 2025. « Le CNRS est partenaire de nombreux ateliers de la donnée, qui sont le point d'entrée des scientifiques », précise Sylvie Rousset.
L’organisme contribue aussi au déploiement de centres de ressources nationaux, comme OPIDoR – portail mis en place par l’Inist-CNRS1 , pionnier dans le développement des plans de gestion de données – et DoRANum qui propose des ressources et formations pour accompagner la communauté scientifique dans la gestion et le partage des données. Deux centres de ressources qui donnent au CNRS « une place toute particulière » dans l’écosystème, d’après Isabelle Blanc.
La plupart des six centres de référence thématiques2 actuels de Recherche Data Gouv sont aussi en lien avec le CNRS, très impliqué dans les infrastructures de recherche. C’est le cas par exemple de Huma-NumIR* et Data Terra. Cette dernière concerne l'évolution du système Terre – de l'astronomie au changement climatique, en passant par les océans, les pôles, les ressources en eau, etc. Des sujets pour lesquels il est nécessaire d'analyser des données d’observation complexes très hétérogènes, venues de multiples producteurs et souvent non reproductibles exactement dans les mêmes conditions. « Nous sommes passés d'une situation dans laquelle une bonne gestion de la donnée était une plus-value à une situation dans laquelle mal gérer sa donnée est vraiment un obstacle à la recherche », constate Nicolas Arnaud, directeur de CNRS Terre & Univers. Si la donnée FAIR3 est « dans l'ADN de l'institut », elle doit désormais figurer au bon endroit, au bon moment et dans le bon format pour tous les utilisateurs concernés par ces thématiques. Data Terra vient donc se placer en aval des infrastructures productrices de données et assure un portail unique d'accès aux données et à des outils dédiés à leur traitement. Au-delà de ce travail de curation complexe, l’infrastructure se fait aussi prescriptrice de bonnes pratiques. « Data Terra représente un objet qui fonctionne et peut être source d'inspiration pour d'autres communautés, notamment à l’échelle européenne », signale Nicolas Arnaud.
Le 6 novembre 2023 a eu lieu l’inauguration d’EaSy Data (Earth System Data Repository), l’entrepôt des données de longue traîne du système Terre et de l’environnement. Porté par Data Terra et opérationnalisé par le BRGM, EaSy Data a été identifié comme étant l’entrepôt thématique national des données dites « orphelines » ou de longue traîne de l’environnement et du système Terre, c’est-à-dire celles issues de travaux de recherche de durée finie (projets ou publications) dont l’acquisition/l’élaboration, la préservation et la diffusion ne sont pas organisées de façon pérenne ou communautaire.
La structuration de l’environnement des données de recherche renforce les collaborations scientifiques et favorise l’interdisciplinarité autour du partage et la réutilisation des données. Cela nécessite des moyens humains et financiers à long terme pour accompagner l’évolution des métiers et des compétences, ce pour quoi Sylvie Rousset invite à « reconnaître tous ces métiers et ces profils dans l’évaluation des carrières ». Des actions sont menées pour définir les compétences liées à la FAIRisation des données et mieux reconnaître la spécificité des métiers de gestion, de préservation et de diffusion des données comme les data librarian, data curator, data steward, etc.
À l’horizon 2025, l’archive ouverte HAL développée par le CNRS devrait aussi offrir un service pour déposer directement le jeu de données associé à une publication et le rendre accessible depuis Recherche Data Gouv. Cette même année, l’écosystème Recherche Data Gouv déposera une candidature pour devenir une infrastructure de recherche inscrite dans la stratégie nationale.
D’ici-là, Recherche Data Gouv vise une reconnaissance européenne (voir encadré) et doit trouver un modèle économique et une gouvernance pérenne. Une unité relevant de plusieurs tutelles sera mise en place pour cela en 2024, avec des personnels et moyens propres – le soutien financier du MESR étant poursuivi jusqu’en 2026. Une harmonisation de l’information juridique est aussi en développement pour accompagner les équipes et les ateliers de la donnée sur ces questions complexes qui nécessitent souvent du sur-mesure. « On espère que cet écosystème pourra grossir pour apporter cet accompagnement et faciliter la tâche à tous les établissements et toutes les équipes de recherche, dans un effet boule de neige accélérateur », conclut Isabelle Blanc.
Le comité de pilotage de Recherche Data Gouv prépare pour 2024 plusieurs candidatures pour rapprocher la plateforme nationale du projet européen European Open Science Cloud (EOSC). Ainsi, elle devrait rejoindre le catalogue de services mis à disposition par EOSC aux scientifiques européens et les ateliers de la donnée, rassemblant des acteurs experts en capacité d'accompagner des équipes de recherche, pourraient devenir des centres de compétences reconnus par l’Europe. « Les approches de la plateforme nationale Recherche Data Gouv et du projet européen EOSC sont complémentaires et peuvent se nourrir l’une l’autre », confirme Suzanne Dumouchel, responsable de la coopération internationale à la DDOR et membre du directoire de l’association EOSC, pour qui « les stratégies sont similaires, s’appuyant sur les outils existants et incluant les questions des compétences et de la qualité des données et des métadonnées ». Selon elle, « par son ampleur, son ambition, ses objectifs et sa dimension nationale, Recherche Data Gouv répond aussi aux critères envisagés pour devenir un futur nœud national d’EOSC ». Mais le ministère entend aller plus loin : « nous participons actuellement à la construction d'un consortium européen, avec nos homologues qui ont développé des projets de même nature, pour candidater à un appel 2024 d’EOSC sur les nœuds génériques, fournissant des services à toutes les communautés scientifiques à l’échelle européenne », dévoile Isabelle Blanc.