Stockage de données : du data center à la capsule ADN

Institutionnel

Piloté par le CNRS et doté d’un budget de 20 millions d’euros sur 7 ans, le programme et équipement prioritaire de recherche (PEPR) exploratoire MoleculArXiv vise à inventer de nouveaux dispositifs de stockage de données sur ADN et polymères artificiels. Marc Antonini, son coordinateur, en dévoile les enjeux et objectifs.

Lancé le 30 mai 2022, le PEPR exploratoire MoleculArXiv1 vise à révolutionner les techniques de stockage de données. Quels sont les enjeux ?

Marc Antonini1  : L’Univers digital—soit la quantité de données stockées sur la planète—sera de 175 zettaoctets d’ici 2025. Pour mémoire, un zettaoctet équivaut à mille milliards de milliards d'octets, soit un milliard de disques durs d’un téraoctet. Et alors que la croissance de ces données est exponentielle, les capacités de stockage, elles, ne suivent pas. Dans ces données, une partie—que l’on estime de 60 % à 80 %— est dite ‘froide’ : données que l’on utilise rarement, voire jamais, comme par exemple les documents légaux ou des vieux emails. Pour autant, les data center2  sont obligés de les conserver. Et certains présentent un bilan carbone équivalent à celui d’une ville entière ! Ils doivent être refroidis, leurs données doivent être migrées pour éviter les accidents de disque dur… Ce sont des gros bâtiments qui prennent de la place sur le territoire urbain, qui sont extrêmement énergivores et dont la capacité de stockage ne pourra pas suivre la croissance exponentielle des données. C’est pour cela que nous cherchons des solutions alternatives, pérennes et à faible consommation énergétique pour stocker les données.

L’ADN synthétique serait la solution ?

M. A. : Oui, car la caractéristique de l’ADN3  est sa capacité de stockage et sa durabilité. La preuve : l’ADN d’un mammouth vieux d’un million d’années a pu être séquencé - c’est-à-dire lu - aujourd’hui. L’ADN synthétique, bien stocké peut être récupéré des milliers d’années plus tard. Il suffit de le préserver de l’oxygène, de l’eau et de la lumière. Dans le cadre du stockage de données, il est question d’ADN synthétisé de façon chimique pour lequel les scientifiques construisent des séquences qui ne comportent pas de gène. Nous ne sommes pas sur de la biologie du vivant, mais sur de la synthèse chimique. Pour la conservation, on insère l’ADN dans une mini capsule métallique – que développe actuellement la société française Imagene. Ces mini capsules peuvent stocker des millions de brins d’ADN (donc de données) car celui-ci est très compact. En théorie, une seule de ces capsules pourrait contenir l’équivalent d’un data center—on peut donc imaginer les gains énergétiques, mais également d’espace sur le territoire. 

Quels sont les défis de ce nouveau procédé, auxquels ce PEPR exploratoire souhaite répondre ?

M. A. : Le PEPR a trois défis à relever. Le premier concerne la chimie de synthèse. La synthèse ADN (soit la création de l’ADN synthétique) est lente et coûteuse. Sa démocratisation va permettre de faire baisser les coûts, certes, mais nous devons accélérer ce processus de synthèse pour arriver à concurrencer les serveurs traditionnels. Il faut aujourd’hui 100 secondes pour écrire 1 bit4  de donnée en ADN quand un data center intègre 1 bit de donnée en une fraction de seconde. Notre objectif est de l’accélérer par un facteur 100 d’ici 3 à 5 ans, mais également de miniaturiser les techniques pour utiliser le moins possible de réactifs afin de baisser les coûts et d’être moins polluants.   

Le deuxième défi est de générer des systèmes d’encodage – c’est -à-dire de conversion de la donnée binaire en code quaternaire compatible avec l’ADN – et de séquencage/décodage – une lecture de la donnée robuste au bruit permettant de récupérer de façon intègre les données binaires stockées.

En effet, le processus de synthèse, stockage et séquençage de l’ADN s’apparente à un canal bruité pour lequel nous devons créer des codes robustes pour ne pas perdre ou fausser la donnée lors de son écriture ou de sa lecture.

Le troisième défi consiste à récupérer de façon aléatoire la donnée stockée dans la capsule. Si je mets l’équivalent d’un data center dans une capsule, je dois pouvoir sélectionner rapidement les brins d’ADN stockés que je souhaite retrouver et décoder. Les scientifiques travaillent donc sur la structuration de la donnée lors de la synthèse de l’ADN.

Pour relever ces trois défis, le PEPR fera appel à des recherches multidisciplinaires en chimie, microfluifique, théorie du signal, bioinformatique, biologie du séquençage et chimie des polymères.

L’enjeu est-il présent au niveau international ? Comment se positionne la France ?

M. A. : Les États-Unis ont pris de l’avance. Le pays a mis en place en 2019 le programme national MIST (Molecular Information Storage) doté d’un budget de 50 millions de dollars. Contrairement à la conception du PEPR, le programme privilégie le développement du stockage de données sur ADN via la parallélisation massive de génération des brins d’ADN5  (une technique plus coûteuse et plus énergivore). Au final, le programme sera complémentaire au PEPR alors que nous avons choisi deux voies différentes.

L’Europe n’a pas encore bien structuré sa stratégie, mais nous avons des start-up leaders en France comme DNA Script qui développe une imprimante à ADN, ou encore Imagene qui crée les capsules à ADN et des jeunes start-up telles que Biomemory ou encore PearCode. Nous avons toutes les compétences pour relever ce défi de bout en bout, et le PEPR est un moyen non seulement de coordonner l’ensemble de ce savoir-faire au niveau national afin de proposer une solution souveraine, mais également de pousser au niveau européen en visant par exemple un Fet Flagship6  de la Commission européenne. Car l’Europe dispose de compétences réelles—je pense à certains laboratoires en Angleterre et en Allemagne, au projet européen OligoArchive ou encore une start-up en Irlande. Mais nous manquons de poids lourds – comme par exemple Microsoft aux États-Unis qui fait partie de la DNA Data Storage Alliance7 . La vocation de MoleculArXiv est de favoriser le transfert vers la création de start-up et la montée en TRL8 . Ce sont des technologies émergentes qui vont attirer à leur tour les grandes entreprises, mais il faut faire vite.

Avec un budget de 20 millions d’euros sur 7 ans, comment le PEPR exploratoire MoleculArXiv est-il administré ?

M. A. : Une grande partie du budget sera destinée aux 16 laboratoires directement impliqués dans le PEPR via 4 projets ciblés (pour en savoir plus). Nous allons également financer des appels à projet et appels à manifestation d’intérêt vers les laboratoires français qui souhaiteraient relever ce défi. Enfin, nous gardons également une partie du budget pour l’animation – c’est-à-dire l’organisation de workshops internationaux, d’écoles d’été, ou encore la mise en place de groupes de travail. Le projet a également vocation à financer 4 chaires de jeunes chercheurs afin de créer une dynamique sur le sujet.  

Des collaborations avec l’INA9 , le Parlement européen, la BnF10  et la bibliothèque universelle de codes sources de logiciels, Software Heritage, sont prévues afin de mettre en place des expériences réelles d’archivage de données à grande échelle.

Concernant nos objectifs, nous avons un premier jalon à 5 ans où le PEPR exploratoire commencera à être compétitif et un second à 10 ans, où nous serons complètement opérationnels. Attention, le stockage de données ne va complètement changer du jour au lendemain. Il y aura une coexistence avec les données dites « chaudes » qui resteront au format binaire et stockées sur des systèmes traditionnels tels que les disques durs. L’objectif n’est pas de remplacer totalement les data center d’ici 10 ans mais de stocker l’énorme quantité de données d’archives.

  • 1Directeur de recherche CNRS au Laboratoire d'Informatique, Signaux et Systèmes de Sophia Antipolis (CNRS/Université Cote d’Azur), il a obtenu un doctorat en génie électrique et est responsable de l’équipe MediaCoding.
  • 2Lieu physique où sont regroupés différents équipements informatiques, tels que des ordinateurs, des serveurs et dont la fonction principale consiste à stocker des données.
  • 3L'ADN signifie acide désoxyribonucléique, et constitue la molécule support de l'information génétique héréditaire.
  • 4Unité élémentaire d’information.
  • 5Procédé électronique pour générer de l’ADN.
  • 6Initiatives de recherche visionnaires à grande échelle (100M€ par an sur 10 ans) s’attaquant à de grands défis scientifiques et technologiques.
  • 7L’objectif de cette alliance est de créer et promouvoir un écosystème de stockage basé sur l’ADN.  
  • 8Technology Readiness Level ou niveau de maturité technologique.
  • 9Institut national de l’audiovisuel.
  • 10Bibliothèque nationale de France.