Grâce à une technologie appelée DNA Drive, le 23 novembre 2021 les Archives nationales sont devenues la première institution publique à abriter des documents numériques stockés sur de l’ADN. Des chercheurs du CNRS sont parvenus à encoder deux textes fondateurs dans deux petites capsules : une révolution dans le domaine du stockage de données.
Avec l’essor d’internet, des objets connectés ou encore des voitures autonomes, le volume de l’ensemble des données numériques mondiales connaît une croissance sans précédent. Le stockage et l’archivage des données numériques sont devenus aujourd’hui des enjeux stratégiques au niveau économique et environnemental pour notre société.
Née de travaux de recherche menés dans des laboratoires du CNRS et de Sorbonne Université , la technologie DNA Drive est une stratégie bio-inspirée d’archivage. Cette technologie consistant à stocker des données sur des longs fragments d’ADN offre de nouvelles pistes pour un archivage des données plus pérenne et plus responsable.
Stocker les données sur l’ADN : le nouveau défi du XXIe siècle
La convergence du Big Data et de l’IA induit une transformation numérique de notre société et avec elle, le traitement et l’archivage de données. Aujourd’hui l’ensemble de ces données est estimé à 45 zetta-octets (Zo). Pour vous donnez un ordre d’idée, si vous possédez une connexion haut débit, il vous faudrait 2,5 millions d’années pour télécharger 1 Zo.
Parmi l’ensemble des données stockées, 60 % d’entre-elles sont ce que l’on appelle des “données froides”. Il s’agit d’archives qui ne seront (presque) jamais relues. La plupart sont stockées sur des bandes magnétiques comme dans 70% des Data Center. Le stockage de données tel que nous le connaissons pose trois problèmes majeurs :
- Premièrement, la faible durée de vie des supports de stockage car ils sont beaucoup trop fragiles (de 3 à 7 ans selon le support). Par exemple, les données stockées dans les Data Center doivent être remplacées tous les 5 ans ,
- Deuxièmement, le stockage est énergivore ce qui a des conséquence économiques et environnementales : plus la demande est grande et plus les effets sont néfastes,
- Enfin troisièmement, notre capacité de stockage est limitée : si aujourd’hui nous sommes capables de stocker 30 % des données stockées, d’ici 10 ans nous ne pourrons stocker que 3% de celles -ci. Si on ne résout pas ces différents problèmes, le développement de l’IA et du machine learning (dont les données sont le carburant) ne pourra pas continuer.
DNA Drive : l’ADN, le plus petit disque dur du monde
Le stockage sur l’ADN est la meilleure solution pour un stockage éco-responsable : il est durable (l’ADN peut-être conservé plus de 50 000 ans dans une capsule), n’est pas énergivore (l’ADN est stable à température ambiante sans aucun apport d’énergie s’il est conservé dans des conditions adéquates), n’est pas obsolescent (on disposera toujours de lecteur pour lire l’ADN car la vie ne change pas de support d’information génétique) et ultra-compact (un gramme d’ADN peut contenir 450 To; l’intégralité des données mondiales pourrait tenir dans 100 g d’ADN soit le poids d’une tablette de chocolat !).
Mais alors, comment ça marche ? L’algorithme DNA Drive effectue une compression numérique du document à stocker (à la manière d’un fichier Zip), il convertit les données binaires (0 et 1) en séquences ADN pour ensuite synthétiser les fragments. Une fois que les molécules d’ADN ont été extraites, elles sont purifiées puis encapsulées sous forme lyophilisée dans des capsules en acier inoxydable. Pour relire l’information, un peu de l’ADN est déposé dans un séquenceur (un lecteur d’ADN) et une fois la séquence d’ADN relue, l’algorithme DNA Drive peut retrouver le ou les fichiers d’origine.
Bien que cette technologie n’en soit qu’à ses balbutiements, elle n’en reste pas moins très prometteuse. Deux textes symboliques ont été numérisés : la Déclaration des droits de l’homme et du citoyen de 1789 et la Déclaration des droits de la femme et de la citoyenne publiée en 1791. Cependant pour que cette technologie puisse se démocratiser il faudra trouver un moyen de diminuer les coûts qu’elle engendre : le coût de stockage dans l’ADN s’élève à 1 000 euros par mégaoctet, contre 100 euros par téraoctet pour un disque dur.
Ce document est complet et clair et on distingue bien l’enjeu et toutes les étapes nécessaires au stockage de données dans l’ADN.
J’aimerais juste préciser un point, concernant le stockage. L’ADN est bien sous forme solide, mais contrairement à ce qui est dit, l’ADN n’a pas été desséché par lyophilisation mais par évaporation sous vide.
Pourquoi s’arrêter sur cette nuance ?
Parce que Le procédé et les capsules d’inox assurant le stockage sont au centre du processus de conservation des données. Le procédé, développé par la société française Imagene, est basé sur le confinement d’ADN desséché (par évaporation sous vide) sous une atmosphère anhydre et anoxique d’argon/hélium dans des capsules d’inox hermétiques. De cette manière, on prévient la présence de facteurs délétères (l’humidité, essentiellement) conduisant à la dégradation de l’ADN.
C’est cela qui permet la conservation de données à très long terme.
Une démonstration en est donnée dans un article récent : PLoS One e0259868 16 (11) 2021 Long term conservation of DNA at ambient temperature. Implications for DNA data storage. Coudy, D., M. Colotte, A. Luis, S. Tuffet and J. Bonnet https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0259868