Par , publié le 1 avril 2026

Rarement la publication d’un article de recherche aura eu un tel impact en Bourse. Depuis une semaine, les géants des puces mémoire voient leur cours décrocher, effaçant une partie des gains spectaculaires accumulés depuis un an. En cause: une nouvelle technologie dévoilée par des chercheurs de Google, qui laisse entrevoir une réduction significative des besoins en mémoire pour faire fonctionner des modèles d’intelligence artificielle générative. Cette avancée pourrait permettre d’abaisser les coûts d’inférence, tout en pesant sur la demande pour certaines puces.

L’impact sur les fabricants de mémoire est difficile à déterminer. D’abord, parce que la technologie reste au stade de la recherche, sans garantie d’applications à grande échelle ni de visibilité sur les bénéfices réels. Ensuite, parce que les gains pourraient être compensés par un bond des usages, favorisé par la diminution des coûts de l’IA. Sans compter que la demande pour ces puces demeure largement supérieure à l’offre. La réaction des marchés illustre néanmoins une ambivalence persistante, entre perspectives commerciales considérables et craintes d’une possible bulle.

Six fois moins de mémoire

L’essor de l’IA générative ne repose pas seulement sur une puissance de calcul colossale, fournie par des cartes graphiques. Il s’appuie également sur d’énormes quantités de mémoire, apportées par différents types de puces, en particulier les mémoires HBM, indispensables pour l’entraînement des modèles. Cet appétit massif a provoqué une crise de sous-production, entraînant une réallocation des capacités vers les composants dédiés à l’IA et une flambée des prix. Les répercussions dépassent largement le secteur, touchant aussi les puces utilisées dans les smartphones et les PC.

Concrètement, l’innovation des équipes de Google intervient lors de la phase d’inférence, c’est-à-dire le processus de génération d’un texte ou d’une image. Elle prend la forme d’un algorithme de compression des modèles d’IA, capable de réduire drastiquement la mémoire nécessaire “sans aucune perte de précision”. Dans les tests menés sur plusieurs modèles open source, une division par six a été obtenue. “Sa mise en œuvre est exceptionnellement efficace et entraîne une surcharge d’exécution (donc des surcoûts, ndlr) négligeable”, assurent par ailleurs les chercheurs.

Réaction disproportionnée ?

Ces gains d’efficacité ne concernent toutefois pas l’ensemble du processus. Même si les résultats des tests se confirmaient en conditions réelles, ils ne se traduiraient donc pas par une division par six des besoins globaux en mémoire. La méthode de compression mise au point par Google pourrait néanmoins entraîner une baisse significative des coûts d’inférence – une avancée potentiellement cruciale, alors que le développement des agents d’IA devrait décupler les usages. Elle pourrait aussi permettre l’exécution de modèles en local, sans avoir à supporter les coûts d’une plateforme cloud.

Les analystes jugent cependant que les inquiétudes des marchés sur la demande en mémoire sont disproportionnées. Trois arguments sont avancés. D’une part, les puces HBM, les plus lucratives, ne devraient pas être affectées. D’autre part, les gains d’efficacité permettraient de faire fonctionner davantage de modèles à quantité de mémoire constante, plutôt que de réduire les volumes nécessaires pour un usage équivalent. Enfin, la baisse des coûts de l’inférence pourrait encore accélérer le déploiement de l’IA – un phénomène connu sous le nom de paradoxe de Jevons.

Pour aller plus loin:
– Nvidia opère un virage stratégique avec sa première puce dédiée à l’inférence
– L’IA fait bondir les profits de Samsung et SK Hynix


No Comments Yet

Comments are closed

Contactez-nous  –  Politique de confidentialité