Jensen Huang est habitué à dicter le tempo sur le marché des puces dédiées à l’intelligence artificielle générative. Le patron de Nvidia vient pourtant de s’adapter à une évolution alimentée par ses concurrents. Lundi, en ouverture de la GTC, la grande conférence annuelle organisée par le groupe de Santa Clara, il a dévoilé un accélérateur spécifiquement conçu pour l’inférence, c’est-à-dire la phase d’exécution des modèles d’IA pour générer textes, images ou vidéos. Combiné à la dernière génération de cartes graphiques (GPU) maison, celui-ci permet de “repousser les limites” avance-t-il.
Baptisée Groq 3, cette puce, dont le lancement est prévu au troisième trimestre, est la première issue de l’acquisition déguisée de l’entreprise éponyme, conclue fin décembre pour un montant estimé à 20 milliards de dollars. Elle marque un revirement stratégique de la part de Nvidia, qui proposait jusqu’à présent la même architecture de cartes graphiques pour l’entraînement et l’inférence. Ce choix a laissé le champ libre à de nouveaux acteurs, qui misent sur des composants pensés pour l’exécution des modèles d’IA, promettant des gains de vitesse et une réduction des coûts.
Puces spécialisées
Groq faisait partie de ces acteurs. Fondée en 2016 par d’anciens ingénieurs de Google ayant participé à la conception du premier TPU, la puce d’IA du moteur de recherche, la société est longtemps restée dans l’anonymat. À plusieurs reprises, elle a même frôlé la faillite. Profitant de l’essor de l’IA générative, elle s’est positionnée sur le marché de l’inférence avec des puces spécialisées, baptisées LPU (unité de traitement du langage). Avant d’être absorbée par Nvidia, elle faisait miroiter une vitesse d’exécution dix fois supérieure et une consommation d’énergie divisée par dix.
Officiellement, Groq n’a pas été rachetée. Les deux entreprises ont seulement signé un “accord de licence non exclusif”, permettant au géant des GPU de mettre la main sur ses technologies et sur ses équipes d’ingénieurs – environ 90% des employés, dont le fondateur et patron Jonathan Ross, travaillent désormais pour Nvidia. Cette structure inhabituelle est un subterfuge popularisé l’an passé par Microsoft. Elle permet d’échapper à un feu vert préalable des autorités de la concurrence – une longue procédure qui aurait pu déboucher sur un veto ou sur des cessions d’actifs imposées.
“Point d’inflexion”
Cet accord symbolise une prise de conscience chez Nvidia: la demande pour des puces exclusivement dédiées à l’inférence, qui nécessite moins de puissance que l’entraînement, est en forte croissance, en particulier pour réduire les investissements et les coûts d’exploitation. En septembre, le groupe avait déjà présenté un GPU spécialement conçu pour cette tâche. Ce modèle reposait toutefois encore sur une architecture similaire à celle de ses autres accélérateurs, utilisant notamment sur des mémoires HBM, et non sur des mémoires SRAM, réputées comme mieux adaptées.
Longtemps reléguée au second plan, l’inférence est désormais cruciale. “Nous avons atteint un point d’inflexion”, souligne Jensen Huang. Le déploiement rapide des outils de code informatique et l’essor attendu de l’IA agentique devraient en effet décupler les capacités nécessaires à l’exécution des modèles. Cette phase pourrait ainsi représenter une part croissante de la structure de coûts, renforçant d’autant la nécessité d’optimisation. L’an passé, OpenAI et Anthropic n’ont d’ailleurs pas atteint leurs objectifs de marge en raison de coûts d’inférence plus élevés que prévu.
Double menace
S’il occupe une position quasi monopolistique sur les GPU utilisés pour l’entraînement des modèles, Nvidia est en revanche attaqué de toutes parts sur le marché de l’inférence. La menace est double. D’un côté, des fabricants spécialisés comme Cerebras ou Sambanova proposent des puces plus performantes, qui ont déjà séduit des clients prestigieux, comme OpenAI et Meta. De l’autre, les concepteurs de modèles IA et les plateformes du cloud s’appuient de plus en plus sur leur propre accélérateur pour l’inférence, substituant ainsi une partie de leurs achats auprès de Nvidia.
Une troisième menace se profile. Selon The Information, Google souhaite désormais vendre ses TPU, jusqu’à présent exclusivement déployés dans ses propres data centers, pour ses besoins internes et ceux des clients de son offre de cloud. Meta pourrait être l’un des premiers acheteurs, intégrant les puces de son rival dans ses infrastructures à partir de 2027. Les dirigeants du moteur de recherche estimeraient pouvoir capter 10% du marché. Pas de quoi nécessairement inquiéter Jensen Huang, qui table sur un chiffre d’affaires de 1.000 milliards de dollars entre 2026 et 2027.
Pour aller plus loin:
– La demande pour les GPU de Nvidia ne faiblit pas
– Avec ses derniers modèles d’IA, Google démontre ses progrès dans les puces

