Une véritable onde de choc. La semaine dernière, le laboratoire chinois DeepSeek a lancé un grand modèle de langage rivalisant avec les meilleurs du marché, mais n’ayant coûté que quelques millions de dollars à concevoir. De quoi faire voler en éclats les certitudes du secteur de l’intelligence artificielle générative, en particulier aux États-Unis, persuadés de leur supériorité technologique. Celles d’OpenAI ou de Meta, lancés dans une course à l’armement pour se doter d’une immense puissance de calcul informatique, devant leur permettre d’entraîner et faire tourner les prochains modèles. Celles de Microsoft, d’Amazon ou de Google, qui investissent massivement pour accroître les capacités de leur offre de cloud. Et aussi celles de Nvidia, leader incontesté des cartes graphiques (GPU), dont l’action a chuté lundi de plus de 17%.
Premier sur l’App Store – Longtemps inconnu, DeepSeek avait déjà suscité la curiosité fin décembre, avec un premier modèle, baptisé V3. Mais le laboratoire, créé il y a moins de deux ans, est entré dans une nouvelle dimension avec un modèle de raisonnement, appelé R1. Sur la plateforme Hugging Face, celui-ci caracole en tête des modèles open source les plus téléchargés par les développeurs. Sur l’App Store, DeepSeek vient de détrôner ChatGPT de son statut d’application mobile la plus populaire aux États-Unis. Comparaisons à l’appui – des données à toujours prendre avec précaution –, le groupe chinois revendique des performances similaires, voire supérieures, aux modèles équivalents d’OpenAI, Meta ou Anthropic. Il n’a pourtant pas accès aux GPU les plus puissants de Nvidia, considérés jusqu’à présent comme indispensables.
5,6 millions de dollars – À l’automne 2022, les États-Unis ont en effet imposé de sévères restrictions sur les exportations de puces vers la Chine. Dans un article de recherche, DeepSeek explique ainsi avoir utilisé des puces H800 de Nvidia, une version bridée pour passer sous les seuils de puissance fixés par Washington. Pour rivaliser avec les groupes américains, qui bénéficient d’une puissance de calcul bien supérieure, le laboratoire a donc dû innover. Il a délaissé la méthode d’apprentissage auto-supervisé. À la place, il a simplement utilisé une technique appelée apprentissage par renforcement, qui doit permettre à une IA de réfléchir seule. Résultat: DeepSeek assure que l’entraînement de son modèle V3 n’a coûté que 5,6 millions de dollars, soit une toute petite fraction des centaines de millions dépensés par OpenAI et les autres.
Menace – Ces chiffres sont impossibles à vérifier. Mais ils suscitent déjà un vent de panique dans la Silicon Valley et à Wall Street. Et pour cause: les avancées de DeepSeek menacent tout le modèle d’investissement qui s’est mis en place depuis deux ans. Le danger ne vient pas nécessairement du laboratoire de recherche, ou d’autres start-up chinoises. D’abord, parce que ses modèles sont soumis à la censure chinoise. Ensuite, parce qu’il sera probablement rattrapé par le RGPD européen sur l’envoi de données vers la Chine. Enfin, parce qu’il pourrait tout simplement être interdit pour des raisons de sécurité, en particulier aux États-Unis. Le danger pour les acteurs en place, c’est davantage que les modèles de DeepSeek, disponibles en open source, ou sa méthode d’entraînement se diffusent à l’ensemble de l’écosystème.
Retour sur investissement – Ce scénario devrait se traduire par une baisse des prix, alors que la start-up commercialise l’accès à ses API (interfaces de programmation) dix fois moins cher. Et par une intensification de la concurrence, avec des rivaux plus petits qui ne seront plus limités par leurs ressources financières. Dans ces conditions, comment OpenAI ou Anthropic pourront rentabiliser les investissements qui ont déjà réalisés ? Même question pour les géants du cloud, qui ont dépensé sans compter pour anticiper d’un bond de la demande ? Ces nouveaux modèles demanderont en effet moins de puissance pour être entraînés et pourront tourner en local, directement sur un ordinateur ou un smartphone. Et comment Nvidia va pouvoir continuer à vendre toujours plus de GPU à des prix très élevés ? Ou ASML avec ses machines de lithographie ?
Pour aller plus loin:
– “L’IA ? La plus grande bulle de tous les temps”
– Dans l’IA, des start-up prometteuses sont devenues des start-up zombies