Comprendre la révolution DeepSeek et son implication sur le monde

Les plaques tectoniques de l'IA se chevauchent

janv. 30, 2025

Note : Autorise les images pour profiter de cette newsletter et ajoute cette adresse en contact pour m'aider à ce qu'elle ne finisse pas en spam. Si cette newsletter t'a été transférée, tu peux t'abonner ici.

---

Nous avons un problème : une entreprise chinoise vient de bouleverser complètement l'industrie de l'IA, et personne ne l'a vu venir.

En une seule journée, NVIDIA a perdu 500 milliards de dollars de valorisation. C'est la plus grande perte de l'histoire pour une entreprise en une séance.

Que s'est-il passé ? Une petite entreprise chinoise, DeepSeek, vient de réaliser l'impossible :

Créer une IA aussi performante que ChatGPT, voir plus performante (sur le code par exemple)
La développer pour seulement 6 millions de dollars (vs plusieurs milliards pour OpenAI)
La rendre 20 fois plus efficace énergétiquement
Et cerise sur le gâteau : publier tout le code en open source

C'est comme si quelqu'un venait d'inventer une voiture électrique plus performante qu'une Tesla, pour le prix d'une Dacia, qui consomme 20 fois moins d'énergie, et donnait les plans gratuitement à tout le monde.

Dans cette newsletter, nous allons voir :

Comment DeepSeek a réussi cet exploit
Pourquoi cela change tout pour l'industrie de l'IA
Ce que cela signifie pour l'avenir de la technologie
Et pourquoi même Apple est concerné (oui, vraiment)

Attachez vos ceintures, ça va secouer.

Le tremblement de terre DeepSeek

Imagine la scène : tu es Jensen Huang, le PDG de NVIDIA. Tu as construit un empire basé sur les cartes graphiques pour l'IA. Tes actions valent plus de 2000 milliards de dollars. Tu domines le marché.

Et un matin, une entreprise chinoise que personne ne connaît annonce qu'elle a trouvé comment faire tourner l'IA avec 20 fois moins de puissance de calcul.

Boum. -500 milliards de dollars.

C'est comme si quelqu'un venait d'inventer un moteur de F1 qui fonctionne avec un hamster dans une roue.

Mais qui est DeepSeek ?

DeepSeek, c'est une startup chinoise dirigée par Liang Wenfeng, un type qui a une philosophie très différente des géants américains :

Pas de profit excessif
Prix basés uniquement sur les coûts
Innovation ouverte et partagée

Leur principe ? "Nous ne voulions pas être un poisson-chat qui agite l'industrie. Nous le sommes devenus par accident."

Enfin, évidemment, c’est le discours de leur CEO. Est ce qu’il y a un jeu caché de la Chine là-dedans ? Il est trop tôt pour le dire. Certains disent que DeepSeek ont utilisé en fait des dizaines de milliers de calculateurs pour entraîner DeepSeek.

Cela me parait peu probable, vu que leur code est public et que l’entraînement de DeepSeek va être répliqué et comparé au modèle entraîné publié sur HugginFace. Donc si c’était un mensonge, ça sera vite découvert et la cote de l’entreprise chinoise et de la Chine sombrera au fond des abysses.

Le coup de génie

Voici ce qui rend DeepSeek si spécial :

Ils n'ont pas copié l'architecture de ChatGPT comme tout le monde
Ils sont améliorer les architectures existantes pour créer quelque chose de fondamentalement différent
Ils ont utilisé ChatGPT lui-même pour s'améliorer. Une part de leur dataset d’entraînement a été créé avec ChatGPT.

Le résultat ? Une IA qui :

Donne de meilleures réponses que ChatGPT
Explique son raisonnement avec R1 (là où ChatGPT reste une boîte noire avec O1)
Consomme 20 fois moins d'énergie

Ils utilisent une approche dite de Mixture of Expert (MoE). C’est à dire, que DeepSeek est un gros modèle composé de plus petits modèles spécialisés sur des tâches plus pécises. Seul 1/20ème des poids du modèle sont activés dans une exécution.

DeepSeek décide en avance lequel de ses sous-modèles va le mieux réaliser la tâche.

L’approche MoE était déjà connue mais DeekSeek l’a amené à un niveau supérieur avec plusieurs innovations algorithmiques :

L’organisation des connaissance est mieux partagé entre les expert. Leurs rôles sont mieux définis.
Le partage des calculs entre les experts est plus équilibré, ce qui permet d’exécuter plus requêtes en parallèle.
Au niveau de architecture elle même, ils ont amélioré la brique de base du modèle Transformer (avec la Multi-head Latent Attention). Cette variante augmente les performances, pour un coût mémoire plus faible.

Leur modèle avec 671 milliards de paramètres au total, n’activent que 37 milliards pour chaque token. Mais je n’entrerais pas plus dans le détail dans cette newsletter.

Pourquoi c'est un tremblement de terre

Ce n'est pas juste une nouvelle IA plus performante. C'est un changement de paradigme complet :

La domination américaine sur l'IA n'est plus garantie
Les modèles fermés et chers ne sont peut-être pas la bonne approche
On peut faire beaucoup mieux avec beaucoup moins

C'est comme si quelqu'un venait de prouver qu'on peut faire une fusée SpaceX dans son garage.

Et le plus fou ? Ils ont publié tout le code en open source. N'importe qui peut maintenant reprendre leur travail et l'améliorer.

Mais ce n'est que le début de l'histoire. DeepSeek ouvre une nouvelle voie : celle de l’optimisation des modèles.

Pourquoi c'est important ?

Pour les entreprises :

Plus besoin d'investir des milliards
L'IA devient accessible aux petites structures, même en interne, avec les mêmes performances que les meilleurs modèles propriétaires.
La problématique de confidentialité des données disparait.
La consommation d'énergie est moins un problème.

Pour les utilisateurs :

Des réponses plus précises
Des explications sur le raisonnement
Des coûts plus bas

Mais le plus fou dans tout ça ? C'est la guerre des prix que ça a déclenché. Et c'est ce qu'on va voir dans la prochaine partie...

La censure de DeepSeek

Évidemment, DeepSeek suit les lignes du PCC. Il fallait s’y attendre. Mais, dans la pratique, le sujet de la Chine n’intervient jamais dans mes discussions avec l’IA donc c’est plus un problème pour les chinoix que pour le reste du monde.

Ou en tout cas pour les gens normaux qui ne s’intéressent que rarement à ce qu’il se passe en Chine.

La guerre des prix dans l'IA

Vous vous souvenez de la guerre des prix des VTC entre Uber et ses concurrents ? Ce n'était qu'un échauffement comparé à ce qui se passe actuellement dans l'IA.

Quand DeepSeek a annoncé ses prix, l'industrie a cru à une erreur. Leur modèle le plus puissant coûte environ 20 fois moins cher que GPT-4. Ce n'est pas une promotion, c'est leur stratégie.

"Nous ne voulons pas maximiser les profits", explique leur PDG Liang Wenfeng. "Nous voulons juste couvrir nos coûts et rendre l'IA accessible à tous."

La panique chez les géants

La réaction ne s'est pas fait attendre. Claude (Anthropic) a baissé ses prix. Mistral aussi. Même OpenAI commence à s'inquiéter.

Mais voilà le problème : ils ne peuvent pas suivre DeepSeek. Pourquoi ? Parce que leur technologie coûte intrinsèquement plus cher à faire fonctionner.

NVIDIA se retrouve dans une position fascinante. D'un côté, leurs cartes graphiques sont moins nécessaires puisque DeepSeek consomme moins de ressources. De l'autre, cette baisse des coûts va démocratiser l'IA et créer une explosion de la demande.

C'est ce qu'on appelle le paradoxe de Jevons : quand quelque chose devient plus efficace, on ne l'utilise pas moins, on l'utilise différemment et souvent plus.

Le plus ironique ? Apple a vu son action monter après l'annonce de DeepSeek. Pourquoi ? Parce que le marché pense qu'Apple est tellement en retard en IA que cette révolution ne peut que leur être bénéfique. C'est ce qu'on appelle "échouer vers le haut".

Mais la vraie révolution n'est pas dans les prix. Elle est dans ce que DeepSeek a fait techniquement. Et c'est ce qu'on va voir dans la partie suivante...

Le futur est déjà là

Les implications sont vertigineuses. Si une petite équipe en Chine peut faire ça avec 6 millions de dollars, qu'est-ce qui empêche une équipe au Brésil, en Inde ou au Nigeria de faire encore mieux demain ?

Cela montre a tout le monde que n’importe qui peut prendre la tête de la course à l’IA et que ce n’est plus une histoire de moyens.

Les Implications Géopolitiques

Vous vous souvenez de la guerre commerciale entre les États-Unis et la Chine ? Celle où l'Amérique interdisait l'exportation de puces électroniques vers la Chine ? Eh bien, DeepSeek vient de prouver que c'était peut-être un combat d'arrière-garde.

La plus belle ironie de cette histoire ? DeepSeek a utilisé des serveurs américains et l'API de ChatGPT pour développer son IA.

Le vrai enjeu

Le vrai gagnant dans tout ça ? L'open source. La vraie bataille ne sera plus entre pays, mais entre deux philosophies :

Les systèmes fermés et propriétaires
Les systèmes ouverts et collaboratifs

Et pour l'instant, l'ouverture semble gagner.

Prenons un peu de recul.

Imaginez un monde où chaque université, chaque startup, chaque pays peut développer sa propre IA. Un monde où l'innovation n'est plus limitée par l'argent mais par l'imagination.

Automata

Discussion à propos de ce post