La bataille des puces IA semble être complètement lancée !

Depuis plusieurs années, Nvidia domine le marché des puces pour l’IA avec ses GPU captant plus de 80 % des parts de marché dans les data centers. Cette année 2026 marquerait un tournant, car le paysage évolue rapidement. L’inférence, le processus où un modèle (ChatGPT, Mistral) entraîné utilise de nouvelles données pour produire une réponse, est le terrain de jeu d’une bataille qui s’annonce féroce. Et pour cause : elle représente jusqu’à 90 % des coûts opérationnels des grands modèles de langage.

Continue reading

Vers une pile standardisée pour les protocoles des agents IA ?


Et si les agents IA avaient besoin de leur propre TCP/IP ?

Tout système d’interaction repose sur un protocole défini. Les agents IA et leurs écosystèmes n’y font pas exception. Pourtant, les débats actuels opposent souvent MCP, A2A, ACP ou ANP comme s’ils résolvaient le même problème. En réalité, ils répondent à des couches distinctes d’une architecture commune, comparable à ce que TCP/IP a été pour Internet.

Tentons de clarifier le rôle de chaque protocole et montrer comment ils s’articulent pour construire l’Internet des agents. J’espère ne rien oublier !

Continue reading

L’IA entre-t-elle dans une nouvelle phase : celle de l’optimisation ?

Les annonces se multiplient ces dernières semaines à propos de l’optimisation des LLM (ces “cerveaux” capables de comprendre et générer du texte, comme Gemini ou GPT). Google, OpenAI, Mistral… Tous cherchent à rendre leurs modèles plus performants, plus précis, ou moins coûteux.

Mais un autre mouvement, tout aussi stratégique, émerge. L’optimisation ne se limite plus aux modèles eux-mêmes. Avec l’avènement des agents IA, c’est tout l’écosystème autour des LLM qui devient un levier clé.

Continue reading

L’IA ne demande pas uniquement des GPU : le CPU devient ou plutôt redeviendrait-il le nouveau terrain de jeu central ?

C’est suite à la lecture de cet article ByteDance prépare ses propres CPU Arm et RISC-V pour reprendre le contrôle du coût par token que me vient cette réflexion. L’ère de l’IA ne se résume plus à une course aux GPU. Et pour cause, avec l’essor des agents autonomes, les besoins en infrastructure ont radicalement changé. Il semble que l’on passe en effet d’un monde dominé par le GPU… à une dépendance multi-composants.

Continue reading

Réflexion du jour : La fin du “all you can eat” dans l’IA : et si les wrappers devenaient les nouveaux héros ?

Après l’ère des abonnements illimités, les géants comme GitHub Copilot ou Claude ont récemment annoncé le basculement vers une tarification basée sur l’usage des tokens. Finie la consommation sans limite : chaque mot, chaque virgule, chaque espace compte désormais.

Continue reading