Jusqu’ici, les grands modeles d’IA savaient ecrire, dessiner, parler. Avec Cosmos 3, NVIDIA leur apprend a bouger. Annonce le 31 mai 2026 au GTC Taipei / Computex, Cosmos 3 est le premier modele « omnimodal » entierement ouvert capable de generer non seulement du texte, des images, des videos et du son, mais aussi des sequences d’actions physiques destinees a des robots.
De la prediction de mots a la prediction de mouvements
Les modeles de langage (LLM) ont appris a raisonner sur le texte. Les modeles de vision (VLM) ont appris a raisonner sur les images. Cosmos 3 franchit un cap supplementaire : il raisonne sur la physique du monde reel.
La cle reside dans son architecture dite mixture-of-transformers (MoT), qui repose sur deux tours de transformation specialisees. La premiere tour est un « reasoning transformer » : elle analyse les relations spatiales, les interactions entre objets, les trajectoires temporelles. La seconde est un « expert generation transformer » : elle produit la sortie correspondante, qu’il s’agisse d’une video de simulation ou, plus radicalement, d’une trajectoire d’actions qu’un robot peut executer directement.
Concretement, un developpeur peut fournir a Cosmos 3 une description textuelle d’une tache (« prendre la piece sur le tapis roulant et la deposer dans le bac B ») et obtenir en sortie les signaux de controle moteur correspondants. Le modele a ete entraine sur des milliards d’exemples couvrant texte, image, video, son et trajectoires d’actions, formant l’un des plus grands jeux de donnees multimodaux pour la physical AI jamais constitues.
Ce que change la modalite « action »
La grande innovation de Cosmos 3 est l’introduction de la modalite action au sein d’un unique modele pre-entraine. Jusqu’a present, la robotique s’appuyait sur des pipelines fragmente : un modele de vision pour detecter les objets, un modele de planification pour decider les gestes, un controleur bas niveau pour executer les mouvements. Chaque brique etait entrainee separement, avec ses propres donnees et ses propres biais.
Cosmos 3 unifie cette chaine. Un seul modele peut fonctionner dans plusieurs configurations :
- Vision-language model : comprendre une scene et raisonner dessus.
- Video generator : simuler l’evolution d’un environnement.
- World action model : predire et generer les actions d’un robot.
- Forward/inverse dynamics model : modeliser la physique d’un systeme.
Les premiers benchmarks sont parlants. Sur Physics-IQ, PAI-Bench et R-Bench, Cosmos 3 occupe la premiere place parmi les modeles ouverts en precision de generation du monde physique. Sur RoboLab et RoboArena, il est leader pour les politiques d’action.
Un modele ouvert, mais pas sans garde-fous
Contrairement aux modeles proprietaires d’OpenAI, Google ou Amazon, NVIDIA a fait le choix de l’open weights. Les poids sont disponibles sur Hugging Face sous licence OpenMDW-1.1, une licence qui autorise les usages commerciaux tout en encadrant certains cas d’usage sensibles. On peut egalement tester le modele sans GPU directement sur build.nvidia.com.
NVIDIA ne s’est pas contentee de lacher des poids. Elle a simultanement annonce la Cosmos Coalition, un partenariat avec des laboratoires et industriels de la robotique — Agile Robots, Black Forest Labs, Generalist, LTX, Runway et Skild AI — visant a accelerer le developpement de modeles du monde ouverts. L’idee est de mutualiser les efforts d’entrainement et d’evaluation, un peu a la maniere de ce que Hugging Face a fait pour le NLP.
Trois tailles de modele sont proposees (nano, super, ultra), permettant d’adapter le cout de calcul aux contraintes du projet. Les cycles d’entrainement et d’evaluation, qui prenaient des mois avec les pipelines fragmentes, tombent a quelques jours.
Conclusion : un tournant pour la robotique
Cosmos 3 ne resout pas tous les problemes de la robotique. La generalisation en environnement reel, la securite des mouvements, la latence d’inference sur robot embarque restent des defis ouverts. Mais le modele change la donne sur un point fondamental : pour la premiere fois, un modele open-weights integre la prediction d’actions a la generation de contenu, unifiant numerique et physique dans une meme architecture.
Pour les startups et laboratoires europeens qui n’ont pas les moyens de dupliquer l’infrastructure des geants americains, Cosmos 3 offre une base pre-entrainee solide, librement accessible. Et cela pourrait bien etre le declencheur qui sort la robotique intelligente des laboratoires pour l’amener dans les usines, les entrepots et, un jour, nos foyers.
Article ecrit pour GoodCia. Sources : NVIDIA Newsroom, NVIDIA Developer Blog, Hugging Face Cosmos 3.

