Manus AI et DeepSeek : Comment ces IA chinoises se comparent-elles à Grok 3 et ChatGPT

Manus AI et DeepSeek : Comment ces IA chinoises se comparent-elles à Grok 3 et ChatGPT - 13 mars 2025 - 6 min de lecture

Faisons une comparaison de Manus AI, Grok 3, DeepSeek R1 et ChatGPT (incluant o3-mini et GPT-4o), basée sur leurs capacités. Chaque modèle a été évalué à travers six catégories clés : Raisonnement et résolution de problèmes, Accès aux données en temps réel, Codage et exécution, Polyvalence et créativité, Accessibilité et coût, et Vitesse. L'analyse s'appuie sur des benchmarks récents, la documentation publique et des rapports de l'industrie, garantissant une compréhension approfondie pour les publics techniques et non techniques.

Contexte et historique

Manus AI, lancé le 6 mars 2025 par la startup chinoise Monica, est un agent IA entièrement autonome conçu pour exécuter des tâches réelles de bout en bout, telles que la planification de voyages et l'analyse boursière (What is Manus? China's World-First Fully Autonomous AI Agent Explained). Il a attiré l'attention pour ses performances sur le benchmark GAIA, avec des scores de 86,5 % (Niveau 1), 70,1 % (Niveau 2) et 57,7 % (Niveau 3) (Manus AI Statistics and Facts).
Grok 3, publié par xAI en février 2025, est un modèle axé sur le raisonnement avec un accès avancé aux données en temps réel via DeepSearch, obtenant un score de 93,3 % sur le benchmark mathématique AIME (Grok 3 Beta — The Age of Reasoning Agents | xAI). Il est lié aux forfaits X Premium+ (40 $/mois) ou aux rumeurs de forfaits SuperGrok (30$ /mois).
DeepSeek R1, de DeepSeek AI, est un modèle de raisonnement open-source lancé en janvier 2025, connu pour son efficacité et son rapport coût-performance, avec une offre gratuite et des scores comme 71,0 % sur AIME 2024 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT, développé par OpenAI, comprend o3-mini (un modèle de raisonnement rentable avec 87,3 % sur la version haute d'AIME) et GPT-4o (un modèle multimodal polyvalent), avec un accès allant de gratuit à 200 $/mois pour les plans Pro (OpenAI o3-mini: Performance, How to Access, and More).

Image de The Register

Analyse par catégorie

Raisonnement et résolution de problèmes

Cette catégorie évalue les modèles sur leur capacité à gérer des tâches de raisonnement complexes, en utilisant principalement le benchmark mathématique AIME pour la cohérence, avec GAIA comme mesure secondaire pour la résolution de problèmes réels.

Grok 3 : Atteint 93,3 % sur AIME, indiquant un raisonnement mathématique puissant, et est conçu pour une résolution de problèmes polyvalente (Grok 3 Beta — The Age of Reasoning Agents | xAI).
Manus AI : Pas de score AIME spécifique, mais excelle sur GAIA avec 86,5 % (Niveau 1), 70,1 % (Niveau 2) et 57,7 % (Niveau 3), suggérant un raisonnement robuste en situation réelle (Manus AI Statistics and Facts).
DeepSeek R1 : Score de 71,0 % Pass@1 sur AIME 2024, montrant un raisonnement technique solide mais restant derrière les modèles de pointe (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT o3-mini : La version haute affiche 87,3 % sur AIME, compétitif pour les tâches de raisonnement, avec un accent sur les STEM (OpenAI o3-mini: Performance, How to Access, and More).

Vainqueur : Grok 3, grâce à son score AIME le plus élevé, reflétant des capacités de raisonnement supérieures.

Accès aux données en temps réel

Cette catégorie évalue la capacité des modèles à récupérer et intégrer des informations actuelles, cruciales pour les tâches dynamiques.

Grok 3 : Propose le mode DeepSearch pour des recherches web et sur X en temps réel, extrayant instantanément des informations fraîches, ce qui améliore sa réactivité (Elon Musk’s xAI releases its latest flagship model, Grok 3 | TechCrunch).
Manus AI : Dispose probablement d'un accès aux données en temps réel pour les tâches du monde réel, compte tenu de ses capacités d'exécution autonome, bien que les détails soient flous (Manus AI: Capabilities, GAIA Benchmark Insights, Use Cases & More).
DeepSeek R1 : Offre la navigation web, mais des rapports suggèrent qu'il peine sous une forte demande, limitant son efficacité en temps réel (DeepSeek - R1 Online (Free|Nologin)).
ChatGPT o3-mini : Intègre la recherche pour les données en temps réel, avec un support de prototype précoce, augmentant son utilité (OpenAI O3-Mini: The Cost-Efficient Genius Redefining STEM AI | Medium).

Vainqueur : Grok 3, avec son mode DeepSearch avancé offrant l'accès aux données en temps réel le plus intégré.

Codage et exécution

Cette catégorie évalue la compétence en codage et la capacité à exécuter des tâches de manière autonome, en utilisant des benchmarks comme LiveCodeBench lorsque disponible.

Manus AI : Excelle dans l'exécution autonome, créant des résultats fonctionnels comme des sites web et des jeux, sans scores de benchmark spécifiques mais avec de fortes performances réelles (China’s Autonomous Agent, Manus, Changes Everything | Forbes).
Grok 3 : Score de 79,4 % sur LiveCodeBench, battant GPT-4o (72,9 %), indiquant de solides capacités de codage (Grok 3 Beta — The Age of Reasoning Agents | xAI).
DeepSeek R1 : Atteint 57,2 % sur LiveCodeBench, avec des modèles distillés performants dans les tâches de codage, mais globalement inférieurs aux meilleurs modèles (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT o3-mini : La version haute obtient 0,846 sur la moyenne de codage LiveBench, suggérant une forte performance en codage, bien que les spécificités des benchmarks varient (o3-mini Early Days — LessWrong).

Vainqueur : Manus AI, en raison de ses capacités d'exécution supérieures, surpassant les autres dans la réalisation de tâches pratiques.

Polyvalence et créativité

Cette catégorie évalue la capacité des modèles à gérer des tâches diverses, y compris l'écriture créative et les discussions ouvertes, en considérant le GPT-4o de ChatGPT pour ses forces multimodales.

Grok 3 : Gère les tâches techniques et l'écriture créative, avec un accent sur l'humour et les discussions ouvertes, ce qui le rend polyvalent (Elon Musk debuts Grok 3, an AI model that he says outperforms ChatGPT and DeepSeek | CNN Business).
ChatGPT (GPT-4o) : Très polyvalent et créatif, excellant dans les tâches multimodales comme la génération d'images et de textes, avec une prose soignée (GPT-4o vs GPT-4o Mini: Choosing the Right AI Model | Amity Solutions).
Manus AI : Axé sur l'exécution pratique, moins sur la créativité, avec des capacités de chat limitées (Manus AI: Features, Architecture, Access, Early Issues & More | DataCamp).
DeepSeek R1 : Faible sur la créativité, principalement technique, avec des réponses sèches (DeepSeek R1 Review: Performance in Benchmarks & Evals | TextCortex).

Vainqueur : Égalité entre Grok 3 et ChatGPT (GPT-4o), tous deux excellant dans la polyvalence et la créativité, avec GPT-4o légèrement en avance sur les tâches multimodales.

Accessibilité et coût

Cette catégorie évalue la facilité d'accès et la tarification, cruciales pour l'adoption par les utilisateurs.

DeepSeek R1 : Offre un niveau gratuit, des poids open-source sous licence MIT, le rendant très accessible, avec une tarification API à 0,14 $/million de jetons d'entrée (cache hit) (DeepSeek R1 is now available on Azure AI Foundry and GitHub | Microsoft Azure Blog).
ChatGPT : Modèle de base gratuit, plan Plus à 20 $/mois pour l'accès à o3-mini, Pro à 200$ /mois, offrant une large accessibilité (Announcing the availability of the o3-mini reasoning model in Microsoft Azure OpenAI Service | Microsoft Azure Blog).
Grok 3 : Lié à X Premium+ à 40 $/mois ou aux rumeurs de SuperGrok à 30$ /mois, limité à l'écosystème X, moins accessible (Grok 3 AI is now free to all X users – here's how it works | ZDNET).
Manus AI : Uniquement sur invitation, avec des codes revendus jusqu'à 7 000 USD, probablement premium, le moins accessible (Manus AI Statistics and Facts).

Vainqueur : DeepSeek R1, en raison de son offre gratuite et de sa nature open-source, offrant le meilleur rapport coût-efficacité.

Vitesse

Cette catégorie mesure la vitesse de réponse et de traitement, vitale pour l'expérience utilisateur.

Grok 3 : Décrit comme ultra-rapide, avec des scripts et des recherches en quelques secondes, s'appuyant sur l'infrastructure de plus de 100 000 GPU de xAI (Elon Musk’s ‘Scary Smart’ Grok 3 Release—What You Need To Know | Forbes).
Manus AI : Les démos suggèrent une rapidité pour les tâches complexes, mais pas de métriques spécifiques (Another DeepSeek moment? General AI agent Manus shows ability to handle complex tasks | South China Morning Post).
DeepSeek R1 : Atteint 381 jetons/sec, dépassant de nombreux rivaux, mais la navigation web peut accuser un retard (DeepSeek - R1 Online (Free|Nologin)).
ChatGPT o3-mini : Plus rapide qu'o1-mini, avec un temps de réponse au premier jeton réduit de 2,5 s, latence plus faible (OpenAI launches o3-mini, its latest 'reasoning' model | TechCrunch).

Vainqueur : Grok 3, mis en avant pour sa vitesse exceptionnelle sur l'ensemble des tâches.

Comparaison des modèles par Artificial Analysis

Évaluation globale

Grok 3 émerge comme le modèle le plus complet, l'emportant en Raisonnement et résolution de problèmes, Accès aux données en temps réel et Vitesse, avec une égalité en Polyvalence et créativité aux côtés de ChatGPT (GPT-4o). Manus AI excelle dans le Codage et l'exécution, particulièrement pour la réalisation de tâches autonomes, mais son statut sur invitation limite son accessibilité. DeepSeek R1 offre la meilleure Accessibilité et le meilleur Coût, séduisant les utilisateurs soucieux de leur budget grâce à sa nature open-source. ChatGPT, via o3-mini et GPT-4o, fournit une suite équilibrée, GPT-4o se distinguant par sa créativité et sa polyvalence. Le choix dépend des besoins spécifiques de l'utilisateur, l'impact rapide de Manus AI sur le marché (codes d'invitation revendus jusqu'à 7 000 USD) soulignant sa forte demande malgré un accès limité (Manus AI Statistics and Facts).

Cette analyse assure une compréhension globale, s'appuyant sur des benchmarks comme AIME (Comparison of AI Models across Intelligence, Performance, Price | Artificial Analysis), GAIA (GAIA: a benchmark for General AI Assistants | arXiv), et LiveCodeBench (LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code | arXiv), entre autres, pour fournir une comparaison détaillée.

Tags:

Grok3- AI- DeepSeek- ChatGPT- Manus- Tech & AI

Manus AI et DeepSeek : Comment ces IA chinoises se comparent-elles à Grok 3 et ChatGPT