Manus AI y DeepSeek: Cómo se comparan estas IA chinas frente a Grok 3 y ChatGPT

Manus AI y DeepSeek: Cómo se comparan estas IA chinas frente a Grok 3 y ChatGPT - 13 de marzo de 2025 - 6 min de lectura

Hagamos una comparación de Manus AI, Grok 3, DeepSeek R1 y ChatGPT (incluyendo o3-mini y GPT-4o), basada en sus capacidades. Cada modelo fue evaluado en seis categorías clave: Razonamiento y Resolución de Problemas, Acceso a Datos en Tiempo Real, Codificación y Ejecución, Versatilidad y Creatividad, Accesibilidad y Costo, y Velocidad. El análisis se basa en benchmarks recientes, documentación pública e informes de la industria, garantizando una comprensión profunda tanto para audiencias técnicas como no técnicas.

Antecedentes y Contexto

Manus AI, lanzado el 6 de marzo de 2025 por la startup china Monica, es un agente de IA totalmente autónomo diseñado para ejecutar tareas del mundo real de principio a fin, como la planificación de viajes y el análisis de acciones (What is Manus? China's World-First Fully Autonomous AI Agent Explained). Ha llamado la atención por su rendimiento en el benchmark GAIA, con puntuaciones del 86.5% (Nivel 1), 70.1% (Nivel 2) y 57.7% (Nivel 3) (Manus AI Statistics and Facts).
Grok 3, lanzado por xAI en febrero de 2025, es un modelo enfocado en el razonamiento con acceso avanzado a datos en tiempo real a través de DeepSearch, obteniendo un 93.3% en el benchmark de matemáticas AIME (Grok 3 Beta — The Age of Reasoning Agents | xAI). Está vinculado a los planes X Premium+ ( $40/mes) o los rumoreados planes SuperGrok ($ 30/mes).
DeepSeek R1, de DeepSeek AI, es un modelo de razonamiento open-source lanzado en enero de 2025, conocido por su eficiencia y rentabilidad, con un nivel gratuito y puntuaciones como el 71.0% en AIME 2024 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT, desarrollado por OpenAI, incluye o3-mini (un modelo de razonamiento eficiente en costos con un 87.3% en la versión alta de AIME) y GPT-4o (un modelo multimodal versátil), con acceso que va desde gratuito hasta $200/mes para planes Pro (OpenAI o3-mini: Performance, How to Access, and More).

Imagen de The Register

Análisis Categoría por Categoría

Razonamiento y Resolución de Problemas

Esta categoría evalúa a los modelos en su capacidad para manejar tareas de razonamiento complejas, utilizando principalmente el benchmark matemático AIME para consistencia, con GAIA como medida secundaria para la resolución de problemas del mundo real.

Grok 3: Alcanza un 93.3% en AIME, lo que indica un fuerte razonamiento matemático, y está diseñado para una resolución de problemas versátil (Grok 3 Beta — The Age of Reasoning Agents | xAI).
Manus AI: Sin puntuación específica en AIME, pero destaca en GAIA con 86.5% (Nivel 1), 70.1% (Nivel 2) y 57.7% (Nivel 3), lo que sugiere un razonamiento robusto en el mundo real (Manus AI Statistics and Facts).
DeepSeek R1: Obtiene un 71.0% Pass@1 en AIME 2024, mostrando un razonamiento técnico sólido pero quedando por detrás de los modelos top (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT o3-mini: La versión alta puntúa 87.3% en AIME, siendo competitivo para tareas de razonamiento, con un enfoque en STEM (OpenAI o3-mini: Performance, How to Access, and More).

Ganador: Grok 3, debido a su puntuación más alta en AIME, lo que refleja capacidades de razonamiento superiores.

Acceso a Datos en Tiempo Real

Esta categoría evalúa la capacidad de los modelos para obtener e integrar información actual, crucial para tareas dinámicas.

Grok 3: Cuenta con el modo DeepSearch para búsquedas en la web y en X en tiempo real, extrayendo información fresca al instante y mejorando su capacidad de respuesta (Elon Musk’s xAI releases its latest flagship model, Grok 3 | TechCrunch).
Manus AI: Probablemente tiene acceso a datos en tiempo real para tareas del mundo real, dada su capacidad de ejecución autónoma, aunque los detalles no están claros (Manus AI: Capabilities, GAIA Benchmark Insights, Use Cases & More).
DeepSeek R1: Ofrece navegación web, pero los informes sugieren que tiene dificultades bajo alta demanda, lo que limita su efectividad en tiempo real (DeepSeek - R1 Online (Free|Nologin)).
ChatGPT o3-mini: Incluye integración de búsqueda para datos en tiempo real, con soporte de prototipo temprano, mejorando su utilidad (OpenAI O3-Mini: The Cost-Efficient Genius Redefining STEM AI | Medium).

Ganador: Grok 3, con su avanzado modo DeepSearch que proporciona el acceso a datos en tiempo real más integrado.

Codificación y Ejecución

Esta categoría evalúa la competencia en programación y la capacidad de ejecutar tareas de forma autónoma, utilizando benchmarks como LiveCodeBench cuando están disponibles.

Manus AI: Sobresale en la ejecución autónoma, construyendo resultados funcionales como sitios web y juegos, sin puntuaciones específicas en benchmarks pero con un fuerte rendimiento en el mundo real (China’s Autonomous Agent, Manus, Changes Everything | Forbes).
Grok 3: Puntúa 79.4% en LiveCodeBench, superando a GPT-4o (72.9%), lo que indica fuertes capacidades de codificación (Grok 3 Beta — The Age of Reasoning Agents | xAI).
DeepSeek R1: Alcanza un 57.2% en LiveCodeBench, con modelos destilados que funcionan bien en tareas de codificación, pero en general por debajo de los modelos top (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).
ChatGPT o3-mini: La versión alta puntúa 0.846 en el promedio de codificación de LiveBench, sugiriendo un fuerte rendimiento en programación, aunque los detalles del benchmark varían (o3-mini Early Days — LessWrong).

Ganador: Manus AI, debido a sus capacidades de ejecución superiores, superando a los demás en la finalización de tareas prácticas.

Versatilidad y Creatividad

Esta categoría evalúa la capacidad de los modelos para manejar tareas diversas, incluyendo escritura creativa y chats abiertos, considerando el GPT-4o de ChatGPT por sus fortalezas multimodales.

Grok 3: Maneja tareas técnicas y escritura creativa, con un enfoque en el humor y chats abiertos, lo que lo hace versátil (Elon Musk debuts Grok 3, an AI model that he says outperforms ChatGPT and DeepSeek | CNN Business).
ChatGPT (GPT-4o): Altamente versátil y creativo, destacando en tareas multimodales como la generación de imágenes y texto, con una prosa pulida (GPT-4o vs GPT-4o Mini: Choosing the Right AI Model | Amity Solutions).
Manus AI: Enfocado en la ejecución práctica, menos en la creatividad, con capacidades de chat limitadas (Manus AI: Features, Architecture, Access, Early Issues & More | DataCamp).
DeepSeek R1: Débil en creatividad, principalmente técnico, con respuestas secas (DeepSeek R1 Review: Performance in Benchmarks & Evals | TextCortex).

Ganador: Empate entre Grok 3 y ChatGPT (GPT-4o), ambos sobresaliendo en versatilidad y creatividad, con GPT-4o ligeramente por delante en tareas multimodales.

Accesibilidad y Costo

Esta categoría evalúa la facilidad de acceso y el precio, cruciales para la adopción del usuario.

DeepSeek R1: Ofrece un nivel gratuito, pesos open-source bajo licencia MIT, lo que lo hace altamente accesible, con precios de API a $0.14 por millón de tokens de entrada (cache hit) (DeepSeek R1 is now available on Azure AI Foundry and GitHub | Microsoft Azure Blog).
ChatGPT: Modelo base gratuito, plan Plus a $20/mes para acceso a o3-mini, Pro a$ 200/mes, ofreciendo una amplia accesibilidad (Announcing the availability of the o3-mini reasoning model in Microsoft Azure OpenAI Service | Microsoft Azure Blog).
Grok 3: Vinculado a X Premium+ a $40/mes o el rumoreado SuperGrok a$ 30/mes, limitado al ecosistema de X, menos accesible (Grok 3 AI is now free to all X users – here's how it works | ZDNET).
Manus AI: Solo por invitación, con códigos que se revenden por hasta $7,000 USD, probablemente premium, el menos accesible (Manus AI Statistics and Facts).

Ganador: DeepSeek R1, debido a su nivel gratuito y naturaleza de código abierto, ofreciendo la mejor relación costo-efectividad.

Velocidad

Esta categoría mide la velocidad de respuesta y procesamiento, vital para la experiencia del usuario.

Grok 3: Descrito como ultrarrápido, con scripts y búsquedas en segundos, aprovechando la infraestructura de más de 100,000 GPUs de xAI (Elon Musk’s ‘Scary Smart’ Grok 3 Release—What You Need To Know | Forbes).
Manus AI: Las demostraciones sugieren rapidez para tareas complejas, pero no hay métricas específicas (Another DeepSeek moment? General AI agent Manus shows ability to handle complex tasks | South China Morning Post).
DeepSeek R1: Alcanza 381 tokens/seg, superando a muchos rivales, aunque la navegación web puede tener retrasos (DeepSeek - R1 Online (Free|Nologin)).
ChatGPT o3-mini: Más rápido que o1-mini, con un tiempo hasta el primer token 2.5s más rápido, menor latencia (OpenAI launches o3-mini, its latest 'reasoning' model | TechCrunch).

Ganador: Grok 3, destacado por su velocidad excepcional en todas las tareas.

Comparación de modelos por Artificial Analysis

Evaluación General

Grok 3 emerge como el modelo más equilibrado, ganando en Razonamiento y Resolución de Problemas, Acceso a Datos en Tiempo Real y Velocidad, con un empate en Versatilidad y Creatividad junto a ChatGPT (GPT-4o). Manus AI destaca en Codificación y Ejecución, particularmente para la finalización de tareas autónomas, pero su estado de solo invitación limita la accesibilidad. DeepSeek R1 ofrece la mejor Accesibilidad y Costo, atrayendo a usuarios conscientes del presupuesto con su naturaleza de código abierto. ChatGPT, a través de o3-mini y GPT-4o, proporciona una suite equilibrada, con GPT-4o destacando por su creatividad y versatilidad. La elección depende de las necesidades específicas del usuario, con el rápido impacto en el mercado de Manus AI (códigos de invitación que se revenden por hasta $7,000 USD) resaltando su alta demanda a pesar del acceso limitado (Manus AI Statistics and Facts).

Este análisis garantiza una comprensión integral, basándose en benchmarks como AIME (Comparison of AI Models across Intelligence, Performance, Price | Artificial Analysis), GAIA (GAIA: a benchmark for General AI Assistants | arXiv), y LiveCodeBench (LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code | arXiv), entre otros, para proporcionar una comparación detallada.

Tags:

Manus AI y DeepSeek: Cómo se comparan estas IA chinas frente a Grok 3 y ChatGPT