Commmonn Ground

Crypto & Bitcoin

Qué es una IA de Pesos Abiertos (Open Weight)

Qué es una IA de Pesos Abiertos - 1 de abr de 2025 - 3 min de lectura

Un modelo de pesos abiertos (open weight) es un tipo de modelo de machine learning, comúnmente en inteligencia artificial, donde los pesos del modelo —los parámetros numéricos que dictan cómo se transforman los datos de entrada en resultados— se ponen a disposición del público. Estos pesos, perfeccionados durante el entrenamiento, definen las capacidades del modelo. A diferencia de los modelos propietarios, donde los pesos y a menudo la arquitectura se mantienen en secreto (por ejemplo, históricamente el ChatGPT de OpenAI), los modelos de pesos abiertos permiten que cualquier persona descargue, inspeccione y adapte los pesos. Esta transparencia permite a desarrolladores, investigadores o aficionados realizar un fine-tuning (ajuste fino) del modelo, integrarlo en proyectos o estudiar su mecánica sin tener que reentrenarlo desde cero, un proceso que requiere muchísimos recursos.

Ejemplos recientes destacan la evolución de esta tendencia a fecha de 31 de marzo de 2025. OpenAI, que durante mucho tiempo defendió los modelos cerrados, acaba de anunciar su primer modelo de pesos abiertos desde GPT-2, anticipado por Sam Altman en X como un rival con capacidad de razonamiento para modelos como o3-mini, programado para lanzarse en los próximos meses con pesos accesibles.

Del mismo modo, DeepSeek V3 de China lidera en benchmarks de no-razonamiento, ofreciendo pesos totalmente descargables junto con su modelo de razonamiento R1, que compite con el o1 de OpenAI en matemáticas y programación. Mistral Large 2, con su contexto de 128k tokens y destreza en código, y Gemma 3 de Google, que destaca en tareas empresariales, también proporcionan pesos abiertos, al igual que la serie Nemotron de NVIDIA (por ejemplo, Super 49B), dirigida a aplicaciones de razonamiento. Estos lanzamientos —a menudo de grandes actores como OpenAI, Google y NVIDIA— muestran un cambio hacia la apertura, aunque el estatus de código abierto total (incluyendo los datos de entrenamiento) varía.

Aquí hay algunos ejemplos de algunos de los últimos modelos de pesos abiertos a fecha de 31 de marzo de 2025, basados en desarrollos recientes en el panorama de la IA:

  • El próximo modelo de pesos abiertos de OpenAI

OpenAI, conocida por sus modelos propietarios como ChatGPT, ha anunciado planes para lanzar su primer modelo de pesos abiertos desde GPT-2 (lanzado en 2019). Este nuevo modelo, adelantado por el CEO Sam Altman, contará con capacidades de razonamiento similares al modelo o3-mini y se espera que se lance en los próximos meses. Aunque los detalles como el tamaño de los parámetros o la fecha exacta de lanzamiento se mantienen en reserva, está posicionado para competir con otros líderes de pesos abiertos, ofreciendo a los desarrolladores la capacidad de personalizar sus pesos para tareas específicas.

  • DeepSeek V3

Desarrollado por la startup china de IA DeepSeek, el modelo V3 (lanzado como DeepSeek V3-0324) es un referente en el espacio de pesos abiertos. Es notable por ser el primer modelo de pesos abiertos en liderar benchmarks de no-razonamiento, como se destacó en publicaciones en X. DeepSeek también ofrece el modelo de razonamiento R1, que iguala o supera al o1 de OpenAI en áreas como matemáticas y programación. Estos modelos son totalmente accesibles, con pesos disponibles para que los desarrolladores los descarguen y adapten, lo que los convierte en una opción potente para una personalización rentable.

  • Mistral Large 2

Lanzado por Mistral AI, Mistral Large 2 es un modelo de pesos abiertos diseñado para rivalizar con modelos de primer nivel como Llama 3.1 405B de Meta. Con una ventana de contexto de 128k tokens y capacidades multilingües, destaca en tareas de programación en lenguajes como Python y Java. Sus pesos están disponibles públicamente, lo que permite el fine-tuning para aplicaciones especializadas, y ha sido elogiado por reducir las alucinaciones en comparación con su predecesor, Mistral 7B.

  • Google Gemma 3

La última oferta de pesos abiertos de Google, Gemma 3, se basa en el éxito de la serie Gemma. Se ha destacado por su impresionante rendimiento en tareas empresariales como la extracción de datos, obteniendo puntuaciones cercanas al modelo propietario Gemini 2.0 Flash de Google en las evaluaciones. Los pesos están disponibles abiertamente, lo que lo convierte en una opción sólida para los desarrolladores que buscan un modelo potente y rentable que pueda ejecutarse localmente o ajustarse.

  • Serie NVIDIA Nemotron

NVIDIA presentó recientemente su familia Nemotron de modelos de pesos abiertos, que incluye Nano (8B), Super (49B) y Ultra (249B). Estos son modelos enfocados en el razonamiento basados en la arquitectura Llama. Las pruebas iniciales sugieren que el modelo Super 49B logra resultados sólidos, como un 64% en el benchmark GPQA Diamond en modo de razonamiento, con pesos disponibles para uso público, dirigidos a aplicaciones que requieren un procesamiento lógico robusto.

Tags: