ChatGPT ya puede analizar y manipular imágenes

OpenAI lanza sus nuevos modelos de razonamiento o3 y o4-mini, que permiten al chatbot interpretar fotos, diagramas de libros, esquemas o dibujos hechos a mano y, al mismo tiempo, editarlas sobre la marcha.

OpenAI avanza en la creación de su propia red social

ChatGPT ya puede analizar y manipular imágenes
ChatGPT ya puede analizar y manipular imágenes

La tecnológica OpenAI anunció que su chatbot de inteligencia artificial (IA), ChatGPT, puede ya interpretar y manipular imágenes, aunque sean de baja calidad o estén borrosas.

La compañía lanzó sus nuevos modelos de razonamiento o3 y o4-mini, que permiten a ChatGPT interpretar fotografías, diagramas de libros, esquemas o dibujos hechos a mano y, al mismo tiempo, manipular las imágenes sobre la marcha, girándolas, ampliándolas o editándolas.

De esta forma, el 'chatbot' no se limitará a ver una imagen sino que también "pensará" con ella, apuntó OpenAI en un comunicado.

La firma tecnológica ha actualizado la familia de modelos de la serie o, centrada en el razonamiento, que cuenta con la capacidad de pensar durante más tiempo antes de ofrecer un respuesta.

Los modelos OpenAI o3 y o4-mini pueden utilizar de manera autónoma las herramientas del chatbot: navegar por la web, programar con Python, comprender las imágenes y generar imágenes, para resolver problemas complejos y de múltiples pasos.

"Estos modelos están entrenados para razonar sobre cuándo y cómo utilizar herramientas para producir respuestas detalladas y reflexivas en los formatos de salida correctos, normalmente en menos de un minuto", afirma la compañía en su blog oficial.

ChatGPT ya puede analizar y manipular imágenes
ChatGPT ya puede analizar y manipular imágenes

Según la empresa, dirigida por Sam Altman, OpenAI o3 es su modelo de razonamiento más potente hasta la fecha y es útil, sobre todo, en tareas visuales como el análisis de imágenes, tablas y gráficos.

Así, en evaluaciones realizadas por expertos, o3 ha cometido un 20% menos de errores que el modelo o1 en diversas funciones como la programación o la consultoría empresarial, y además tiene mejor rendimiento que su predecesor, o3-mini, en áreas como la ciencia de datos.

Por su parte, o4-mini, más pequeño, está optimizado para tareas de razonamiento rápidas y rentables, especialmente en matemáticas, programación y tareas visuales, y admite límites de uso mayores que o3.

Tanto o3 como o4-mini siguen mejor las instrucciones y dan respuestas más naturales, personalizadas y similares a una conversación casual, añadió la compañía.

Utilizar y combinar de forma dinámica las herramientas

La empresa destacó que esta es la primera vez que sus modelos de razonamiento pueden utilizar y combinar de forma dinámica todas las herramientas de ChatGPT, entre ellas la búsqueda en internet y el análisis de archivos y otros datos.

En este sentido, los modelos están entrenados para razonar sobre cuándo y cómo utilizar dichas herramientas para producir respuestas detalladas, generalmente en menos de un minuto, y resolver problemas más complejos.

Ambos modelos ya están disponibles para los usuarios de ChatGPT Plus, Pro y Team (o3, o4-mini, o4-mini-high), reemplazando a o1, o3-mini y o3-mini-high. También disponibles mediante API (Chat Completions + Responses API).

Según OpenAI, OpenAI o3 es actualmente su modelo de razonamiento más potente, que destaca en programación, matemáticas, ciencia y percepción visual, cometiendo un 20 por ciento menos de errores importantes que o1 en tareas del mundo real.

Además, OpenAI ha lanzado Codex CLI, un agente de codificación ligero y de código abierto que se ejecuta localmente en el dispositivo.

Windsurf

Por otro lado, la cadena CNBC informó de que OpenAI está en conversaciones para comprar Windsurf, una herramienta de IA enfocada en la codificación, por unos 3.000 millones de dólares.

Windsurf compite con las funciones de codificación de otras tecnológicas como Microsoft y Anthropic, además de la propia OpenAI, subraya el portal especializado CNBC.

stats