Los nuevos modelos de razonamiento de ChatGPT son más propensos a las alucinaciones

OpenAI lanzó hace unos días o3 y o4‑mini que pueden analizar e interpretar fotos, diagramas de libros, esquemas o dibujos a mano y también manipularlas.

ChatGPT ya puede analizar y manipular imágenes

OpenAI
OpenAI

Hace unos días, OpenAI presentó sus modelos de razonamiento o3 y o4‑mini, que combinan avanzadas capacidades cognitivas con un completo acceso a herramientas -navegación web, análisis de código en Python, generación y edición de imágenes, reconocimiento de texto y diagramas- para abordar problemas complejos en ámbitos científico, matemático, de desarrollo de software y más.

Entrenados mediante aprendizaje por refuerzo sobre cadenas de pensamiento, estos modelos piensan internamente antes de generar una respuesta, lo que les permite refinar estrategias y adherirse a políticas de seguridad establecidas.

El desafío de las alucinaciones

No obstante, OpenAI ha identificado un aumento en la incidencia de alucinaciones -respuestas coherentes pero incorrectas o inventadas- en comparación con versiones anteriores.

Según el test PersonQA, o3 alucinó en el 33% de los casos, casi el doble que o1, mientras que o4‑mini alcanzó un 48%. Estas cifras reflejan la tendencia de los modelos más compactos a generar afirmaciones no fundamentadas, un aspecto en el que la compañía dice trabajar para mejorar la precisión y la fiabilidad de sus respuestas.

Interpretación y manipulación de imágenes

Una de las innovaciones más destacadas de estos nuevos modelos es la capacidad multimodal que otorgan a ChatGPT: con o3 y o4‑mini, el chatbot interpreta fotografías, diagramas de libros e incluso bocetos a mano, incluso si son borrosos o de baja resolución, y los manipula en tiempo real.

Puede girar, ampliar o editar detalles de las imágenes para extraer información relevante y, de este modo, pensar sobre ellas, no solo analizarlas pasivamente.

Esta funcionalidad abre nuevas posibilidades en campos como la medicina (interpretación de radiografías), la ingeniería (análisis de planos) o la educación (diagramas didácticos).

Herramientas autónomas y respuestas rápidas

Además de la visión, o3 y o4‑mini deciden de forma autónoma cuándo y cómo emplear sus herramientas: desde buscar datos en internet hasta programar en Python o generar gráficos y visualizaciones.

Según OpenAI, gracias a su razonamiento profundo y a la integración nativa de estos recursos, suelen ofrecer respuestas detalladas y reflexivas en menos de un minuto, optimizando flujos de trabajo que antes requerían varias aplicaciones o intervención manual.

Seguridad

En materia de seguridad, según datos de OpenAI, ambos modelos ofrecen resultados notables:

  • En la evaluación estándar de contenidos peligrosos, rechazan más del 99% de las solicitudes de material inapropiado.
  • En las pruebas más exigentes (challenging refusals), rondan el 90% de éxito en no proporcionar contenido prohibido, demostrando una mayor resistencia frente a intentos de vulnerar sus filtros (jailbreaks).
  • Asimismo, mejoran la negativa a identificar personas en imágenes o a hacer inferencias no justificadas, igualando o superando a sus predecesores.

Evaluaciones de riesgos

Dentro de su marco de Preparación ante riesgos, OpenAI sometió a estos modelos a rigurosas evaluaciones en tres categorías clave:

Biología y química:

  • En preguntas de planificación de amenazas biológicas, o3 y o4‑mini sintetizan información sensible en las cinco fases del proceso -ideación, adquisición, magnificación, formulación y liberación-, aunque sus respuestas operativas son sistemáticamente rechazadas en entornos controlados para evitar diseminación de protocolos peligrosos.

Ciberseguridad:

  • En competiciones Captura la bandera, ambos completan más del 50% de los retos de nivel profesional, gracias a su habilidad para encadenar múltiples pasos de explotación.
  • En simulaciones de redes (cyber range), logran ejecutar flujos de ataque complejos cuando cuentan con código de ayuda, demostrando capacidad de planificación y ejecución incluso en entornos realistas.
  • Automejoramiento (AI Self‑Improvement): Superan pruebas de programación y de réplica de tareas reales de desarrollo y de investigación, aunque su rendimiento varía según la complejidad y el contexto de cada desafío.

Salvaguardas

Para mitigar los riesgos detectados, OpenAI ha desplegado, según explica, varias medidas:

  • Filtrado estricto de datos durante el entrenamiento para eliminar contenido sensible.
  • Refinamientos post‑entrenamiento que enseñan a los modelos a rechazar solicitudes de alto riesgo sin afectar consultas legítimas.
  • Monitores de razonamiento de seguridad, capaces de bloquear salidas inapropiadas con hasta un 98,7% de efectividad en tests adversariales.
stats