El nuevo generador de imágenes de ChatGPT resuelve uno de los mayores problemas de las IA texto a imagen

OpenAI ha actualizado ChatGPT con un nuevo
generador de imágenes con capacidades mejoradas sobre DALL-E 3 y nativo
en el modelo de lenguaje GPT-4o, en lugar de ser otro LLM al que recurre para
crearlas. Lo más llamativo es que soluciona, o al menos mejora notablemente,
dos de las limitaciones habituales en las IA generativas: la correlación entre
diferentes objetos y la representación de texto
.

En el mercado abundan los modelos de texto a imagen capaces
de crearlas, generalmente más equiparables a ilustraciones que a lo
que entendemos por fotografías
, con resultados notables. Sin embargo, todos
ellos presentan dificultades al generar imágenes que incluyan texto,
logotipos y otros elementos comunes en la vida cotidiana
.

OpenAI afirma que la nueva generación de imágenes con GPT-4o
soluciona estas limitaciones, ya que puede renderizar texto con precisión y
seguir los prompts del usuario de manera más precisa
gracias al
aprovechamiento de su base de conocimientos y el contexto del chat. Además,
este nuevo modelo permite modificar imágenes subidas por el usuario o crear
nuevas utilizando una que cargue como inspiración inicial
.

El otro aspecto en el que destaca la función Crear una
imagen
es en la correlación o vinculación entre múltiples elementos en
una imagen
. Según ha señalado la portavoz de OpenAI, Taya Christianson,
a The Verge, la mayoría de modelos sufren cuando se les pide crear
específicamente una serie de objetos en una imagen, liándose con colores y
formas a partir de 5 u 8. GPT-4o ahora puede mantener la correlación de
atributos con hasta 15 o 20 objetos, sin confundirse
.

Este modelo de generación de imágenes GPT-4o ya se está
implementando para todos los usuarios de ChatGPT Plus, Pro, Team y próximamente los de cuentas Free.
En este último caso, el límite de uso será el mismo que con DALL-E, unas 3
imágenes al día, dependiendo también de la demanda.

Así, GPT-4o se convierte en el generador de imágenes
predeterminado en ChatGPT
, en lugar de DALL-E 3, permitiendo personalizar
las imágenes especificando la relación de aspecto, los colores exactos
mediante códigos hexadecimales o un fondo transparente
. OpenAI también
planea llevar este nuevo modelo a los usuarios de ChatGPT Enterprise y Edu
en las próximas semanas.

El nuevo modelo también está disponible en Sora para
la creación de imágenes y a través de la herramienta dedicada DALL-E GPT.
Para los desarrolladores, la generación de imágenes mediante la API de GPT-4o
se implementará en las próximas semanas.

Las limitaciones de ChatGPT creando imágenes

No es una limitación realmente, pero el tiempo de
procesamiento, dado que crea imágenes más detalladas, puede alargarse hasta
un minuto
. Las limitaciones que sí ha identificado OpenAI y planea corregir
en los próximos meses son:

  • Puede
    recortar de forma excesiva imágenes largas, como carteles,
    especialmente en la parte inferior.
  • La
    generación de imágenes puede inventar información, especialmente
    usando prompts de bajo contexto.
  • Cuando
    se generan imágenes basadas en su base de conocimientos, puede tener dificultades
    para representar más de 10-20 conceptos distintos a la vez
    , como una
    tabla periódica completa.
  • A
    veces presenta problemas al renderizar idiomas no latinos,
    mostrando caracteres incorrectos o inventados, especialmente en los casos
    de mayor complejidad.
  • Las
    solicitudes para editar partes específicas de una imagen, como corregir
    errores tipográficos, no siempre son efectivas y pueden modificar otras
    áreas no deseadas o introducir nuevos errores
    .
  • El
    modelo tiene dificultades para representar información detallada en
    tamaños muy pequeños
    .

Todas las imágenes generadas con este nuevo modelo incluirán
metadatos C2PA y la herramienta interna de OpenAI podrá verificar si
una imagen fue generada utilizando este modelo.

 GPT-4o deja de depender de DALL-E 3 para la creación de imágenes e incorpora esta capacidad de forma nativa  

OpenAI ha actualizado ChatGPT con un nuevo generador de imágenes con capacidades mejoradas sobre DALL-E 3 y nativo en el modelo de lenguaje GPT-4o, en lugar de ser otro LLM al que recurre para crearlas. Lo más llamativo es que soluciona, o al menos mejora notablemente, dos de las limitaciones habituales en los modelos: la correlación entre diferentes objetos y la representación de texto.

En el mercado abundan los modelos de texto a imagen capaces de crear imágenes, generalmente más equiparables a ilustraciones que a lo que entendemos por fotografías, con resultados notables. Sin embargo, todos ellos presentan dificultades al generar imágenes que incluyan texto, logotipos y otros elementos comunes en la vida cotidiana.

OpenAI afirma que la nueva generación de imágenes con GPT-4o soluciona estas limitaciones, ya que puede renderizar texto con precisión y seguir los prompts del usuario de manera más precisa gracias al aprovechamiento de su base de conocimientos y el contexto del chat. Además, este nuevo modelo permite modificar imágenes subidas por el usuario o crear nuevas utilizando una que cargue como inspiración inicial.

Imagen creada por ChatGPT.

El otro aspecto en el que destaca la función Crear una imagen es en la correlación o vinculación entre múltiples elementos en una imagen. Según ha señalado la portavoz de OpenAI, Taya Christianson, a The Verge, la mayoría de modelos sufren cuando se les pide crear específicamente una serie de objetos en una imagen, liándose con colores y formas a partir de 5 u 8. GPT-4o ahora puede mantener la correlación de atributos con hasta 15 o 20 objetos, sin confundirse.

Mejor renderizado de texto y correlación entre elementos con el nuevo generador de imágenes de ChatGPT.

Este modelo de generación de imágenes GPT-4o ya se está implementando para todos los usuarios de ChatGPT Plus, Pro, Team y Free. En este último caso, el límite de uso será el mismo que con DALL-E, unas 3 imágenes al día, dependiendo también de la demanda.

Así, GPT-4o se convierte en el generador de imágenes predeterminado en ChatGPT, en lugar de DALL-E 3, permitiendo personalizar las imágenes especificando la relación de aspecto, los colores exactos mediante códigos hexadecimales o un fondo transparente. OpenAI también planea llevar este nuevo modelo a los usuarios de ChatGPT Enterprise y Edu en las próximas semanas.

El nuevo modelo también está disponible en Sora para la creación de imágenes y a través de la herramienta dedicada DALL·E GPT. Para los desarrolladores, la generación de imágenes mediante la API de GPT-4o se implementará en las próximas semanas.

No es una limitación realmente, pero el tiempo de procesamiento, dado que crea imágenes más detalladas, puede alargarse hasta un minuto. Las limitaciones que sí ha identificado OpenAI y planea corregir en los próximos meses son:

  • Puede recortar de forma excesiva imágenes largas, como carteles, especialmente en la parte inferior.
  • La generación de imágenes puede inventar información, especialmente usando prompts de bajo contexto.
  • Cuando se generan imágenes basadas en su base de conocimientos, puede tener dificultades para representar más de 10-20 conceptos distintos a la vez, como una tabla periódica completa.
  • A veces presenta problemas al renderizar idiomas no latinos, mostrando caracteres incorrectos o inventados, especialmente en los casos de mayor complejidad.
  • Las solicitudes para editar partes específicas de una imagen, como corregir errores tipográficos, no siempre son efectivas y pueden modificar otras áreas no deseadas o introducir nuevos errores.
  • El modelo tiene dificultades para representar información detallada en tamaños muy pequeños.

Todas las imágenes generadas con este nuevo modelo incluirán metadatos C2PA y la herramienta interna de OpenAI podrá verificar si una imagen fue generada utilizando este modelo.

 Noticias de Tecnología y Videojuegos en La Razón

Noticias Similares