Chat GPT-4o, un nuevo modelo de IA que puede razonar a través de audio y texto: ¿cuándo estará disponible?

13 mayo, 2024 | 13:26 | Alfredo Narváez | OpenAI

OpenAI presentó oficialmente su nuevo modelo insignia de inteligencia artificial: Chat GPT-4o. Se trata de una herramienta inteligente capaz de razonar a través de audio, visión y texto en tiempo real, de acuerdo con el anuncio de este lunes 13 de mayo.

“GPT-4o (“o” de “omni”) es un paso hacia una interacción persona-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen”.
OpenAI

[TE RECOMENDAMOS: IA: Chat GPT, Gemini y Bing, las herramientas de Inteligencia Artificial más populares y cómo usarlas]

¿Qué es y qué puede hacer Chat GPT-4o?

Chat GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano (se abre en una nueva ventana) en una conversación.

Este nuevo modelo iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés.

Al mismo tiempo, es mucho más rápido y un 50 % más económico en la API. “GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes”, señaló en un comunicado.

Según las mediciones de los puntos de referencia tradicionales, este nuevo modelo logra un rendimiento de nivel GPT-4 Turbo en texto, razonamiento e inteligencia de codificación, al tiempo que establece nuevos récords en capacidades multilingües, de audio y de visión.

¿Cuándo estará disponible el nuevo Chat GPT?

Las capacidades de GPT-4o se implementarán de forma iterativa (con acceso ampliado al equipo rojo a partir de hoy), de acuerdo con el comunicado oficial de OpenAI.

“Las capacidades de texto e imagen de GPT-4o están comenzando a implementarse hoy en ChatGPT. Estamos haciendo que GPT-4o esté disponible en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores. Lanzaremos una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas”.
OpenAI

Los desarrolladores ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión. Es dos veces más rápido, la mitad de precio y tiene límites de velocidad 5 veces más altos en comparación con GPT-4 Turbo.

OpenAI planea lanzar soporte para las nuevas capacidades de audio y video a un pequeño grupo de socios confiables en la API en las próximas semanas.

Los principales cambios a esta inteligencia artificial

La principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.

“Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal”.
OpenAI

Debido a que Chat GPT-4o es el primer modelo de OpenAI que combina todas estas modalidades, aún no se han explorado todas las posibilidades explotables con él.

[TE PODRÍA INTERESAR: Este es uno de los principales competidores de ChatGPT, según embajador de OpenAI: ¿Google? ¿Grok?]

¿Y qué hay con la seguridad de Chat GPT-4o?

Chat GPT-4o tiene seguridad incorporada por diseño en todas las modalidades, a través de técnicas como filtrar datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior.

“También hemos creado nuevos sistemas de seguridad para proporcionar barreras de seguridad en las salidas de voz”, informó OpenAI este lunes.

GPT-4o también se ha sometido a un extenso equipo rojo externo con más de 70 expertos externos en dominios como psicología social, prejuicios y equidad, e información errónea para identificar los riesgos que introducen o amplifican las modalidades recién agregadas.

“Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través de la capacitación posterior y la seguridad necesarias para lanzar las otras modalidades”, dijo la empresa tecnológica.