GPT-4o de OpenAI acento con GPT-4o

Que quieres saber

  • OpenAI acaba de lanzar su nuevo modelo insignia GPT-4o.
  • Puede razonar a través de audio, visión y texto en tiempo real, lo que hace que las interacciones con ChatGPT sean más fluidas.
  • OpenAI también presentó una aplicación ChatGPT nativa para Mac, desairando a Windows.
  • Una demostración viral de ChatGPT mostró las capacidades visuales y de audio de GPT-4o para comunicarse con otro modelo de IA.

OpenAI acaba de revelar su nuevo modelo insignia GPT-4o (sé que no soy el único confundido por estos modelos mientras continúan enviándose). Básicamente, GPT-4o es una versión mejorada del GPT-4 de OpenAI y es igual de inteligente. El modelo es más intuitivo y puede razonar en tiempo real sobre audio, visión y texto, lo que hace que las interacciones con ChatGPT sean más fluidas.

La "magia" detrás del evento de actualización de primavera recién concluido de OpenAI sigue siendo discutible, pero las demostraciones que emergen en las redes sociales son bastante impresionantes, casi alucinantes. Traducir el idioma italiano al inglés y transmitir información en tiempo real es algo extraordinario, ya que potencialmente mantiene a raya los obstáculos de comunicación, como las barreras del idioma.

Pero lo que me dejó perplejo fue una demostración en vídeo compartida por Greg Brockman, presidente y cofundador de OpenAI en (anteriormente Twitter). Nunca pensé que llegaríamos a un punto en el que un asistente virtual pudiera mantener una conversación completa con otro asistente de IA con complicaciones mínimas.

La demostración comienza cuando el usuario explica a dos chatbots de IA que básicamente hablarán entre sí. El usuario explica a los chatbots sus expectativas, indicando que uno de los chatbots puede ver el mundo a través de una cámara. Por otro lado, el otro chatbot puede modelar preguntas o incluso pedirle que realice tareas específicas con la ayuda del usuario.

“Bueno, bueno, justo cuando pensaba que las cosas no podían ponerse más interesantes”, respondió en broma el primer chatbot. Hablar con otra IA que puede ver el mundo, se siente como un giro en el universo de la IA. "Justo antes de que el asistente de IA pudiera aceptar los términos, el usuario le pidió que se tomara un descanso mientras le daba instrucciones a la segunda IA.

De buenas a primeras, el usuario comienza a hablar con el segundo asistente de IA diciéndole que tendrá acceso a la visión del mundo. Supongo que se trata de un mensaje sutil que le pide al Asistente que acceda a la cámara del teléfono, que utilizará como sus ojos para ver el mundo. Al instante, la interfaz integra una cámara (modo selfie) y proporciona una imagen clara de lo que lleva puesto el usuario y su entorno.

A partir de ahí, el usuario señala que el primer modelo de IA le hablará y le hará preguntas, incluido cómo se mueve la cámara y qué ve. Se espera que esto sea útil y que las preguntas se respondan con precisión.

OpenAI y ChatGPT

(Crédito de la imagen: Daniel Rubino)

El proceso comienza con una IA que puede "ver el mundo", explicando lo que ve, incluido el usuario y más contexto sobre su código de vestimenta y el diseño del edificio. Curiosamente, casi se siente como si dos humanos estuvieran conversando por FaceTime, ya que la primera IA brinda retroalimentación basada en la información compartida. Además, la IA parece entender bien lo que hace el usuario, su expresión e incluso su estilo en función de lo que lleva puesto.

Lo que me sorprendió fue cuando el usuario hizo un gesto para que otra persona en la habitación se acercara y apareciera en el campo de visión de la IA. La IA entendió esto de inmediato e incluso indicó que el usuario “podría prepararse para una presentación o conversación” basándose en su interacción directa con la cámara.

Curiosamente, la introducción de un tercero no afectó la conversación entre las dos IA. A primera vista, es casi posible decir que la IA no notó que la persona entraba a la habitación y se paraba detrás del usuario que sostenía el teléfono.

Sin embargo, éste no es el caso. El usuario interrumpió brevemente la conversación entre las dos IA para preguntar si había sucedido algo inusual. La IA con capacidades visuales señaló que una segunda persona apareció detrás de la primera e hizo ojos de conejo detrás de la primera antes de abandonar rápidamente el cuadro. Amnistía Internacional describió la situación como ligero e inesperado.

La demostración continúa mostrando las amplias capacidades de GPT-4o. El usuario incluso pide a los dos modelos que creen una canción basada en los acontecimientos que acaban de suceder y la canten alternando líneas. En un momento, suena como si el director de un coro estuviera preparando su coro para un próximo evento importante en la iglesia.

También debo señalar que la mayoría de las demostraciones que he visto son principalmente para dispositivos Apple como el iPhone y la MacBook. Quizás esta sea la razón por la que OpenAI lanzó una aplicación ChatGPT nativa para usuarios de Mac antes de lanzarla a Windows. Además, Sam Altman, director general de OpenAI, admitió que "el iPhone es la mayor tecnología jamás creada por la humanidad".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir