in Software

Un vistazo a Gemini, el nuevo modelo de inteligencia artificial de Google

Una de sus versiones ya es parte de Google Bard

por Lisandro Pardo 7 diciembre, 2023, 3:18 pm

Durante un tiempo pensamos que Mountain View había «perdido el norte» con su desarrollo de inteligencias artificiales, pero todo parece indicar que la zozobra quedó atrás. A través de una publicación en su blog oficial, Google anunció a Gemini, un nuevo modelo multimodal que busca competir con GPT-4, el actual sistema en la versión paga de ChatGPT. Google describe a Gemini como el modelo más potente que ha creado hasta ahora, aunque también reconoce la necesidad de mayor flexibilidad al confirmar la existencia de tres builds o «tamaños», de los cuales uno ya se encuentra disponible vía Bard.

Cada modelo de inteligencia artificial tiene sus puntos fuertes y sus debilidades, pero una cosa es segura: Deben hacer mucho más de lo que hacen hoy. Si arrojamos una piedra en cualquier dirección es casi imposible no golpear a un chatbot con ella, sin embargo, el público necesita trabajar con otro contenido más allá del texto. Así llegamos a la fase de modelos «multimodales». Vídeo, audio, código e imágenes quedan al alcance de estas plataformas, y en el caso específico de Google, su respuesta es Gemini.

Gemini, el modelo multimodal de Google que competirá con GPT-4

Google explica que los ejemplos previos de «multimodalidad» no eran más que diferentes modelos exclusivos (sólo texto, sólo imágenes, sólo audio) unidos de forma poco eficiente en fases secundarias de procesamiento. Gemini no utiliza esa estrategia, sino que fue diseñado desde cero para incorporar la multimodalidad a su estructura.

Otro aspecto esencial de Gemini es que estará disponible en tres modos o «tamaños»: Gemini Ultra para tareas de alta complejidad que demandan mucho hardware, Gemini Pro orientado a un uso general, y Gemini Nano, pensado para dispositivos móviles y ejecución local.

Bard ya incorporó una versión especial de Gemini Pro, y está disponible en 170 países

El análisis de vídeos apareció en noviembre, pero Gemini/Bard hace un trabajo bastante bueno (hay que activar la extensión primero)

Por el momento sólo es posible acceder a Gemini Pro, cortesía de un build especialmente optimizado para Google Bard. Sin embargo, los usuarios en territorio europeo y el Reino Unido deberán esperar un poco más (regulaciones, regulaciones). Otra restricción es la del idioma: Para explorar las virtudes de Gemini/Bard, hay que hablar en inglés.

Los benchmarks se basan en Gemini Ultra, y no resultan tan útiles

Como era de esperarse, Google compartió varios benchmarks que ubican a Gemini Ultra por arriba o en el mismo nivel que GPT-4, pero esto no cambia nada para el usuario promedio. De hecho, surge una contradicción al presentar a Gemini como una solución general, y destacar su rendimiento a través de benchmarks extraordinariamente específicos.

Al mismo tiempo, los problemas de fondo permanecen intactos. Las inteligencias artificiales aún inventan respuestas o «deliran» en sus sesiones, y Gemini no es inmune a esto, pero la apuesta de Google por su multimodalidad es muy grande, y seguramente veremos más al respecto en el futuro cercano.

Anuncio oficial: Haz clic aquí

Reportar

Destacados inteligencia artificial Software