Gemini, el modelo multimodal de Google que promete revolucionar el panorama de la IA
25 de enero de 2024 Por Ana Perez Miranda
En la incansable carrera por innovar en el ámbito de la IA generativa, Google irrumpía a finales del año pasado con la presentación de lo que prometía ser un hito sin precedentes: Gemini.
Este modelo de inteligencia artificial se presenta como un asistente virtual avanzado que, a través de algoritmos de aprendizaje profundo, comprende y responde de manera más sagaz e intuitiva a los usuarios, aprendiendo y evolucionando a su vez con cada interacción.
Pero, ¿y qué pasa con Google Bard?
Si te estabas preguntando si Gemini pasará a ser el sustituto de Bard, la herramienta conversacional de Google que aterrizó en España el pasado verano, la respuesta es un rotundo no. La razón es muy sencilla: no son lo mismo. Los modelos de inteligencia artificial, como Gemini, son la tecnología que hacen funcionar a las aplicaciones o Chatbots, como Bard.
Al que sí planea sustituir Gemini es a PaLM, el actual modelo de inteligencia artificial que usa Bard. La intención es que PaLM vaya siendo sustituido poco a poco por Gemini, con el objetivo de que las respuestas que nos dé el chatbot de Google sean cada vez más acertadas y precisas.
¿Por qué es una innovación importante?
No hay rival para Gemini (al menos por el momento). El modelo de IA más ambicioso de Google ha conseguido superar a todos sus competidores en los principales tests, consiguiendo adelantar en la carrera a OpenAI.
Una de las claves que le han llevado al podio es su multimodalidad, que le permite entender diferentes tipos de información: texto, imagen, audio, código de programación…
Pero lo realmente diferenciador de Gemini radica en qué ha sido diseñado así desde su origen. Normalmente, los modelos de inteligencia artificial son entrenados con cantidades ingentes de datos recopilados de internet para que aprendan a comprender las preguntas y peticiones que les hacemos, tengan dentro de ellos la información con las respuestas y puedan contestar con respuestas escritas naturales.
En el caso de Gemini, ha sido diseñado desde cero por Google y su entrenamiento ha sido diferente. No se le ha entrenado para comprender una fuente como el texto, y luego a transformar otras fuentes a esta primera, sino que se le ha preparado para combinar las diferentes modalidades de manera nativa. Esto se traduce en que, por ejemplo, pueda entender tanto un texto como un dibujo en real time.
De esta forma, si ChatGPT 4.5 hasta el momento ha sido útil para los profesionales de la comunicación para automatizar tareas más relacionadas con el texto, como la generación de informes o la búsqueda y redacción de contenidos, Gemini, gracias a su naturaleza multimodal y entrenamiento para el análisis complejo de datos, promete ayudar a tareas más estratégicas. Por ejemplo, en la formulación de insights o en el análisis de tendencias de mercado.
Además, Gemini también presenta AlphaCode2, un nuevo sistema para generar código de alta calidad con respuestas mucho más fiables, y que será muy valioso para resolver problemas matemáticos o de física complejos.
Tres versiones disponibles
Otra de las novedades de Gemini es que contará con tres versiones diferentes para poder satisfacer las necesidades de diferentes perfiles: desde científicos, investigadores, analistas, programadores, profesionales de diferentes especialidades hasta el público de a pie más motivado por explorar las posibilidades que puede brindarle la IA en su día a día.
Así, Gemini Ultra es la versión más avanzada y multimodal, ideada para las tareas más complejas. Esta se postula como el competidor de GPT-4, superando a este último en las pruebas actuales.
Gemini Pro es más reducida en capacidades y funciones que la Ultra, y equivaldría al competidor de GPT 3.5, el que encontramos en la versión de ChatGPT gratuito.
La última es la versión Nano, enfocada a los dispositivos con menos capacidad de computación y memoria. Esta destaca por su gran innovación, no solo porque no se pueda comparar con ningún otro producto de OpenAI, sino porque podrá ser utilizada como una IA que se implemente directamente dentro del dispositivo, haciendo que pueda usarse sin necesidad de conexión.
¿Cuándo podremos disfrutar de Gemini en España?
Por ahora, habrá que esperar a poder disfrutar del completo de las tres versiones que ofrece Gemini. Es cierto que Gemini Pro se ha incorporado a Google Bard en algunos países, entre los que no se encuentra España ni ningún otro de la Unión Europea, debido a cuestiones de regulación. Tal ha sido el revuelo de la puesta en marcha de Gemini, que internet se ha llenado de diferentes tutoriales sobre cómo probarlo, haciendo uso de una VPN. Un claro reflejo de las ganas que existen por explorarlo y poner a prueba sus capacidades.
Asimismo, aunque todavía no hay fecha exacta y se rumorea que será a partir de este año, Google tiene prevista la creación de un Bard Advance que integre la versión más premium de Gemini: Ultra. Por otro lado, aquellos que utilicen los móviles Pixel 8 Pro de Google y la nueva serie Galaxy S24 tendrán la ventaja de tener a Gemini Nano integrados en sus dispositivos para disfrutar de todas sus funcionalidades.
Pero lo que va a hacer aún más interesante a este modelo de IA, es que, como era de esperar, Google no solo tiene planeado que se integre en su chatbot Bard, sino que también está estudiando cómo introducirlo en otros servicios y aplicaciones de la compañía, como el navegador Google Chrome, Google Ads, Duet AI…
Desde el punto de vista de la comunicación digital y el marketing, estamos seguros de que Gemini no dejará de sorprender. Sus primeras incursiones ya se pueden ver en Google Ads, donde ya se está integrando en la experiencia conversacional para ayudar a los profesionales de marketing a mejorar las campañas publicitarias. Por el momento, esta función solo está disponible en inglés para anunciantes de Estados Unidos y Reino Unido, pero se plantea que en unos meses se abra a otros idiomas.
En definitiva, Gemini solo ha dado sus primeros pasos y habrá que estar atentos para ver cómo sigue evolucionado y si cumple su promesa de liderar el panorama de la inteligencia artificial generativa.