La carrera de la IA se ha intensificado, convirtiéndose en un juego de ponerse al día entre los grandes actores de la tecnología. El lanzamiento de GPT-4o justo antes de Google I/O no es una coincidencia. Las increíbles capacidades de GPT-4o en multimodalidad, u omnimodalidad para ser precisos, han creado un impacto significativo en la competición de IA Generativa. Sin embargo, Google no es de los que se contienen. Durante el Google I/O, anunciaron nuevas variantes de sus modelos Gemini y Gemma. Entre todos los modelos anunciados, el Gemini 1.5 Flash destaca como el más impactante. En este blog, exploraremos las principales características del Gemini 1.5 Flash y lo compararemos con el Gemini 1.5 Pro y el Gemini 1.5 Flash frente al GPT-4o para determinar cuál es mejor.
Comparación de Gemini 1.5 Flash con GPT-4o
Según las puntuaciones de los puntos de referencia publicados por Google, el Gemini 1.5 Flash tiene un rendimiento superior en audio en comparación con todos los demás LLM de Google y está a la par con el modelo Gemini 1.5 Pro saliente (Feb 2024) en otros puntos de referencia. Aunque no recomendaríamos confiar totalmente en los puntos de referencia para evaluar el rendimiento de cualquier LLM, ayudan a cuantificar la diferencia de rendimiento y las pequeñas mejoras. El elefante en la habitación es el coste del Flash Gemini 1,5. Comparado con el GPT-4o, el Gemini 1,5 Flash es mucho más asequible.
Ventana de contexto
Al igual que el Gemini 1.5 Pro, el Flash viene con una ventana de contexto de 1 millón de tokens, que es más que cualquiera de los modelos de OpenAI y es una de las ventanas de contexto más grandes para los LLM de nivel de producción. Una ventana de contexto más grande permite una mayor comprensión de los datos y puede mejorar las técnicas de terceros, como la RAG (Generación Mejorada de Recuperación) para casos de uso con una gran base de conocimientos, al aumentar el tamaño del trozo. Además, una ventana contextual más grande permite generar más texto, lo que resulta útil en situaciones como la redacción de artículos, correos electrónicos y comunicados de prensa.
Multimodalidad
Gemini-1.5 Flash es multimodal. La multimodalidad permite introducir el contexto en forma de audio, vídeo, documentos, etc. Los LLM con multimodalidad son más versátiles y abren las puertas a más aplicaciones de la IA generativa sin necesidad de preprocesamiento.
“Los modelos Gemini 1.5 están diseñados para manejar contextos extremadamente largos; tienen capacidad para recordar y razonar sobre información detallada de hasta al menos 10 millones de tokens. Esta escala no tiene precedentes entre los grandes modelos lingüísticos (LLM) contemporáneos, y permite procesar entradas de formato largo y modalidad mixta, como colecciones enteras de documentos, varias horas de vídeo y casi cinco días de audio”. – Informe DeepMind
Dabbas = vagón de tren en hindi. Demostrando la Multimodalidad y la actuación Multilingüe.
La multimodalidad también nos permite utilizar los LLM como sustitutos de otros servicios especializados. Por ejemplo OCR o Web Scraping.
Extrae fácilmente datos de páginas web y transfórmalos.
Velocidad
El Flash Géminis 1,5, como su nombre indica, está diseñado para tener una ventaja sobre otros modelos en cuanto a tiempo de respuesta. Para el ejemplo de web scraping mencionado anteriormente, hay aproximadamente una diferencia de 2,5 segundos en el tiempo de respuesta, lo que supone casi un 40% más de rapidez, lo que hace que el Gemini 1.5 Flash sea una mejor opción para el uso de automatización o cualquier caso de uso que requiera una latencia más baja.
Algunos casos de uso interesantes de Gemini 1.5 Flash
Resumir vídeos
La comprensión de vídeo de Gemini 1.5 Pro es lo más infravalorado de la IA.
En ~50s, “vio” un vídeo de Youtube de 11min (~175k tokens) de los momentos más icónicos del deporte y fue capaz de enumerar perfectamente (que yo sepa) los 18 momentos. No hay otro vídeo AI tan bueno! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydas) 5 de abril de 2024
Escribir código utilizando vídeo
Esto es alucinante 🤯
Le di a Géminis 1,5 Flash grabándome de compras y me dio código Selenium en ~5 segundos. Esto puede cambiar muchas cosas. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) 18 de mayo de 2024
Automatizar el juego
Construí mi propio omniasistente utilizando Géminis 1.5 Flash para que me guiara por Super Mario 64.
Géminis puede ver lo que hago en mi pantalla y comunicarse conmigo en tiempo real mediante la voz, y gracias al largo contexto 1M, tiene memoria de todo lo que hacemos juntos. Increíble. pic.twitter.com/doTngufjFL – Pietro Schirano (@skirano) 21 de mayo de 2024