Gemini 1.5 Flash vs GPT-4o: ¿La respuesta de Google a GPT-4o?

La carrera de la IA se ha intensificado, convirtiéndose en un juego de ponerse al día entre los grandes actores de la tecnología. El lanzamiento de GPT-4o justo antes de Google I/O no es una coincidencia. Las increíbles capacidades de GPT-4o en multimodalidad, u omnimodalidad para ser precisos, han creado un impacto significativo en la competición de IA Generativa. Sin embargo, Google no es de los que se contienen. Durante el Google I/O, anunciaron nuevas variantes de sus modelos Gemini y Gemma. Entre todos los modelos anunciados, el Gemini 1.5 Flash destaca como el más impactante. En este blog, exploraremos las principales características del Gemini 1.5 Flash y lo compararemos con el Gemini 1.5 Pro y el Gemini 1.5 Flash frente al GPT-4o para determinar cuál es mejor.

Comparación de Gemini 1.5 Flash con GPT-4o

Según las puntuaciones de los puntos de referencia publicados por Google, el Gemini 1.5 Flash tiene un rendimiento superior en audio en comparación con todos los demás LLM de Google y está a la par con el modelo Gemini 1.5 Pro saliente (Feb 2024) en otros puntos de referencia. Aunque no recomendaríamos confiar totalmente en los puntos de referencia para evaluar el rendimiento de cualquier LLM, ayudan a cuantificar la diferencia de rendimiento y las pequeñas mejoras. Puntos de referencia de Flash Gemini 1.5 El elefante en la habitación es el coste del Flash Gemini 1,5. Comparado con el GPT-4o, el Gemini 1,5 Flash es mucho más asequible. Precio de Géminis

Precio de Géminis

Precio de GPT

Ventana de contexto

Al igual que el Gemini 1.5 Pro, el Flash viene con una ventana de contexto de 1 millón de tokens, que es más que cualquiera de los modelos de OpenAI y es una de las ventanas de contexto más grandes para los LLM de nivel de producción. Una ventana de contexto más grande permite una mayor comprensión de los datos y puede mejorar las técnicas de terceros, como la RAG (Generación Mejorada de Recuperación) para casos de uso con una gran base de conocimientos, al aumentar el tamaño del trozo. Además, una ventana contextual más grande permite generar más texto, lo que resulta útil en situaciones como la redacción de artículos, correos electrónicos y comunicados de prensa.

Multimodalidad

Gemini-1.5 Flash es multimodal. La multimodalidad permite introducir el contexto en forma de audio, vídeo, documentos, etc. Los LLM con multimodalidad son más versátiles y abren las puertas a más aplicaciones de la IA generativa sin necesidad de preprocesamiento.

“Los modelos Gemini 1.5 están diseñados para manejar contextos extremadamente largos; tienen capacidad para recordar y razonar sobre información detallada de hasta al menos 10 millones de tokens. Esta escala no tiene precedentes entre los grandes modelos lingüísticos (LLM) contemporáneos, y permite procesar entradas de formato largo y modalidad mixta, como colecciones enteras de documentos, varias horas de vídeo y casi cinco días de audio”. – Informe DeepMind

Multimodalidad

Dabbas = vagón de tren en hindi. Demostrando la Multimodalidad y la actuación Multilingüe.

La multimodalidad también nos permite utilizar los LLM como sustitutos de otros servicios especializados. Por ejemplo OCR o Web Scraping. OCR en gemini

Extrae fácilmente datos de páginas web y transfórmalos.

Velocidad

El Flash Géminis 1,5, como su nombre indica, está diseñado para tener una ventaja sobre otros modelos en cuanto a tiempo de respuesta. Para el ejemplo de web scraping mencionado anteriormente, hay aproximadamente una diferencia de 2,5 segundos en el tiempo de respuesta, lo que supone casi un 40% más de rapidez, lo que hace que el Gemini 1.5 Flash sea una mejor opción para el uso de automatización o cualquier caso de uso que requiera una latencia más baja. Velocidad en Gemini 1.5 Pro

Algunos casos de uso interesantes de Gemini 1.5 Flash

Resumir vídeos

La comprensión de vídeo de Gemini 1.5 Pro es lo más infravalorado de la IA.

En ~50s, “vio” un vídeo de Youtube de 11min (~175k tokens) de los momentos más icónicos del deporte y fue capaz de enumerar perfectamente (que yo sepa) los 18 momentos. No hay otro vídeo AI tan bueno! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydas) 5 de abril de 2024

Escribir código utilizando vídeo

Esto es alucinante 🤯

Le di a Géminis 1,5 Flash grabándome de compras y me dio código Selenium en ~5 segundos. Esto puede cambiar muchas cosas. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) 18 de mayo de 2024

Automatizar el juego

Construí mi propio omniasistente utilizando Géminis 1.5 Flash para que me guiara por Super Mario 64.

Géminis puede ver lo que hago en mi pantalla y comunicarse conmigo en tiempo real mediante la voz, y gracias al largo contexto 1M, tiene memoria de todo lo que hacemos juntos. Increíble. pic.twitter.com/doTngufjFL – Pietro Schirano (@skirano) 21 de mayo de 2024

Gemini 1.5 Flash vs GPT-4o: ¿La respuesta de Google a GPT-4o?

Comparación de Gemini 1.5 Flash con GPT-4o

Ventana de contexto

Multimodalidad

Velocidad

Algunos casos de uso interesantes de Gemini 1.5 Flash

More From Our Blog

Incrustación Gemini 2: el primer modelo de incrustación multimodal de Google

Gemini 2.5 Pro and GPT-4.5: Who Leads the AI Revolution?

Build Your Own Business AI