Author: Om Kamath

Om Kamath

¿Cómo Automatizar Tareas con las Herramientas y Claude 3 de Anthropic?

Cómo empezar a utilizar las Herramientas Antrópicas

La mayor ventaja de emplear LLM para tareas es su versatilidad. Los LLM pueden impulsarse de formas específicas para servir a un sinfín de propósitos, funcionando como API para la generación de texto o convirtiendo datos no estructurados en formatos organizados. Muchos de nosotros recurrimos a ChatGPT para nuestras tareas diarias, ya sea redactar correos electrónicos o participar en debates lúdicos con la IA.

La arquitectura de los plugins, también conocidos como “GPT”, gira en torno a la identificación de palabras clave a partir de respuestas y consultas y la ejecución de las funciones pertinentes. Estos plugins permiten interactuar con aplicaciones externas o activar funciones personalizadas.

Mientras que OpenAI fue pionera en permitir llamadas a funciones externas para la ejecución de tareas, Anthropic ha introducido recientemente una función mejorada llamada “Uso de herramientas”, que sustituye a su anterior mecanismo de llamada a funciones. Esta versión actualizada simplifica el desarrollo utilizando JSON en lugar de etiquetas XML. Además, Claude-3 Opus tiene una ventaja sobre los modelos GPT con su mayor ventana de contexto de 200.000 fichas, especialmente valiosa en escenarios específicos.

En este blog, exploraremos el concepto de “Uso de herramientas”, discutiremos sus características y ofreceremos orientación para empezar.

¿Qué es el “uso de herramientas”?

Claude tiene capacidad para interactuar con herramientas y funciones externas del lado del cliente, lo que te permite equipar a Claude con tus propias herramientas personalizadas para una gama más amplia de tareas.

El flujo de trabajo para utilizar Herramientas con Claude es el siguiente:

  1. Proporcionar a Claude herramientas y una solicitud de usuario (solicitud API)
    • Define un conjunto de herramientas para que Claude pueda elegir.
    • Inclúyelos junto con la consulta del usuario en la consulta de generación de texto.
  2. Claude selecciona una herramienta
    • Claude analiza la petición del usuario y la compara con todas las herramientas disponibles para seleccionar la más relevante.
    • Utilizando el proceso de “pensamiento” del LLM, identifica las palabras clave necesarias para la herramienta correspondiente.
  3. Generación de respuesta (Respuesta API)
    • Al finalizar el proceso, se genera como salida la petición de pensamiento, junto con la herramienta y los parámetros seleccionados.

Tras este proceso, ejecuta la función/herramienta seleccionada y utiliza su salida para generar otra respuesta si es necesario.

Esquema general de la herramienta

Esquema
Este esquema sirve para comunicar al LLM los requisitos del proceso de llamada a la función. No llama directamente a ninguna función ni desencadena ninguna acción por sí mismo. Para garantizar una identificación precisa de las herramientas, debe facilitarse una descripción detallada de cada una de ellas. Properties del esquema se utilizan para identificar los parámetros que se pasarán posteriormente a la función.

Demostración

Vamos a construir herramientas para rastrear la web y encontrar el precio de cualquier acción.

Herramientas Esquema

Código 1

En la herramienta scrape_website, se obtendrá la URL del sitio web desde la petición del usuario. En cuanto a la herramienta stock_price, identificará el nombre de la empresa a partir de la consulta del usuario y lo convertirá en un ticker yfinance.

Pregunta al usuario

Código 2

Haciendo al bot dos consultas, una para cada herramienta, obtenemos los siguientes resultados:

Código 3

El proceso de reflexión enumera todos los pasos que sigue el LLM para seleccionar con precisión la herramienta correcta para cada consulta y ejecutar las conversiones necesarias, tal como se describe en las descripciones de las herramientas.

Seleccionar la herramienta adecuada

Tendremos que escribir algún código adicional que active las funciones pertinentes en función de las condiciones.

Código 4

Esta función sirve para activar el código apropiado basándose en el nombre de la herramienta recuperado en la respuesta LLM. En la primera condición, raspamos la URL del sitio web obtenida de la entrada Herramienta, mientras que en la segunda condición, obtenemos el ticker de la acción y lo pasamos a la biblioteca python yfinance.

Ejecutar las funciones

Pasaremos el ToolUseBlock completo en la función select_tool() para activar el código correspondiente.

Salidas

  1. Primera preguntaCódigo 5
  2. Segunda preguntaCódigo 4

Si quieres ver el código fuente completo de esta demostración, puedes consultar este cuaderno.

Algunos casos prácticos

La función “uso de herramientas” para Claude eleva la versatilidad de la LLM a un nivel completamente nuevo. Aunque el ejemplo proporcionado es fundamental, sirve de base para ampliar la funcionalidad. He aquí una aplicación real de la misma:

Para encontrar más casos de uso, puedes visitar el repositorio oficial de Anthropic
aquí
.

Los mejores espacios para abrazar la cara que deberías visitar en 2024

Hugging Face se ha convertido rápidamente en una plataforma de referencia en la comunidad del aprendizaje automático, con un amplio conjunto de herramientas y modelos para la PNL, la visión por ordenador y otros campos. Una de sus ofertas más populares es Hugging Face Spaces, una plataforma colaborativa donde los desarrolladores pueden compartir aplicaciones y demostraciones de aprendizaje automático. Estos “espacios” permiten a los usuarios interactuar directamente con los modelos, ofreciendo una experiencia práctica con la tecnología de IA de vanguardia.

En este artículo, destacaremos cinco destacados Espacios de Caras Abrazadas que deberías visitar en 2024. Cada uno de estos espacios proporciona una herramienta o generador único que aprovecha el inmenso poder de los modelos actuales de IA. Profundicemos en los detalles.

EpicrealismXL

Epicrealismxl es un generador de texto a imagen de última generación que utiliza el modelo epicrealism-xl de stablediffusion. Este espacio te permite proporcionar a la aplicación una indicación, indicaciones negativas y pasos de muestreo para generar imágenes impresionantes. Tanto si eres un artista en busca de inspiración como un comercial en busca de elementos visuales, epicrealismxl ofrece una generación de imágenes de alta calidad que es tan realista como épica.

Podcastify

Podcastify revoluciona la forma de consumir contenido escrito convirtiendo artículos en podcasts de audio escuchables. Sólo tienes que pegar la URL del artículo que deseas convertir en el cuadro de texto, hacer clic en “Podcastify” y ¡voilá! Tienes un podcast recién generado listo para que lo escuches o lo veas en la pestaña de conversación. Esta herramienta es perfecta para las personas multitarea que prefieren el aprendizaje auditivo o para las personas que se desplazan.

Dalle-3-xl-lora-v2

Otro generador estelar de texto a imagen, dalle-3-xl-lora-v2, utiliza el infame modelo DALL-E 3. De funcionamiento similar a epicrealismxl, esta herramienta te permite generar imágenes a partir de indicaciones textuales. DALL-E 3 es conocido por su versatilidad y creatividad, lo que lo convierte en una opción excelente para generar visuales complejos y únicos para diversas aplicaciones.

AI Web Scraper

AI Scraper pone a tu alcance funciones avanzadas de raspado web sin necesidad de conocimientos de programación. Esta herramienta sin código te permite raspar y resumir fácilmente contenido web utilizando modelos avanzados de IA alojados en Hugging Face Hub. Introduce la petición que desees y la URL de origen para empezar a extraer información útil en formato JSON. Esta herramienta es indispensable para periodistas, investigadores y creadores de contenidos.

Generador de códigos QR AI

Generador de códigos QR AI

El Generador de Códigos QR AI lleva tus códigos QR a un nivel artístico totalmente nuevo. Al utilizar la imagen del código QR como imagen inicial y de control, esta herramienta te permite generar Códigos QR que se funden de forma natural con el aviso que proporciones. Ajusta los parámetros de la báscula de fuerza y acondicionamiento para crear códigos QR estéticamente agradables que sean a la vez funcionales y bonitos.

Conclusión

Los Espacios Cara Abrazo son un testimonio de los rápidos avances en el aprendizaje automático y la IA. Tanto si eres un artista, un creador de contenidos, un vendedor o simplemente un entusiasta de la IA, estos cinco espacios principales ofrecen diversas herramientas y generadores que pueden mejorar tu flujo de trabajo y encender tu creatividad. Asegúrate de explorar estos espacios para mantenerte a la vanguardia en 2024. Si quieres conocer los 5 mejores LLM de código abierto en 2024, lee nuestro blog aquí.

Gemini 1.5 Flash vs GPT-4o: ¿La respuesta de Google a GPT-4o?

La carrera de la IA se ha intensificado, convirtiéndose en un juego de ponerse al día entre los grandes actores de la tecnología. El lanzamiento de GPT-4o justo antes de Google I/O no es una coincidencia. Las increíbles capacidades de GPT-4o en multimodalidad, u omnimodalidad para ser precisos, han creado un impacto significativo en la competición de IA Generativa. Sin embargo, Google no es de los que se contienen. Durante el Google I/O, anunciaron nuevas variantes de sus modelos Gemini y Gemma. Entre todos los modelos anunciados, el Gemini 1.5 Flash destaca como el más impactante. En este blog, exploraremos las principales características del Gemini 1.5 Flash y lo compararemos con el Gemini 1.5 Pro y el Gemini 1.5 Flash frente al GPT-4o para determinar cuál es mejor.

Comparación de Gemini 1.5 Flash con GPT-4o

Según las puntuaciones de los puntos de referencia publicados por Google, el Gemini 1.5 Flash tiene un rendimiento superior en audio en comparación con todos los demás LLM de Google y está a la par con el modelo Gemini 1.5 Pro saliente (Feb 2024) en otros puntos de referencia. Aunque no recomendaríamos confiar totalmente en los puntos de referencia para evaluar el rendimiento de cualquier LLM, ayudan a cuantificar la diferencia de rendimiento y las pequeñas mejoras. Puntos de referencia de Flash Gemini 1.5 El elefante en la habitación es el coste del Flash Gemini 1,5. Comparado con el GPT-4o, el Gemini 1,5 Flash es mucho más asequible. Precio de Géminis

Precio de Géminis

Precio de GPT

Ventana de contexto

Al igual que el Gemini 1.5 Pro, el Flash viene con una ventana de contexto de 1 millón de tokens, que es más que cualquiera de los modelos de OpenAI y es una de las ventanas de contexto más grandes para los LLM de nivel de producción. Una ventana de contexto más grande permite una mayor comprensión de los datos y puede mejorar las técnicas de terceros, como la RAG (Generación Mejorada de Recuperación) para casos de uso con una gran base de conocimientos, al aumentar el tamaño del trozo. Además, una ventana contextual más grande permite generar más texto, lo que resulta útil en situaciones como la redacción de artículos, correos electrónicos y comunicados de prensa.

Multimodalidad

Gemini-1.5 Flash es multimodal. La multimodalidad permite introducir el contexto en forma de audio, vídeo, documentos, etc. Los LLM con multimodalidad son más versátiles y abren las puertas a más aplicaciones de la IA generativa sin necesidad de preprocesamiento.

“Los modelos Gemini 1.5 están diseñados para manejar contextos extremadamente largos; tienen capacidad para recordar y razonar sobre información detallada de hasta al menos 10 millones de tokens. Esta escala no tiene precedentes entre los grandes modelos lingüísticos (LLM) contemporáneos, y permite procesar entradas de formato largo y modalidad mixta, como colecciones enteras de documentos, varias horas de vídeo y casi cinco días de audio”. – Informe DeepMind

Multimodalidad

Dabbas = vagón de tren en hindi. Demostrando la Multimodalidad y la actuación Multilingüe.

La multimodalidad también nos permite utilizar los LLM como sustitutos de otros servicios especializados. Por ejemplo OCR o Web Scraping. OCR en gemini

Extrae fácilmente datos de páginas web y transfórmalos.

Velocidad

El Flash Géminis 1,5, como su nombre indica, está diseñado para tener una ventaja sobre otros modelos en cuanto a tiempo de respuesta. Para el ejemplo de web scraping mencionado anteriormente, hay aproximadamente una diferencia de 2,5 segundos en el tiempo de respuesta, lo que supone casi un 40% más de rapidez, lo que hace que el Gemini 1.5 Flash sea una mejor opción para el uso de automatización o cualquier caso de uso que requiera una latencia más baja. Velocidad en Gemini 1.5 Pro

Algunos casos de uso interesantes de Gemini 1.5 Flash

Resumir vídeos


Escribir código utilizando vídeo

Automatizar el juego

GPT-4o: OpenAI desvela su último modelo lingüístico, disponible gratuitamente para los usuarios

GPT-4o

Tras un montón de especulaciones en las redes sociales y otros foros sobre lo que OpenAI nos tiene reservado, ayer OpenAI reveló por fin su último y más potente LLM hasta la fecha: el GPT-4o (“o” de omni). Por si te perdiste el evento de lanzamiento de GPT-4o, repasemos las capacidades de GPT-4o y las funciones que ofrece.

Capacidades mejoradas de audio, texto y visión

GPT-4 Turbo es un modelo potente, pero tiene un inconveniente: la latencia. En comparación con la GPT-3.5 Turbo, la GPT-4 Turbo sigue siendo considerablemente más lenta. GPT-4o soluciona este inconveniente y es 2 veces más rápido que GPT-4 Turbo. Esto abre un espectro más amplio de casos de uso que implican la integración de datos de voz, texto y visión, dando un paso más allá de lo multimodal a lo omnimodal. La principal diferencia entre multimodal y omnimodal es que, en omnimodal, las tres fuentes pueden funcionar perfectamente en paralelo.

Estas mejoras también permiten al modelo generar habla con una modulación de voz mejorada, capacidad para entender el sarcasmo y habilidades conversacionales naturales mejoradas.

Precio reducido y disponible gratuitamente para los usuarios de ChatGPT

Aunque la GPT-4o es más eficaz y rápida que la GPT-4 Turbo saliente, tiene la mitad de precio (API) que la GPT-4 Turbo, lo que significa que la GPT-4o costará 5,00 US$/1M de fichas de entrada y 15,00 US$/1M de fichas de salida. Con la mejora de los precios, la ventana contextual es ahora de 128k tokens, y la fecha límite de conocimiento es octubre de 2023.

Como guinda del pastel, la GPT-4o estará disponible para todos los usuarios de ChatGPT de forma gratuita (los usuarios de ChatGPT Plus tendrán un límite de 5x para la GPT-4o). Junto a esto, OpenAI también presentó la aplicación de escritorio ChatGPT, que permitirá a los usuarios hacer uso de las capacidades de visión de GPT-4o para leer y comprender el contenido que se muestra en la pantalla. Los usuarios también podrán hablar con ChatGPT utilizando la aplicación de escritorio.

Demo GPT-4o

 

OpenAI ha declarado que está desplegando el acceso a GPT-4o por etapas a lo largo de las próximas semanas, y que los usuarios de ChatGPT Plus tendrán prioridad y acceso anticipado al modelo. Sólo comprenderemos el verdadero potencial de este modelo cuando tengamos acceso a él en las próximas semanas. ¡Nos esperan tiempos emocionantes!

Groq y Llama 3: Un dúo que cambia el juego

Hace un par de meses, una nueva empresa llamada “Groq” surgió aparentemente de la nada, haciendo un gran avance en la industria de la IA. Proporcionaron una plataforma para que los desarrolladores accedieran a las LPU como motores de inferencia para los LLM, especialmente los de código abierto como Llama, Mixtral y Gemma. En este blog, vamos a explorar qué hace que Groq sea tan especial y a profundizar en la maravilla que hay detrás de las LPU.

¿Qué es Groq?

“Groq tiene la misión de establecer el estándar para la velocidad de inferencia de GenAI, ayudando a que las aplicaciones de IA en tiempo real cobren vida hoy”. – El sitio web de Groq

Groq no es una empresa que desarrolle LLMs como GPT o Gemini. En cambio, Groq se centra en mejorar los fundamentos de estos grandes modelos lingüísticos: el hardware sobre el que funcionan. Sirve de “motor de inferencia”. Actualmente, la mayoría de los LLM del mercado utilizan GPU tradicionales desplegadas en servidores privados o en la nube. Aunque estas GPU son caras y potentes, y proceden de empresas como Nvidia, siguen basándose en la arquitectura tradicional de GPU, que puede no ser la más adecuada para la inferencia LLM (aunque siguen siendo potentes y las preferidas para los modelos de entrenamiento).

El motor de inferencia proporcionado por Groq funciona sobre LPUs – Unidades de Procesamiento del Lenguaje.

¿Qué es una LPU?

Una Unidad de Procesamiento Lingüístico es un chip diseñado específicamente para los LLM y se basa en una arquitectura única que combina CPU y GPU para transformar el ritmo, la previsibilidad, el rendimiento y la precisión de las soluciones de IA para los LLM.

LPU Unidad de Procesamiento Lingüístico de Groq

Atributos clave de un sistema LPU. Créditos: Groq

Un sistema LPU tiene tanto o más cálculo que un procesador gráfico (GPU) y reduce el tiempo de cálculo por palabra, lo que permite generar secuencias de texto más rápidamente.

Características de un motor de inferencia LPU según la lista del sitio web de Groq:

  • Rendimiento secuencial excepcional
  • Arquitectura mononúcleo
  • Red sincrónica que se mantiene incluso en despliegues a gran escala
  • Capacidad de autocompilación >50B LLMs
  • Acceso instantáneo a la memoria
  • Alta precisión que se mantiene incluso a niveles de precisión más bajos

Servicios prestados por Groq:

  1. GroqCloud: LPUs en la nube
  2. GroqRack: rack de 42U con hasta 64 chips interconectados
  3. GroqNode: Sistema informático escalable de 4U preparado para rack que incluye ocho aceleradores GroqCard™ interconectados
  4. GroqCard: Un único chip en un factor de forma estándar PCIe Gen 4×16 que proporciona una integración sin problemas en el servidor

“A diferencia de la CPU que se diseñó para hacer un tipo de tarea completamente diferente a la IA, o de la GPU que se diseñó basándose en la CPU para hacer algo parecido a la IA por accidente, o de la TPU que modificó la GPU para hacerla mejor para la IA, Groq es desde el principio, primeros principios, un sistema informático para la IA”- Daniel Warfield, Towards Data Science

Para saber más sobre en qué se diferencian las LPU de las GPU, las TPU y las CPU, te recomendamos que leas este completo artículo escrito por Daniel Warfield para Towards Data Science.

¿Para qué sirve Groq?

Los LLM son increíblemente potentes, capaces de realizar tareas que van desde analizar datos no estructurados hasta responder preguntas sobre la ternura de los gatos. Sin embargo, su principal inconveniente reside actualmente en el tiempo de respuesta. La lentitud del tiempo de respuesta provoca una latencia significativa cuando se utilizan LLM en procesos backend. Por ejemplo, obtener datos de una base de datos y mostrarlos en formato JSON es actualmente mucho más rápido cuando se hace utilizando la lógica tradicional en lugar de pasar los datos por un LLM para su transformación. Sin embargo, la ventaja de los LLM reside en su capacidad para comprender y manejar las excepciones de datos.

Con la increíble velocidad de inferencia que ofrece Groq, este inconveniente de los LLM puede reducirse enormemente. Esto abre casos de uso mejores y más amplios para los LLM y reduce los costes, ya que con una LPU podrás desplegar modelos de código abierto que son mucho más baratos de ejecutar con tiempos de respuesta realmente rápidos.

Llama 3 en Groq

Hace un par de semanas, Meta presentó su última iteración del ya potente y muy capaz LLM-Llama 3 de código abierto. Junto a las mejoras típicas de velocidad, comprensión de datos y generación de fichas, destacan dos mejoras significativas:

  1. Entrenado en un conjunto de datos 7 veces mayor que Llama 2, con 4 veces más código.
  2. Duplicada la longitud del contexto a 8.000 fichas.

Llama 2 ya era un formidable LLM de código abierto, pero con estas dos actualizaciones, se espera que el rendimiento de Llama 3 aumente significativamente.

Puntos de referencia de Llama 3

Puntos de referencia de Llama 3

Para probar Llama 3, tienes la opción de utilizar Meta AI o el patio de recreo Groq. Mostraremos el rendimiento de Groq probándolo con Llama 3.

Parque infantil Groq

Actualmente, el parque infantil Groq ofrece acceso gratuito a Gemma 7B, Llama 3 70B y 8B, y Mixtral 8x7b. El campo de juego te permite ajustar parámetros como la temperatura, el máximo de fichas y la alternancia de secuencias. Además, cuenta con un modo JSON dedicado para generar sólo salida JSON.

Sólo 402 ms para la inferencia a un ritmo de 901 tokens/s

Sólo 402 ms para la inferencia a un ritmo de 901 tokens/s

Sólo 402 ms para la inferencia a un ritmo de 901 tokens/s

Llegando al dominio/aplicación más impactante en mi opinión, la extracción y transformación de datos:

Pedir al modelo que extraiga información útil y proporcionar un JSON utilizando el modo JSON.

Pedir al modelo que extraiga información útil y proporcionar un JSON utilizando el modo JSON.

La extracción y transformación a formato JSON se completó en menos de medio segundo.

La extracción y transformación a formato JSON se completó en menos de medio segundo.

Conclusión

Como se ha demostrado, Groq ha surgido como un cambio de juego en el panorama del LLM con su innovador motor de inferencia LPU. La rápida transformación que aquí se muestra es un indicio del inmenso potencial para acelerar las aplicaciones de la IA. De cara al futuro, sólo cabe especular sobre las futuras innovaciones de Groq. Tal vez, una Unidad de Procesamiento de Imágenes podría revolucionar los modelos de generación de imágenes, contribuyendo a los avances en la generación de vídeo con IA. En efecto, es un futuro apasionante que anticipar.

De cara al futuro, a medida que la formación LLM sea más eficiente, la posibilidad de disponer de un ChatGPT personalizado, ajustado con tus datos en tu dispositivo local, se convierte en una perspectiva tentadora. Una plataforma que ofrece estas capacidades es Cody, un asistente inteligente de IA hecho a medida para ayudar a las empresas en diversos aspectos. Al igual que ChatGPT, Cody puede ser entrenado en los datos de su negocio, equipo, procesos y clientes, utilizando su base de conocimientos única.

Con Cody, las empresas pueden aprovechar el poder de la IA para crear un asistente personalizado e inteligente que atienda específicamente a sus necesidades, lo que lo convierte en una prometedora incorporación al mundo de las soluciones empresariales basadas en IA.

Los 5 mejores LLM gratuitos de código abierto en 2024

Los LLM son omnipresentes hoy en día y no necesitan presentación. Tanto si te dedicas a la tecnología como si no, lo más probable es que te hayas encontrado o estés utilizando alguna forma de LLM a diario. Los LLM más destacados en la actualidad son GPT de OpenAI, Claude de Anthropic y Gemini de Google.

Sin embargo, estos populares LLM funcionan a menudo como sistemas abstractos o de caja negra, lo que suscita preocupación por la privacidad y la transparencia de los datos. Para solucionar estos problemas, existen varios LLM de código abierto que permiten a los usuarios implantarlos en máquinas o servidores privados con toda tranquilidad.

Por código abierto se entiende el software o los productos distribuidos con su código fuente disponible libremente para su inspección, modificación y distribución. Esta accesibilidad permite a los usuarios comprender, mejorar y contribuir al desarrollo del software.

Estos son algunos de los mejores LLM de código abierto disponibles en la actualidad:

Llama 2

LLaMA 2: el modelo de IA de código abierto de Meta

Llama 2 es un LLM de código abierto desarrollado por Meta, que se ofrece gratuitamente con fines comerciales y de investigación. Los modelos Llama 2 se han entrenado con dos billones de fichas y tienen el doble de longitud de contexto que Llama 1.

Los parámetros del modelo influyen directamente en su capacidad de comprensión del texto, y los modelos más grandes ofrecen un mejor rendimiento a costa de un aumento de tamaño y de los recursos necesarios.

Variantes disponibles: Parámetros 7B, 13B y 70B

Ventana de contexto: 4096 fichas

Idiomas admitidos: Funciona mejor en inglés

Mixtral 8x7B

Mistral AI presenta Mixtral 8x7B, un LLM de código abierto que, según afirma, está a la altura de GPT 3.5

Mixtral 8x7B, desarrollado por Mistral AI, es un LLM que contiene 46,7B parámetros totales. A pesar de su tamaño, mantiene una velocidad de inferencia y un coste similares a los modelos de un tercio de su tamaño. Este modelo de Transformador de Mezcla de Expertos (MoE) supera con creces a LLama 2 y GPT-3.5 en algunas pruebas.

Variantes disponibles: Pequeño, Pequeño, Mediano y Grande (desde económico hasta de alto rendimiento)

Ventana de contexto: 32000 fichas (en Mistral Large)

Idiomas admitidos: Inglés, francés, español, alemán, italiano (en Mistral Large)

Halcón

El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos lanza un modelo de gran lenguaje

Falcon, desarrollado por el Technology Innovation Institute (TII) de Abu Dhabi, es otro de los principales LLM de código abierto. Tras su lanzamiento, Falcon 40B ocupó durante dos meses el primer puesto en la clasificación de Hugging Face de grandes modelos lingüísticos (LLM) de código abierto. Con la variante 180B, TII mejora aún más los conocimientos y la capacidad de comprensión de datos del modelo. Falcon 180B es un modelo lingüístico superpotente entrenado con 3,5 billones de tokens.

Variantes disponibles: Falcon 40B y Falcon 180B

Ventana de contexto: 4096 fichas

Idiomas admitidos: Inglés, alemán, español, francés, con soporte limitado para italiano, portugués, polaco, holandés, rumano, checo y sueco.

BLOOM

BLOOM

BLOOM es un Large Language Model (LLM) autorregresivo desarrollado por Big Science. BLOOM, entrenado en 176B parámetros, destaca en la generación de continuaciones de texto a partir de prompts utilizando grandes cantidades de datos de texto y recursos computacionales a escala industrial.

Variantes disponibles: bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, bloom 176B

Ventana de contexto: 2048 fichas

Lenguas admitidas: 46 lenguas naturales (con cantidades variables de datos, desde el 30% del inglés hasta el 0,00002% del chi tumbuka).

Gemma

Gemma] Construyendo un asistente de IA para la ciencia de datos 🤖

Gemma, el último LLM abierto de última generación de Google, es la continuación del éxito de Gemini. Gemma es una familia de Large Language Models (LLM) de ponderación abierta de Google DeepMind, basada en la investigación y la tecnología de Gemini. Aunque los pesos del modelo son de libre acceso, las condiciones específicas de uso, redistribución y propiedad de variantes pueden variar y podrían no estar basadas en una licencia de código abierto.

Variantes disponibles: Gemma 2B y Gemma 7B

Ventana de contexto: 8192 fichas

Idiomas admitidos: Inglés

Conclusión

En Cody priorizamos un enfoque agnóstico del modelo cuando se trata de LLMs, ofreciendo una plataforma que te permite construir bots personalizados adaptados a tu caso de uso único. Con una amplia gama de opciones de LLM disponibles, no estás restringido a un único proveedor, lo que te da la libertad de elegir el que mejor se adapte a tus necesidades.

A través de Cody, las empresas pueden aprovechar la IA para desarrollar asistentes inteligentes adaptados a sus necesidades concretas. Esta flexibilidad convierte a Cody en una prometedora incorporación al ámbito de las soluciones empresariales basadas en IA.