LLaMA 2: el modelo de IA de código abierto de Meta

¿Merece la pena el nuevo LLM de la ciudad?

Hace un par de días, Meta lanzó su última versión de LLM llamada Llama 2 en colaboración con Microsoft. Si has estado siguiendo el bombo de LLM, es posible que ya hayas oído hablar de él o incluso hayas leído sobre sus nuevas características. Para simplificar las cosas, vamos a enumerar cuatro razones por las que Llama 2 está generando tanto revuelo y cómo se compara con algunos de los mejores LLM.

Gratuito para investigación y uso comercial

Una razón importante que ha captado el interés de la gente por Llama 2 es que Meta ha hecho que todo el modelo sea gratuito para casi todo el mundo, excepto para algunas grandes empresas que pueden tener ciertas condiciones. Este paso abre interesantes oportunidades para quienes estén pensando en crear su propia empresa o aventurarse en el mundo de la IA Generativa. Ahora es el momento perfecto para sumergirse en las aguas de la IA, sobre todo con un modelo lingüístico de este calibre de libre acceso. Aunque ya existían múltiples modelos de código abierto, ninguno de ellos procedía de una empresa de la talla de Meta y podía servir de competencia directa a GPT.

“Se han publicado LLM preentrenados (como BLOOM (Scao et al., 2022), LLaMa-1 (Touvron et al., 2023) y Falcon (Penedo et al., 2023)) que igualan el rendimiento de competidores cerrados preentrenados como GPT-3 (Brown et al., 2020) y Chinchilla (Hoffmann et al., 2022), pero ninguno de estos modelos es un sustituto adecuado de los LLM cerrados “de producto”, como ChatGPT, BARD y Claude.” – Metainvestigación

Seguridad

Según los informes publicados en el documento de investigación Meta, Llama 2 ha demostrado un rendimiento superior al de otros modelos de código abierto en los parámetros de utilidad y seguridad. Incluso ha superado a ChatGPT (modelos 7b, 13b, 70b) en estos aspectos. Sin embargo, es importante señalar que el documento de investigación reconoce la posibilidad de que los datos estén sesgados a favor de Llama 2, lo que debe tenerse en cuenta al interpretar los resultados. No obstante, aunque Llama 2 se acerque al punto de referencia ChatGPT, merece elogios.

Comparación de la violación del modelo Llama de código abierto de Meta

Uno de los factores que más contribuyen a la seguridad de Llama 2 es la privacidad de sus datos. A diferencia de algunos modelos, Llama 2 no requiere enviar sus datos a un servidor externo, como OpenAI, para obtener respuestas. Este atributo único hace que el modelo sea especialmente valioso para casos de uso críticos y delicados, ya que ayuda a salvaguardar los datos de los usuarios y a mantener su privacidad. Los usuarios pueden ejecutar el modelo en servidores privados con sus datos dentro de su infraestructura.

Código abierto

Los LLM más populares actualmente funcionan como cajas negras, y los usuarios tienen una visión limitada de su funcionamiento. En cambio, los modelos de código abierto ofrecen un enfoque transparente, que permite a los usuarios comprender su funcionamiento interno. Esta transparencia infunde confianza y seguridad a la hora de utilizar tales modelos, a pesar de los retos a los que puedan enfrentarse, como la generación de spam o desinformación.

Además, la naturaleza de código abierto de estos modelos fomenta los esfuerzos de colaboración, lo que conduce a una mejora y un desarrollo continuos en el campo de los LLM. En consecuencia, los modelos de código abierto desempeñan un papel crucial a la hora de impulsar los avances en el mundo de los modelos lingüísticos.

“Y creemos que es más seguro. Abrir el acceso a los modelos de IA actuales significa que una generación de desarrolladores e investigadores puede someterlos a pruebas de estrés, identificando y resolviendo problemas rápidamente, como una comunidad. Al ver cómo utilizan estas herramientas los demás, nuestros propios equipos pueden aprender de ellos, mejorar esas herramientas y corregir vulnerabilidades.” – Sitio web de Meta

Aunque Llama 2 tiene licencia abierta, Meta aún no ha revelado los datos con los que se ha entrenado, lo que sigue llamando la atención en cuanto a la privacidad de los datos de los usuarios de Meta. Meta afirma que “hizo un esfuerzo por eliminar datos de ciertos sitios conocidos por contener un alto volumen de información personal sobre particulares” en el documento de investigación Llama 2, pero no enumeró cuáles son esos sitios.

Rendimiento

Llama 2 está disponible en cuatro pesos diferentes: 7B, 13B, 34B y 70B. El peso representa el número de parámetros con los que se entrena el modelo. Por lo general, los parámetros de mayor tamaño dan lugar a respuestas más precisas y fiables, pero también requieren mayores recursos informáticos. Para mejorar las características humanas del modelo, Llama 2 se somete a un ajuste fino mediante la sintonización de instrucciones y el método RLHF (Reinforcement Learning with Human Feedback), que también utiliza GPT.

Aunque el tamaño de los parámetros de 70B es considerable, sigue quedándose corto en comparación con GPT-3.5, que tiene un tamaño de parámetros de 175B. Como resultado, es posible que el rendimiento de Llama 2 no iguale al de GPT-3.5, pero las pruebas de referencia indican una estrecha competencia incluso con su menor tamaño de parámetros. A pesar de esta diferencia, Llama 2 supera a todos los modelos de código abierto disponibles en la actualidad.

“RLHF” es un procedimiento de entrenamiento de modelos que se aplica a un modelo lingüístico afinado para alinear aún más comportamiento del modelo con preferencias humanas y seguimiento de instrucciones. Recogemos datos que representan preferencias humanas muestreadas empíricamente, mediante las cuales los anotadores humanos seleccionan cuál de los dos resultados del modelo prefieren. Este feedback humano se utiliza posteriormente para entrenar un modelo de recompensa, que aprende patrones en las preferencias de los anotadores humanos y puede entonces automatizar las decisiones de preferencia.” – Metainvestigación

Conclusión

De hecho, están surgiendo multitud de modelos de código abierto y, con el lanzamiento de Llama 2, las posibilidades parecen ilimitadas. Aunque es posible que estos modelos de código abierto tarden algún tiempo en competir directamente con algo tan avanzado como GPT-4, la emoción reside en conseguir un modelo que se acerque a las capacidades de GPT-3.5. Este progreso en sí mismo es realmente notable.

De cara al futuro, a medida que la formación LLM sea más eficiente, la posibilidad de disponer de un ChatGPT personalizado, ajustado con tus datos en tu dispositivo local, se convierte en una perspectiva tentadora. Una plataforma que ofrece estas capacidades es Cody, un asistente inteligente de IA hecho a medida para ayudar a las empresas en diversos aspectos. Al igual que ChatGPT, Cody puede ser entrenado en los datos de su negocio, equipo, procesos y clientes, utilizando su base de conocimientos única.

Con Cody, las empresas pueden aprovechar el poder de la IA para crear un asistente personalizado e inteligente que atienda específicamente a sus necesidades, lo que lo convierte en una prometedora incorporación al mundo de las soluciones empresariales basadas en IA.

Haga clic aquí para leer el Meta Research Paper sobre Llama 2. Prueba Llama 2 aquí.

LLaMA 2: el modelo de IA de código abierto de Meta

Gratuito para investigación y uso comercial

Seguridad

Código abierto

Rendimiento

Conclusión

More From Our Blog

Incrustación Gemini 2: el primer modelo de incrustación multimodal de Google

Gemini 2.5 Pro and GPT-4.5: Who Leads the AI Revolution?

Build Your Own Business AI