Falcon 180B و 40B: حالات الاستخدام والأداء والاختلاف

تميز Falcon LLM نفسها ليس فقط ببراعتها التقنية ولكن أيضا بطبيعتها مفتوحة المصدر ، مما يجعل قدرات الذكاء الاصطناعي المتقدمة في متناول جمهور أوسع. يقدم مجموعة من الطرز ، بما في ذلك Falcon 180B و 40B و 7.5B و 1.3B. تم تصميم كل نموذج لقدرات حسابية وحالات استخدام مختلفة.

نموذج 180B ، على سبيل المثال ، هو الأكبر والأقوى ، ومناسب للمهام المعقدة ، بينما يوفر طراز 1.3B خيارا يسهل الوصول إليه للتطبيقات الأقل تطلبا.

الطبيعة مفتوحة المصدر ل Falcon LLM ، ولا سيما طرازاتها 7B و 40B ، تكسر الحواجز التي تحول دون الوصول إلى التكنولوجيا الذكاء الاصطناعي. يعزز هذا النهج نظاما بيئيا الذكاء الاصطناعي أكثر شمولا حيث يمكن للأفراد والمؤسسات نشر هذه النماذج في بيئاتهم الخاصة ، وتشجيع الابتكار والتنوع في تطبيقات الذكاء الاصطناعي.

الصقر المقدس! 🤯

A 7B Falcon LLM يعمل على M1 Mac مع CoreML بسرعة 4+ رموز / ثانية. هذا هو. pic.twitter.com/9lmigrQIiY

— إيتمار الجولان 🤓 (@ItakGol) 3 يونيو، 2023

ما هو فالكون 40B؟

Falcon 40B هو جزء من مجموعة Falcon Large Language Model (LLM) ، المصممة خصيصا لسد الفجوة بين الكفاءة الحسابية العالية وقدرات الذكاء الاصطناعي المتقدمة. إنه نموذج الذكاء الاصطناعي توليدي مع 40 مليار معلمة ، ويقدم توازنا بين الأداء ومتطلبات الموارد.

تقديم فالكون-40B! 🚀

يجلس في الجزء العلوي من لوحة المتصدرين Open-LLM ، Falcon-40B تفوق على LLaMA و SableLM و MPT وما إلى ذلك.

متوفر في نظام HuggingFace البيئي ، إنه سهل الاستخدام للغاية! 🚀

تحقق من 👇 ذلك pic.twitter.com/YyXpXvNKKC

– أكشاي 🚀 (@akshay_pachaar) 28 مايو 2023

ماذا يمكن أن يفعل Falcon LLM 40B؟

Falcon 40B قادر على القيام بمجموعة واسعة من المهام ، بما في ذلك إنشاء المحتوى الإبداعي ، وحل المشكلات المعقدة ، وعمليات خدمة العملاء ، والمساعدة الافتراضية ، وترجمة اللغة ، وتحليل المشاعر.

هذا النموذج جدير بالملاحظة بشكل خاص لقدرته على أتمتة المهام المتكررة وتعزيز الكفاءة في مختلف الصناعات. Falcon يوفر 40B ، كونه مفتوح المصدر ، ميزة كبيرة من حيث إمكانية الوصول والابتكار ، مما يسمح باستخدامه وتعديله بحرية لأغراض تجارية.

كيف تم تطوير وتدريب Falcon 40B؟

تم تدريب Falcon 40 B على مجموعة بيانات REFINEDWEB الضخمة التي تبلغ 1 تريليون رمز ، وتضمن تطوير Falcon 40 B استخداما مكثفا لوحدات معالجة الرسومات ومعالجة البيانات المتطورة. خضعت Falcon 40B لعملية التدريب على AWS SageMaker باستخدام 384 وحدة معالجة رسومات A100 40GB ، باستخدام نهج التوازي ثلاثي الأبعاد الذي يجمع بين توازي Tensor (TP = 8) ، وتوازي خط الأنابيب (PP = 4) ، وتوازي البيانات (DP = 12) جنبا إلى جنب مع ZeRO. بدأت مرحلة التدريب هذه في ديسمبر 2022 واكتملت على مدار شهرين.

وقد زود هذا التدريب النموذج بفهم استثنائي للغة والسياق ، ووضع معيار جديد في مجال معالجة اللغة الطبيعية.

يعتمد التصميم المعماري ل Falcon 40B على إطار عمل GPT -3 ، لكنه يتضمن تعديلات كبيرة لتعزيز أدائه. يستخدم هذا النموذج التضمين الموضعي الدوار لتحسين فهمه لسياقات التسلسل.

يتم تعزيز آليات الانتباه الخاصة به باهتمام متعدد الاستعلامات و FlashAttention للمعالجة المثرية. في كتلة وحدة فك التشفير ، Falcon يدمج 40B الانتباه المتوازي وتكوينات Perceptron متعددة الطبقات (MLP) ، باستخدام نهج تطبيع مزدوج الطبقة للحفاظ على التوازن بين الكفاءة الحسابية والفعالية.

ما هو الصقر 180B؟

يمثل Falcon 180B قمة مجموعة Falcon LLM ، حيث تتميز بمعايير رائعة تبلغ 180 مليار معلمة. يتم تدريب نموذج فك التشفير السببي هذا على 3.5 تريليون رمز ضخم من RefinedWeb ، مما يجعله أحد أكثر LLMs مفتوحة المصدر المتاحة تقدما. تم بناؤه من قبل TII.

إنه يتفوق في مجموعة واسعة من مهام معالجة اللغة الطبيعية ، ويقدم قدرات لا مثيل لها في التفكير والترميز والكفاءة واختبارات المعرفة.

يضمن تدريبها على مجموعة بيانات RefinedWeb الشاملة ، والتي تتضمن مجموعة متنوعة من مصادر البيانات مثل الأوراق البحثية والنصوص القانونية والأخبار والأدب ومحادثات وسائل التواصل الاجتماعي ، كفاءتها في مختلف التطبيقات.

يعد إصدار Falcon 180 B علامة فارقة في تطوير الذكاء الاصطناعي ، حيث يعرض أداء رائعا في فهم اللغة متعددة المهام واختبارات القياس ، وينافس بل ويتفوق على نماذج الملكية الرائدة الأخرى.

كيف يعمل Falcon 180B؟

كتكرار متقدم لنموذج Falcon 40B من TII ، يعمل نموذج Falcon 180B كنموذج لغة الانحدار التلقائي مع بنية محولات محسنة.

تم تدريب هذا النموذج على 3.5 تريليون رمز بيانات واسع النطاق ، ويتضمن بيانات الويب التي تم الحصول عليها من RefinedWeb و Amazon SageMaker.

Falcon 180B يدمج إطار تدريب موزع مخصص يسمى Gigatron ، والذي يستخدم التوازي 3D مع تحسين ZeRO وحبات Trion المخصصة. كان تطوير هذه التكنولوجيا كثيف الاستخدام للموارد ، حيث استخدم ما يصل إلى 4096 وحدة معالجة رسومات لما مجموعه 7 ملايين ساعة من وحدة معالجة الرسومات. هذا التدريب المكثف يجعل Falcon 180B أكبر بحوالي 2.5 مرة من نظرائه مثل Llama 2.

يتوفر إصداران متميزان من Falcon 180B: الطراز القياسي 180B و 180B-Chat. الأول هو نموذج مدرب مسبقا ، مما يوفر المرونة للشركات لضبطه لتطبيقات محددة. تم تحسين الأخير ، 180B-Chat ، للتعليمات العامة وتم ضبطه على مجموعات البيانات التعليمية والمحادثة ، مما يجعله مناسبا للمهام على غرار المساعد.

كيف هو أداء Falcon 180B؟

من حيث الأداء ، عززت Falcon 180B مكانة دولة الإمارات العربية المتحدة في صناعة الذكاء الاصطناعي من خلال تقديم نتائج من الدرجة الأولى والتفوق على العديد من الحلول الحالية.

لقد حققت درجات عالية في لوحة المتصدرين Hugging Face وتتنافس بشكل وثيق مع نماذج الملكية مثل PaLM-2 من Google. على الرغم من كونه متأخرا قليلا عن GPT-4 ، Falcon يتيح التدريب المكثف ل 180 B على مجموعة نصية واسعة فهما استثنائيا للغة والكفاءة في المهام اللغوية المختلفة ، مما قد يحدث ثورة في تدريب روبوت Gen-الذكاء الاصطناعي.
ما يميز Falcon 180B هو بنيته المفتوحة ، مما يوفر الوصول إلى نموذج مع مجموعة معلمات واسعة ، وبالتالي تمكين البحث والاستكشاف في معالجة اللغة. توفر هذه القدرة العديد من الفرص عبر قطاعات مثل الرعاية الصحية والتمويل والتعليم.

كيفية الوصول Falcon 180B؟

الوصول إلى Falcon 180B متاح من خلال HuggingFace وموقع TII ، بما في ذلك المعاينة التجريبية لإصدار الدردشة. توفر AWS أيضا إمكانية الوصول عبر خدمة Amazon SageMaker JumpStart، مما يبسط نشر النموذج لمستخدمي الأعمال.

Falcon 40B مقابل 180B: ما الفرق؟

تتوفر نماذج Falcon-40B المدربة مسبقا والتعليمات بموجب ترخيص برنامج Apache 2.0 ، في حين أن نماذج Falcon-180B المدربة مسبقا ونماذج الدردشة متوفرة بموجب ترخيص TII. فيما يلي 4 اختلافات رئيسية أخرى بين Falcon 40B و 180B:

1. حجم النموذج وتعقيده

Falcon يحتوي 40B على 40 مليار معلمة ، مما يجعله نموذجا قويا وأكثر قابلية للإدارة من حيث الموارد الحسابية. Falcon 180B، من ناحية أخرى ، هو نموذج أكبر بكثير مع 180 مليار معلمة ، مما يوفر قدرات وتعقيدا محسنا.

2. التدريب واستخدام البيانات

Falcon يتم تدريب 40B على 1 تريليون رمز ، مما يوفر لها فهما واسعا للغة والسياق. Falcon 180B يتفوق على هذا بالتدريب على 3.5 تريليون رمز ، مما يؤدي إلى نموذج لغة أكثر دقة وتطورا.

3. التطبيقات وحالات الاستخدام

Falcon 40B مناسب لمجموعة واسعة من التطبيقات ذات الأغراض العامة ، بما في ذلك إنشاء المحتوى وخدمة العملاء وترجمة اللغة. Falcon 180B أكثر مهارة في التعامل مع المهام المعقدة التي تتطلب تفكيرا وفهما أعمق ، مما يجعلها مثالية لمشاريع البحث والتطوير المتقدمة.

4. الاحتياجات من الموارد

Falcon يتطلب 40B طاقة حسابية أقل للتشغيل ، مما يجعله في متناول مجموعة واسعة من المستخدمين والأنظمة. Falcon 180B ، نظرا لحجمها وتعقيدها ، تتطلب موارد حسابية أكثر بكثير ، وتستهدف التطبيقات المتطورة وبيئات البحث.

اقرأ أكثر: سهولة الاستخدام التجاري والتكنولوجيا مفتوحة المصدر ومستقبل Falcon LLM

F-FAQ (أسئلة الصقر الشائعة)

1. ما الذي يميز Falcon LLM عن نماذج اللغات الكبيرة الأخرى؟

Falcon LLM ، ولا سيما Falcon طرازات 180B و 40B ، تبرز بسبب طبيعتها مفتوحة المصدر وحجمها المثير للإعجاب. Falcon 180B ، مع 180 مليار معلمة ، هو واحد من أكبر النماذج مفتوحة المصدر المتاحة ، حيث تم تدريبه على 3.5 تريليون رمز مذهل. يسمح هذا التدريب المكثف بفهم اللغة بشكل استثنائي وتعدد الاستخدامات في التطبيقات. بالإضافة إلى ذلك ، فإن استخدام Falcon LLM للتقنيات المبتكرة مثل الاهتمام متعدد الاستعلامات وحبات Trion المخصصة في بنيتها يعزز كفاءتها وفعاليتها.

2. كيف Falcon تعمل آلية الانتباه متعدد الاستعلامات في 40B؟

Falcon يستخدم 40B آلية انتباه متعددة الاستعلامات فريدة من نوعها ، حيث يتم استخدام مفتاح واحد وزوج قيمة عبر جميع رؤوس الانتباه ، ويختلف عن مخططات الانتباه التقليدية متعددة الرؤوس. يعمل هذا النهج على تحسين قابلية تطوير النموذج أثناء الاستدلال دون التأثير بشكل كبير على عملية ما قبل التدريب ، مما يعزز الأداء العام للنموذج وكفاءته.

3. ما هي التطبيقات الرئيسية ل Falcon 40B و 180B؟

Falcon 40B متعدد الاستخدامات ومناسب لمختلف المهام بما في ذلك إنشاء المحتوى وخدمة العملاء وترجمة اللغة. Falcon 180B ، كونه أكثر تقدما ، يتفوق في المهام المعقدة التي تتطلب تفكيرا عميقا ، مثل البحث المتقدم والترميز وتقييمات الكفاءة واختبار المعرفة. كما أن تدريبها المكثف على مجموعات البيانات المتنوعة يجعلها أداة قوية لتدريب روبوت Gen-الذكاء الاصطناعي.

4. هل يمكن تخصيص Falcon LLM لحالات استخدام محددة؟

نعم ، إحدى المزايا الرئيسية ل Falcon LLM هي طبيعتها مفتوحة المصدر ، مما يسمح للمستخدمين بتخصيص النماذج وضبطها لتطبيقات محددة. يوفر Falcon يأتي طراز 180B ، على سبيل المثال ، في نسختين: نموذج قياسي مدرب مسبقا وإصدار محسن للدردشة ، كل منهما يلبي متطلبات مختلفة. تمكن هذه المرونة المؤسسات من تكييف النموذج مع احتياجاتها الفريدة.

5. ما هي المتطلبات الحسابية لتشغيل نماذج Falcon LLM؟

تشغيل Falcon نماذج LLM ، وخاصة المتغيرات الأكبر مثل Falcon 180B ، يتطلب موارد حسابية كبيرة. على سبيل المثال، Falcon يحتاج 180B إلى حوالي 640 جيجابايت من الذاكرة للاستدلال ، وحجمه الكبير يجعل من الصعب تشغيله على أنظمة الحوسبة القياسية. يجب مراعاة هذا الطلب المرتفع على الموارد عند التخطيط لاستخدام النموذج ، خاصة للعمليات المستمرة.

6. كيف تساهم فالكون ماجستير في البحث والتطوير الذكاء الاصطناعي؟

يساهم إطار عمل Falcon LLM مفتوح المصدر بشكل كبير في البحث والتطوير الذكاء الاصطناعي خلال توفير منصة للتعاون والابتكار العالميين. يمكن للباحثين والمطورين المساهمة في النموذج وتحسينه ، مما يؤدي إلى تطورات سريعة في الذكاء الاصطناعي. يضمن هذا النهج التعاوني أن تظل Falcon LLM في طليعة التكنولوجيا الذكاء الاصطناعي ، والتكيف مع الاحتياجات والتحديات المتطورة.

7. من سيفوز بين Falcon LLM و LLaMA؟

في هذه المقارنة ، يظهر فالكون كنموذج أكثر فائدة. حجم فالكون الأصغر يجعله أقل كثافة من الناحية الحسابية للتدريب والاستخدام ، وهو اعتبار مهم لأولئك الذين يبحثون عن حلول الذكاء الاصطناعي فعالة. إنه يتفوق في مهام مثل إنشاء النصوص وترجمة اللغة ومجموعة واسعة من إنشاء المحتوى الإبداعي ، مما يدل على درجة عالية من التنوع والكفاءة. بالإضافة إلى ذلك ، فإن قدرة Falcon على المساعدة في مهام الترميز تزيد من فائدتها في التطبيقات التكنولوجية المختلفة.

تذكر LLaMA-2؟

كان أفضل ماجستير مفتوح المصدر للشهر الماضي.

ليس بعد الآن!

مرحبا بكم فالكون -180B!

لقد أجريت مقارنة

جي بي تي-4 vs. فالكون-180B

النتائج غير متوقعة!

(إشارة مرجعية للرجوع إليها في المستقبل)

➤ أصوات الصقر أقل روبوتية

أسلوب الكتابة الافتراضي ل ChatGPT … pic.twitter.com/OqdcIvEBMe

– لوك سكاي وارد (@Olearningcurve) 8 سبتمبر 2023

من ناحية أخرى ، يواجه LLaMA ، على الرغم من كونه نموذجا هائلا في حد ذاته ، قيودا معينة في هذه المقارنة. يترجم حجمها الأكبر إلى نفقات حسابية أكبر في كل من التدريب والاستخدام ، والتي يمكن أن تكون عاملا مهما للمستخدمين ذوي الموارد المحدودة. من حيث الأداء ، لا تتطابق LLaMA تماما مع كفاءة Falcon في إنشاء النص وترجمة اللغات وإنشاء أنواع متنوعة من المحتوى الإبداعي. وعلاوة على ذلك، لا تمتد قدراته إلى مهام الترميز، مما يحد من إمكانية تطبيقه في السيناريوهات التي تتطلب مساعدة متصلة بالبرمجة.

في حين أن كلا من Falcon و LLaMA مثير للإعجاب في مجالات كل منهما ، فإن تصميم Falcon الأصغر والأكثر كفاءة ، إلى جانب مجموعة واسعة من القدرات ، بما في ذلك الترميز ، يمنحها ميزة في هذه المقارنة.