Author: Om Kamath

Om Kamath

كيفية أتمتة المهام باستخدام أدوات Anthropic و Claude 3؟

الشروع في العمل مع أدوات الأنثروبولوجيا

أكبر فائدة من استخدام LLMs للمهام هي تنوعها. يمكن مطالبة LLMs بطرق محددة لخدمة عدد لا يحصى من الأغراض ، وتعمل كواجهات برمجة تطبيقات لإنشاء النص أو تحويل البيانات غير المهيكلة إلى تنسيقات منظمة. يلجأ الكثير منا إلى ChatGPT لمهامنا اليومية ، سواء كان ذلك في إنشاء رسائل بريد إلكتروني أو الانخراط في مناقشات مرحة مع الذكاء الاصطناعي.

تدور بنية المكونات الإضافية ، والمعروفة أيضا باسم “GPTs” ، حول تحديد الكلمات الرئيسية من الردود والاستعلامات وتنفيذ الوظائف ذات الصلة. تتيح هذه المكونات الإضافية التفاعل مع التطبيقات الخارجية أو تشغيل وظائف مخصصة.

بينما قادت OpenAI الطريق في تمكين استدعاءات الوظائف الخارجية لتنفيذ المهام ، قدمت Anthropic مؤخرا ميزة محسنة تسمى “استخدام الأدوات” ، لتحل محل آلية استدعاء الوظائف السابقة. يبسط هذا الإصدار المحدث التطوير من خلال استخدام JSON بدلا من علامات XML. بالإضافة إلى ذلك ، تفتخر Claude-3 Opus بميزة على طرازات GPT مع نافذة السياق الأكبر التي تبلغ 200 ألف رمز ، وهي قيمة خاصة في سيناريوهات محددة.

في هذه المدونة ، سوف نستكشف مفهوم “استخدام الأدوات” ، ونناقش ميزاته ، ونقدم إرشادات حول البدء.

ما هو “استخدام الأداة”؟

يتمتع كلود بالقدرة على التفاعل مع الأدوات والوظائف الخارجية من جانب العميل، مما يتيح لك تزويد كلود بأدواتك المخصصة لمجموعة واسعة من المهام.

سير العمل لاستخدام أدوات مع كلود هو كما يلي:

  1. تزويد كلود بالأدوات وموجه المستخدم (طلب واجهة برمجة التطبيقات)
    • حدد مجموعة من الأدوات ليختار كلود من بينها.
    • قم بتضمينها مع استعلام المستخدم في موجه إنشاء النص.
  2. كلود يختار أداة
    • يحلل كلود موجه المستخدم ويقارنه بجميع الأدوات المتاحة لتحديد الأداة الأكثر صلة.
    • باستخدام عملية “التفكير” الخاصة ب LLM ، فإنه يحدد الكلمات الرئيسية المطلوبة للأداة ذات الصلة.
  3. توليد الاستجابة (استجابة API)
    • عند الانتهاء من العملية ، يتم إنشاء موجه التفكير ، جنبا إلى جنب مع الأداة والمعلمات المحددة ، كمخرجات.

بعد هذه العملية ، تقوم بتنفيذ الوظيفة / الأداة المحددة واستخدام مخرجاتها لإنشاء استجابة أخرى إذا لزم الأمر.

المخطط العام للأداة

مخطط
يعمل هذا المخطط كوسيلة لتوصيل متطلبات عملية استدعاء الوظيفة إلى LLM. لا يستدعي مباشرة أي وظيفة أو يؤدي إلى أي إجراء من تلقاء نفسه. لضمان التحديد الدقيق للأدوات ، يجب تقديم وصف مفصل لكل أداة. Properties داخل المخطط يتم استخدامها لتحديد المعلمات التي سيتم تمريرها إلى الوظيفة في مرحلة لاحقة.

مظاهره

دعنا نمضي قدما ونبني أدوات لكشط الويب وإيجاد سعر أي سهم.

مخطط الأدوات

رمز 1

في الأداة scrape_website ، ستجلب عنوان URL لموقع الويب من موجه المستخدم. بالنسبة للأداة stock_price ، ستحدد اسم الشركة من موجه المستخدم وتحوله إلى شريط yfinance.

موجه المستخدم

رمز 2

طرح استعلامين على الروبوت ، واحد لكل أداة ، يعطينا المخرجات التالية:

رمز 3

تسرد عملية التفكير جميع الخطوات التي اتخذتها LLM لتحديد الأداة الصحيحة بدقة لكل استعلام وتنفيذ التحويلات اللازمة كما هو موضح في أوصاف الأداة.

اختيار الأداة ذات الصلة

سيتعين علينا كتابة بعض التعليمات البرمجية الإضافية التي ستؤدي إلى تشغيل الوظائف ذات الصلة بناء على الظروف.

رمز 4

تعمل هذه الوظيفة على تنشيط التعليمات البرمجية المناسبة بناء على اسم الأداة الذي تم استرداده في استجابة LLM. في الحالة الأولى ، نقوم بكشط عنوان URL لموقع الويب الذي تم الحصول عليه من إدخال الأداة ، بينما في الحالة الثانية ، نجلب مؤشر الأسهم ونمرره إلى مكتبة yfinance python.

تنفيذ الوظائف

سنقوم بتمرير الوظيفة بالكامل ToolUseBlock select_tool() لتشغيل الكود ذي الصلة.

النواتج

  1. الموجه الأولرمز 5
  2. الموجه الثانيرمز 4

إذا كنت تريد عرض التعليمات البرمجية المصدر بالكامل لهذا العرض التوضيحي، يمكنك عرض دفتر الملاحظات هذا.

بعض حالات الاستخدام

تعمل ميزة “استخدام الأداة” لكلود على رفع تعدد استخدامات LLM إلى مستوى جديد تماما. في حين أن المثال المقدم أساسي ، إلا أنه بمثابة أساس لتوسيع الوظائف. إليك تطبيق واقعي واحد منه:

للعثور على المزيد من حالات الاستخدام ، يمكنك زيارة المستودع الرسمي ل Anthropic
هنا
.

أفضل مساحات الوجه التي تعانقها والتي يجب عليك التحقق منها في عام 2024

سرعان ما أصبح Hugging Face منصة انتقال في مجتمع التعلم الآلي ، ويضم مجموعة واسعة من الأدوات والنماذج للبرمجة اللغوية العصبية ورؤية الكمبيوتر وما بعدها. أحد أكثر عروضها شيوعا هو Hugging Face Spaces ، وهي منصة تعاونية حيث يمكن للمطورين مشاركة تطبيقات التعلم الآلي والعروض التوضيحية. تسمح هذه “المساحات” للمستخدمين بالتفاعل مع النماذج مباشرة ، مما يوفر تجربة عملية مع أحدث تقنيات الذكاء الاصطناعي.

في هذه المقالة ، سنسلط الضوء على خمس مساحات مميزة للوجه تعانق يجب عليك التحقق منها في عام 2024. توفر كل من هذه المساحات أداة أو مولدا فريدا يستفيد من القوة الهائلة لنماذج الذكاء الاصطناعي اليوم. دعنا نتعمق في التفاصيل.

إبكرياليمXL

Epicrealismxl هو مولد حديث لتحويل النص إلى صورة يستخدم نموذج epicrealism-xl المستقر. تتيح لك هذه المساحة تزويد التطبيق بمطالبات سريعة وسلبية وخطوات أخذ عينات لإنشاء صور تخطف الأنفاس. سواء كنت فنانا يبحث عن الإلهام أو مسوقا يبحث عن صور مرئية ، فإن epicrealismxl تقدم توليد صور عالي الجودة واقعي بقدر ما هو ملحمي.

بودكاستفاي

يحدث Podcastify ثورة في الطريقة التي تستهلك بها المحتوى المكتوب عن طريق تحويل المقالات إلى ملفات بودكاست صوتية قابلة للاستماع. ما عليك سوى لصق عنوان URL للمقالة التي ترغب في تحويلها إلى مربع النص ، والنقر فوق “Podcastify” ، وفويلا! لديك بودكاست تم إنشاؤه حديثا جاهزا للاستماع إليه أو عرضه في علامة تبويب المحادثة. هذه الأداة مثالية للمهام المتعددة الذين يفضلون التعلم السمعي أو الأفراد أثناء التنقل.

دالي – 3 – XL – لورا – v2

يستخدم مولد ممتاز آخر لتحويل النص إلى صورة ، dalle-3-xl-lora-v2 ، طراز DALL-E 3 سيئ السمعة. على غرار وظيفة epicrealismxl ، تتيح لك هذه الأداة إنشاء صور من المطالبات النصية. يشتهر DALL-E 3 بتعدد استخداماته وإبداعه ، مما يجعله خيارا ممتازا لتوليد مرئيات معقدة وفريدة من نوعها لمختلف التطبيقات.

مكشطة الويب الذكاء الاصطناعي

يوفر الذكاء الاصطناعي Scraper إمكانات تجريف الويب المتقدمة في متناول يدك دون الحاجة إلى أي مهارات ترميز. تتيح لك هذه الأداة التي لا تحتوي على تعليمات برمجية كشط محتوى الويب وتلخيصه بسهولة باستخدام طرز الذكاء الاصطناعي المتقدمة المستضافة على Hugging Face Hub. أدخل عنوان URL للموجه والمصدر المطلوبين لبدء استخراج المعلومات المفيدة بتنسيق JSON. هذه الأداة لا غنى عنها للصحفيين والباحثين ومنشئي المحتوى.

الذكاء الاصطناعي مولد رمز الاستجابة السريعة

الذكاء الاصطناعي مولد رمز الاستجابة السريعة

يأخذ مولد رمز الاستجابة السريعة الذكاء الاصطناعي رموز QR الخاصة بك إلى مستوى فني جديد تماما. باستخدام صورة رمز الاستجابة السريعة كصورة أولية وصورة تحكم ، تتيح لك هذه الأداة إنشاء رموز QR تمتزج بشكل طبيعي مع المطالبة المقدمة. اضبط معلمات مقياس القوة والتكييف لإنشاء رموز QR مبهجة من الناحية الجمالية وعملية وجميلة.

استنتاج

تعد مساحات الوجه المعانقة شهادة على التقدم السريع في التعلم الآلي الذكاء الاصطناعي. سواء كنت فنانا أو منشئ محتوى أو مسوقا أو مجرد متحمس الذكاء الاصطناعي ، فإن هذه المساحات الخمس الأولى توفر أدوات ومولدات متنوعة يمكنها تحسين سير عملك وإشعال إبداعك. تأكد من استكشاف هذه المساحات للبقاء في الطليعة في عام 2024. إذا كنت تريد معرفة أفضل 5 LLMs مفتوحة المصدر في عام 2024 ، فاقرأ مدونتنا هنا.

Gemini 1.5 Flash مقابل GPT-4o: رد جوجل على GPT-4o؟

اشتد سباق الذكاء الاصطناعي ، وأصبح لعبة اللحاق بالركب بين اللاعبين الكبار في مجال التكنولوجيا. إطلاق GPT-4o قبل Google I / O مباشرة ليس من قبيل المصادفة. خلقت قدرات GPT-4o المذهلة في الوسائط المتعددة ، أو الوسائط المتعددة على وجه الدقة ، تأثيرا كبيرا في منافسة الذكاء الاصطناعي التوليدي. ومع ذلك ، فإن Google ليست واحدة تتراجع. خلال Google I / O ، أعلنوا عن متغيرات جديدة من طرازات Gemini و Gemma. من بين جميع الطرز التي تم الإعلان عنها ، يبرز Gemini 1.5 Flash باعتباره الأكثر تأثيرا. في هذه المدونة، سنستكشف في هذه المدونة أهم ميزات Gemini 1.5 Flash ونقارنها مع Gemini 1.5 Pro و Gemini 1.5 Flash مقابل GPT-4o لتحديد أيهما أفضل.

مقارنة بين Gemini 1.5 Flash و GPT-4o GPT-4o

استنادًا إلى النتائج المعيارية التي أصدرتها Google، يتمتع Gemini 1.5 Flash بأداء متفوق على الصوت مقارنةً بجميع أجهزة LLM الأخرى من Google، وهو على قدم المساواة مع طراز Gemini 1.5 Pro (فبراير 2024) المنتهية ولايته بالنسبة للمعايير الأخرى. على الرغم من أننا لا نوصي بالاعتماد بشكل كامل على المعايير القياسية لتقييم أداء أي من أجهزة LLM، إلا أنها تساعد في تحديد الفرق في الأداء والتحديثات الطفيفة. الجوزاء 1.5 معايير فلاش تكمن المشكلة في تكلفة فلاش Gemini 1.5 Gemini 1.5. بالمقارنة مع GPT-4o، فإن Gemini 1.5 Flash أقل تكلفة بكثير من GPT-4o. سعر الجوزاء

سعر الجوزاء

سعر GPT

نافذة السياق

تمامًا مثل Gemini 1.5 Pro، يأتي الفلاش مع نافذة سياق تبلغ مليون رمز مميز، وهو أكثر من أي من طرازات OpenAI، وهو أحد أكبر نوافذ السياق في أجهزة LLM من فئة الإنتاج. تسمح نافذة السياق الأكبر بمزيد من فهم البيانات ويمكنها تحسين تقنيات الجهات الخارجية مثل RAG (الجيل المعزز للاسترجاع) لحالات الاستخدام ذات قاعدة المعرفة الكبيرة عن طريق زيادة حجم القطعة. بالإضافة إلى ذلك، تتيح نافذة السياق الأكبر حجمًا توليد المزيد من النصوص، وهو أمر مفيد في سيناريوهات مثل كتابة المقالات ورسائل البريد الإلكتروني والبيانات الصحفية.

تعدد الوسائط

فلاش Gemini-1.5 متعدد الوسائط. تسمح الوسائط المتعددة بإدخال السياق في شكل صوت وفيديو ومستندات وما إلى ذلك. تُعد الآلات ذات الوسائط المتعددة أكثر تنوعًا وتفتح الأبواب لمزيد من تطبيقات الذكاء الاصطناعي التوليدي دون الحاجة إلى أي معالجة مسبقة.

“تم تصميم طرازات Gemini 1.5 للتعامل مع السياقات الطويلة للغاية. لديهم القدرة على التذكر والتفكير في المعلومات الدقيقة من ما يصل إلى 10 ملايين رمز على الأقل. هذا المقياس غير مسبوق بين نماذج اللغات الكبيرة المعاصرة (LLMs) ، ويتيح معالجة مدخلات الوسائط المختلطة الطويلة بما في ذلك مجموعات كاملة من المستندات ، وساعات متعددة من الفيديو ، وما يقرب من خمسة أيام من الصوت.

تعدد الوسائط

الدباس = مدرب القطار باللغة الهندية. إظهار الأداء متعدد الوسائط ومتعدد اللغات.

كما يتيح لنا وجود تعدد الوسائط أيضاً استخدام الآليات المحلية كبدائل للخدمات المتخصصة الأخرى. على سبيل المثال. التعرف الضوئي على الحروف أو مسح الويب. التعرف الضوئي على الحروف على الجوزاء

كشط البيانات بسهولة من صفحات الويب وتحويلها.

سرعة

تم تصميم فلاش Gemini 1.5 Flash، كما يوحي اسمه، ليكون له ميزة على الطرز الأخرى من حيث وقت الاستجابة. بالنسبة لمثال كشط الويب المذكور أعلاه، يوجد فرق 2.5 ثانية تقريبًا في زمن الاستجابة، وهو أسرع بنسبة 40% تقريبًا، مما يجعل Gemini 1.5 Flash خيارًا أفضل للاستخدام الآلي أو أي حالة استخدام تتطلب زمن استجابة أقل. السرعة على الجوزاء 1.5 برو

بعض حالات الاستخدام المثيرة للاهتمام من الجوزاء 1.5 فلاش

تلخيص مقاطع الفيديو


كتابة التعليمات البرمجية باستخدام الفيديو

أتمتة اللعب

GPT-4o: OpenAI تكشف النقاب عن أحدث نموذج لغوي ، متاح مجانا للمستخدمين

GPT-4o

بعد الكثير من التكهنات على وسائل التواصل الاجتماعي والمنتديات الأخرى حول ما يخبئه OpenAI لنا ، بالأمس ، كشفت OpenAI أخيرا عن أحدث وأقوى LLM حتى الآن – GPT-4o (“o” لأومني). في حال فاتتك حدث إطلاق GPT-4o ، دعنا ننتقل إلى إمكانيات GPT-4o والميزات التي يقدمها.

قدرات الصوت والنص والرؤية المحسنة

GPT-4 Turbo هو نموذج قوي ، لكنه يأتي مع عيب واحد – الكمون. عند مقارنتها ب GPT-3.5 Turbo ، لا يزال GPT-4 Turbo أبطأ بكثير. يعالج GPT-4o هذا العيب وهو أسرع 2 مرة من GPT-4 Turbo. هذا يفتح مجموعة واسعة من حالات الاستخدام التي تنطوي على دمج البيانات من الكلام والنص والرؤية ، مما يجعلها خطوة أخرى إلى الأمام من الوسائط المتعددة إلى الوسائط المتعددة. يتمثل الاختلاف الرئيسي بين الوسائط المتعددة والوسائط المتعددة في أنه في الوسائط المتعددة ، يمكن تشغيل جميع المصادر الثلاثة بسلاسة بالتوازي.

تمكن هذه التحسينات أيضا النموذج من توليد الكلام مع تعديل الصوت المحسن ، والقدرة على فهم السخرية ، وتعزيز قدرات المحادثة الطبيعية.

أسعار مخفضة ومتاحة مجانا لمستخدمي ChatGPT

على الرغم من أن GPT-4o أكثر كفاءة وأسرع مقارنة ب GPT-4 Turbo المنتهية ولايته ، إلا أنه نصف سعر (API) ل GPT-4 Turbo ، مما يعني أن GPT-4o سيكلف 5.00 دولارات أمريكية / 1 مليون رمز إدخال و 15.00 دولارا أمريكيا / 1 مليون رمز إخراج. مع التسعير الأفضل ، أصبحت نافذة السياق الآن 128 ألف رمز ، وقطع المعرفة هو أكتوبر 2023.

ككرز في الأعلى ، سيكون GPT-4o متاحا لجميع مستخدمي ChatGPT مجانا (سيكون لدى مستخدمي ChatGPT Plus غطاء 5x ل GPT-4o). إلى جانب ذلك ، كشفت OpenAI أيضا عن تطبيق ChatGPT لسطح المكتب ، والذي سيسمح للمستخدمين بالاستفادة من إمكانات الرؤية في GPT-4o لقراءة وفهم المحتوى المعروض على الشاشة. سيتمكن المستخدمون أيضا من التحدث إلى ChatGPT باستخدام تطبيق سطح المكتب.

GPT-4o تجريبي

 

صرحت OpenAI أنها تطرح الوصول إلى GPT-4o على مراحل خلال الأسابيع القليلة المقبلة ، مع حصول مستخدمي ChatGPT Plus على الأولوية والوصول المبكر إلى النموذج. لن نفهم الإمكانات الحقيقية لهذا النموذج إلا عندما نتمكن من الوصول إليه في الأسابيع المقبلة. أوقات مثيرة في المستقبل!

جروق ولاما 3: ثنائي يغير قواعد اللعبة

قبل شهرين ، ظهرت شركة جديدة تسمى “Groq” على ما يبدو من العدم ، محققة طفرة في صناعة الذكاء الاصطناعي. لقد وفروا منصة للمطورين للوصول إلى وحدات LPU كمحركات استدلال ل LLMs ، خاصة تلك مفتوحة المصدر مثل Llama و Mixtral و Gemma. في هذه المدونة ، دعنا نستكشف ما الذي يجعل Groq مميزا للغاية ونتعمق في الأعجوبة وراء LPUs.

ما هو جروق؟

“Groq في مهمة لوضع معيار لسرعة الاستدلال GenAI ، مما يساعد تطبيقات الذكاء الاصطناعي في الوقت الفعلي على الظهور اليوم.” – موقع Groq

Groq ليست شركة تقوم بتطوير LLMs مثل GPT أو Gemini. بدلا من ذلك ، يركز Groq على تعزيز أسس هذه النماذج اللغوية الكبيرة – الأجهزة التي تعمل عليها. إنه بمثابة “محرك الاستدلال”. حاليا ، تستخدم معظم LLMs في السوق وحدات معالجة الرسومات التقليدية المنتشرة على الخوادم الخاصة أو السحابة. في حين أن وحدات معالجة الرسومات هذه باهظة الثمن وقوية ، يتم الحصول عليها من شركات مثل Nvidia ، إلا أنها لا تزال تعتمد على بنية GPU التقليدية ، والتي قد لا تكون مناسبة بشكل مثالي لاستدلال LLM (على الرغم من أنها تظل قوية ومفضلة لنماذج التدريب).

يعمل محرك الاستدلال الذي توفره Groq على وحدات معالجة اللغة LPUs.

ما هو LPU؟

وحدة معالجة اللغة هي شريحة مصممة خصيصا ل LLMs وهي مبنية على بنية فريدة تجمع بين وحدات المعالجة المركزية ووحدات معالجة الرسومات لتحويل وتيرة الحلول الذكاء الاصطناعي وإمكانية التنبؤ بها وأدائها ودقتها ل LLMs.

وحدة معالجة اللغات LPUs في Groq

السمات الرئيسية لنظام LPU. ائتمانات: جروق

يحتوي نظام LPU على قدر كبير أو أكثر من الحوسبة مثل معالج الرسومات (GPU) ويقلل من مقدار الوقت لكل كلمة محسوبة ، مما يسمح بتوليد تسلسلات نصية بشكل أسرع.

ميزات محرك الاستدلال LPU كما هو مدرج في موقع Groq:

  • أداء تسلسلي استثنائي
  • بنية أحادية النواة
  • الشبكات المتزامنة التي يتم الحفاظ عليها حتى لعمليات النشر واسعة النطاق
  • القدرة على التجميع >التلقائي ل 50B LLMs
  • الوصول الفوري إلى الذاكرة
  • دقة عالية يتم الحفاظ عليها حتى في مستويات الدقة المنخفضة

الخدمات التي تقدمها جروق:

  1. جروك كلاود: وحدات LPU على السحابة
  2. GroqRack: رف 42U مع ما يصل إلى 64 شريحة مترابطة
  3. GroqNode: نظام حوسبة قابل للتطوير جاهز للحامل 4U يضم ثمانية مسرعات GroqCard™ مترابطة
  4. جروقكارد: شريحة واحدة في عامل شكل PCIe Gen 4×16 قياسي يوفر تكاملا خاليا من المتاعب للخادم

“على عكس وحدة المعالجة المركزية التي تم تصميمها للقيام بنوع مختلف تماما من المهام عن الذكاء الاصطناعي ، أو وحدة معالجة الرسومات التي تم تصميمها بناء على وحدة المعالجة المركزية للقيام بشيء يشبه الذكاء الاصطناعي عن طريق الصدفة ، أو TPU التي عدلت وحدة معالجة الرسومات لجعلها أفضل بالنسبة الذكاء الاصطناعي ، فإن Groq من الألف إلى الياء ، المبادئ الأولى ، نظام كمبيوتر ل الذكاء الاصطناعي”- دانيال وارفيلد ، نحو علم البيانات

لمعرفة المزيد حول كيفية اختلاف وحدات LPU عن وحدات معالجة الرسومات ووحدات TPU ووحدات المعالجة المركزية ، نوصي بقراءة هذه المقالة الشاملة التي كتبها دانيال وارفيلد ل نحو علوم البيانات.

ما الهدف من جروق؟

LLMs قوية بشكل لا يصدق ، وقادرة على مهام تتراوح من تحليل البيانات غير المهيكلة إلى الإجابة على أسئلة حول جاذبية القطط. ومع ذلك ، فإن عيبها الرئيسي يكمن حاليا في وقت الاستجابة. يؤدي وقت الاستجابة البطيء إلى زمن انتقال كبير عند استخدام LLMs في عمليات الواجهة الخلفية. على سبيل المثال ، يعد جلب البيانات من قاعدة بيانات وعرضها بتنسيق JSON حاليا أسرع بكثير عند القيام به باستخدام المنطق التقليدي بدلا من تمرير البيانات عبر LLM للتحويل. ومع ذلك ، تكمن ميزة LLMs في قدرتها على فهم استثناءات البيانات والتعامل معها.

مع سرعة الاستدلال المذهلة التي تقدمها Groq ، يمكن تقليل هذا العيب في LLMs بشكل كبير. هذا يفتح حالات استخدام أفضل وأوسع ل LLMs ويقلل من التكاليف ، كما هو الحال مع LPU ، ستتمكن من نشر نماذج مفتوحة المصدر أرخص بكثير للتشغيل مع أوقات استجابة سريعة حقا.

لاما 3 على جروق

قبل أسبوعين ، كشفت Meta النقاب عن أحدث إصدار لها من LLM مفتوح المصدر القوي بالفعل وذو القدرة العالية – Llama 3. إلى جانب التحسينات النموذجية في السرعة وفهم البيانات وتوليد الرموز المميزة ، يبرز تحسينان مهمان:

  1. تم تدريبه على مجموعة بيانات أكبر 7 مرات من Llama 2 ، مع كود أكثر 4 مرات.
  2. مضاعفة طول السياق إلى 8000 رمز مميز.

كان Llama 2 بالفعل LLM هائلا مفتوح المصدر ، ولكن مع هذين التحديثين ، من المتوقع أن يرتفع أداء Llama 3 بشكل كبير.

اللاما 3 المعايير

اللاما 3 المعايير

لاختبار اللاما 3 ، لديك خيار استخدام Meta الذكاء الاصطناعي أو ملعب Groq. سنعرض أداء Groq من خلال اختباره مع Llama 3.

ملعب جروق

يوفر ملعب Groq حاليا الدخول المجاني إلى Gemma 7B و Llama 3 70B و 8B و Mixtral 8x7b. يسمح لك الملعب بضبط المعلمات مثل درجة الحرارة والحد الأقصى للرموز المميزة وتبديل البث. بالإضافة إلى ذلك ، يتميز بوضع JSON مخصص لإنشاء إخراج JSON فقط.

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

عند الوصول إلى المجال / التطبيق الأكثر تأثيرا في رأيي ، استخراج البيانات وتحويلها:

مطالبة النموذج باستخراج معلومات مفيدة وتوفير JSON باستخدام وضع JSON.

مطالبة النموذج باستخراج معلومات مفيدة وتوفير JSON باستخدام وضع JSON.

تم الانتهاء من الاستخراج والتحويل إلى تنسيق JSON في أقل من نصف ثانية.

تم الانتهاء من الاستخراج والتحويل إلى تنسيق JSON في أقل من نصف ثانية.

استنتاج

كما هو موضح ، برزت Groq كمغير لقواعد اللعبة في مشهد LLM من خلال محرك الاستدلال LPU المبتكر. يشير التحول السريع المعروض هنا إلى الإمكانات الهائلة لتسريع تطبيقات الذكاء الاصطناعي. بالنظر إلى المستقبل ، لا يسع المرء إلا أن يتكهن بالابتكارات المستقبلية من Groq. ربما ، يمكن لوحدة معالجة الصور أن تحدث ثورة في نماذج توليد الصور ، مما يساهم في التقدم في توليد الفيديو الذكاء الاصطناعي. في الواقع ، إنه مستقبل مثير لتوقعه.

بالنظر إلى المستقبل ، نظرا لأن تدريب LLM أصبح أكثر كفاءة ، فإن إمكانية الحصول على ChatGPT مخصص ، مضبوط بدقة مع بياناتك على جهازك المحلي ، يصبح احتمالا محيرا. إحدى المنصات التي توفر مثل هذه القدرات هي Cody ، وهو مساعد الذكاء الاصطناعي ذكي مصمم خصيصا لدعم الشركات في مختلف الجوانب. مثل ChatGPT ، يمكن تدريب Cody على بيانات عملك وفريقك وعملياتك وعملائك ، باستخدام قاعدة المعرفة الفريدة الخاصة بك.

مع Cody ، يمكن للشركات تسخير قوة الذكاء الاصطناعي لإنشاء مساعد شخصي وذكي يلبي احتياجاتهم على وجه التحديد ، مما يجعله إضافة واعدة لعالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

أفضل 5 LLMs مجانية مفتوحة المصدر في عام 2024

LLMs موجودة في كل مكان في الوقت الحاضر ، ولا تحتاج إلى مقدمة. سواء كنت تعمل في مجال التكنولوجيا أم لا ، فمن المحتمل أنك واجهت أو تستخدم حاليا شكلا من أشكال LLM على أساس يومي. تشمل أبرز LLMs في الوقت الحالي GPT من OpenAI و Claude من Anthropic و Gemini من Google.

ومع ذلك ، غالبا ما تعمل هذه LLMs الشائعة كأنظمة مجردة أو صندوق أسود ، مما يثير مخاوف بشأن خصوصية البيانات والشفافية. لمعالجة مثل هذه المشكلات ، تتوفر العديد من LLMs مفتوحة المصدر ، مما يسمح للمستخدمين بنشرها على الأجهزة أو الخوادم الخاصة براحة البال.

يشير المصدر المفتوح إلى البرامج أو المنتجات الموزعة مع شفرة المصدر الخاصة بها المتاحة مجانا للفحص والتعديل والتوزيع. تمكن إمكانية الوصول هذه المستخدمين من فهم البرنامج وتحسينه والمساهمة في تطويره.

فيما يلي بعض من أفضل LLMs مفتوحة المصدر المتاحة حاليا:

اللاما 2

LLaMA 2: نموذج الذكاء الاصطناعي مفتوح المصدر من Meta

Llama 2 هو ماجستير في القانون مفتوح المصدر تم تطويره بواسطة Meta ، ويتم تقديمه مجانا للأغراض التجارية والبحثية. يتم تدريب نماذج اللاما 2 على تريليوني رمز وتفتخر بضعف طول سياق اللاما 1.

تؤثر معلمات النموذج بشكل مباشر على قدرته على فهم النص ، حيث تقدم النماذج الأكبر أداء أفضل على حساب زيادة الحجم ومتطلبات الموارد.

المتغيرات المتاحة: معلمات 7B و 13B و 70B

نافذة السياق: 4096 الرموز

اللغات المدعومة: أفضل أداء في اللغة الإنجليزية

ميكسترال 8x7B

ميسترال الذكاء الاصطناعي تكشف النقاب عن Mixtral 8x7B ، وهو ماجستير في القانون مفتوح المصدر تدعي أنه على قدم المساواة مع GPT 3.5

Mixtral 8x7B ، الذي طورته Mistral الذكاء الاصطناعي ، هو LLM يحتوي على 46.7B إجمالي المعلمات. على الرغم من حجمه ، فإنه يحافظ على سرعة الاستدلال والتكلفة المماثلة للنماذج ثلث حجمه. يتفوق نموذج خليط الخبراء (MoE) للمحولات (MoE) الذي يعمل بوحدة فك التشفير فقط بشكل كبير على LLama 2 و GPT-3.5 في بعض المعايير.

المتغيرات المتاحة: صغيرة وصغيرة ومتوسطة وكبيرة (مرتبة من فعالة من حيث التكلفة إلى عالية الأداء)

نافذة السياق: 32000 رمز (على ميسترال كبير)

اللغات المدعومة: الإنجليزية، الفرنسية، الإسبانية، الألمانية، الإيطالية (على ميسترال لارج)

صقر

معهد الإمارات للابتكار التكنولوجي يطلق نموذج اللغة الكبيرة

فالكون، الذي طوره معهد الابتكار التكنولوجي (TII) في أبوظبي، هو برنامج ماجستير آخر مفتوح المصدر ومفتوح المصدر. بعد إطلاقه ، احتل Falcon 40B المركز #1 في لوحة المتصدرين في Hugging Face لنماذج اللغات الكبيرة مفتوحة المصدر (LLMs) لمدة شهرين. ومع متغير 180B، يعزز معهد دراسات الترجمة معرفة النموذج وقدراته على فهم البيانات. Falcon 180B هو نموذج لغوي فائق القوة تم تدريبه على 3.5 تريليون رمز.

المتغيرات المتاحة: فالكون 40B و فالكون 180B

نافذة السياق: 4096 الرموز

اللغات المدعومة: الإنجليزية والألمانية والإسبانية والفرنسية ، مع دعم محدود للإيطالية والبرتغالية والبولندية والهولندية والرومانية والتشيكية والسويدية.

وردة

وردة

BLOOM هو نموذج لغة كبيرة الانحدار الذاتي (LLM) تم تطويره بواسطة Big Science. تم تدريب BLOOM على معلمات 176B ، وهو يتفوق في توليد استمرار النص من المطالبات باستخدام كميات هائلة من البيانات النصية والموارد الحسابية على نطاق صناعي.

المتغيرات المتاحة: بلوم-560 م ، بلوم-1ب1 ، بلوم-1ب7 ، بلوم-3ب ، بلوم-7ب1 ، بلوم 176 ب

نافذة السياق: 2048 الرموز

اللغات المدعومة: 46 لغة طبيعية (بكميات متفاوتة من البيانات ، من 30٪ للغة الإنجليزية إلى 0.00002٪ ل Chi Tumbuka)

جيما

Gemma] بناء الذكاء الاصطناعي مساعد لعلوم 🤖 البيانات

جيما ، أحدث ماجستير مفتوح من Google ، يتبع نجاح الجوزاء. جيما هي عائلة من نماذج اللغات الكبيرة ذات الأوزان المفتوحة (LLM) من Google DeepMind ، المبنية على أبحاث وتكنولوجيا Gemini. في حين أن أوزان النموذج يمكن الوصول إليها بحرية ، فقد تختلف شروط الاستخدام المحددة وإعادة التوزيع والملكية المتغيرة وقد لا تستند إلى ترخيص مفتوح المصدر.

المتغيرات المتاحة: جيما 2 ب وجيما 7 ب

نافذة السياق: 8192 توكنز

اللغات المدعومة: الإنكليزية

استنتاج

نحن في Cody نعطي الأولوية لنهج محايد للنموذج عندما يتعلق الأمر ب LLMs ، حيث نقدم نظاما أساسيا يمكنك من إنشاء روبوتات مخصصة مصممة خصيصا لحالة الاستخدام الفريدة الخاصة بك. مع مجموعة متنوعة من خيارات LLM المتاحة ، فأنت لست مقيدا بمزود واحد ، مما يمنحك حرية اختيار الأنسب لمتطلباتك.

من خلال كودي ، يمكن للشركات الاستفادة من الذكاء الاصطناعي لتطوير مساعدين أذكياء مخصصين لاحتياجاتهم الدقيقة. هذه المرونة تجعل كودي إضافة واعدة إلى عالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.