Author: Om Kamath

Om Kamath

أفضل مساحات الوجه التي تعانقها والتي يجب عليك التحقق منها في عام 2024

Posted on May 31, 2024 by Om Kamath - غير مصنف

سرعان ما أصبح Hugging Face منصة انتقال في مجتمع التعلم الآلي ، ويضم مجموعة واسعة من الأدوات والنماذج للبرمجة اللغوية العصبية ورؤية الكمبيوتر وما بعدها. أحد أكثر عروضها شيوعا هو Hugging Face Spaces ، وهي منصة تعاونية حيث يمكن للمطورين مشاركة تطبيقات التعلم الآلي والعروض التوضيحية. تسمح هذه “المساحات” للمستخدمين بالتفاعل مع النماذج مباشرة ، مما يوفر تجربة عملية مع أحدث تقنيات الذكاء الاصطناعي.

في هذه المقالة ، سنسلط الضوء على خمس مساحات مميزة للوجه تعانق يجب عليك التحقق منها في عام 2024. توفر كل من هذه المساحات أداة أو مولدا فريدا يستفيد من القوة الهائلة لنماذج الذكاء الاصطناعي اليوم. دعنا نتعمق في التفاصيل.

إبكرياليمXL

Epicrealismxl هو مولد حديث لتحويل النص إلى صورة يستخدم نموذج epicrealism-xl المستقر. تتيح لك هذه المساحة تزويد التطبيق بمطالبات سريعة وسلبية وخطوات أخذ عينات لإنشاء صور تخطف الأنفاس. سواء كنت فنانا يبحث عن الإلهام أو مسوقا يبحث عن صور مرئية ، فإن epicrealismxl تقدم توليد صور عالي الجودة واقعي بقدر ما هو ملحمي.

بودكاستفاي

يحدث Podcastify ثورة في الطريقة التي تستهلك بها المحتوى المكتوب عن طريق تحويل المقالات إلى ملفات بودكاست صوتية قابلة للاستماع. ما عليك سوى لصق عنوان URL للمقالة التي ترغب في تحويلها إلى مربع النص ، والنقر فوق “Podcastify” ، وفويلا! لديك بودكاست تم إنشاؤه حديثا جاهزا للاستماع إليه أو عرضه في علامة تبويب المحادثة. هذه الأداة مثالية للمهام المتعددة الذين يفضلون التعلم السمعي أو الأفراد أثناء التنقل.

دالي – 3 – XL – لورا – v2

يستخدم مولد ممتاز آخر لتحويل النص إلى صورة ، dalle-3-xl-lora-v2 ، طراز DALL-E 3 سيئ السمعة. على غرار وظيفة epicrealismxl ، تتيح لك هذه الأداة إنشاء صور من المطالبات النصية. يشتهر DALL-E 3 بتعدد استخداماته وإبداعه ، مما يجعله خيارا ممتازا لتوليد مرئيات معقدة وفريدة من نوعها لمختلف التطبيقات.

مكشطة الويب الذكاء الاصطناعي

يوفر الذكاء الاصطناعي Scraper إمكانات تجريف الويب المتقدمة في متناول يدك دون الحاجة إلى أي مهارات ترميز. تتيح لك هذه الأداة التي لا تحتوي على تعليمات برمجية كشط محتوى الويب وتلخيصه بسهولة باستخدام طرز الذكاء الاصطناعي المتقدمة المستضافة على Hugging Face Hub. أدخل عنوان URL للموجه والمصدر المطلوبين لبدء استخراج المعلومات المفيدة بتنسيق JSON. هذه الأداة لا غنى عنها للصحفيين والباحثين ومنشئي المحتوى.

الذكاء الاصطناعي مولد رمز الاستجابة السريعة

يأخذ مولد رمز الاستجابة السريعة الذكاء الاصطناعي رموز QR الخاصة بك إلى مستوى فني جديد تماما. باستخدام صورة رمز الاستجابة السريعة كصورة أولية وصورة تحكم ، تتيح لك هذه الأداة إنشاء رموز QR تمتزج بشكل طبيعي مع المطالبة المقدمة. اضبط معلمات مقياس القوة والتكييف لإنشاء رموز QR مبهجة من الناحية الجمالية وعملية وجميلة.

استنتاج

تعد مساحات الوجه المعانقة شهادة على التقدم السريع في التعلم الآلي الذكاء الاصطناعي. سواء كنت فنانا أو منشئ محتوى أو مسوقا أو مجرد متحمس الذكاء الاصطناعي ، فإن هذه المساحات الخمس الأولى توفر أدوات ومولدات متنوعة يمكنها تحسين سير عملك وإشعال إبداعك. تأكد من استكشاف هذه المساحات للبقاء في الطليعة في عام 2024. إذا كنت تريد معرفة أفضل 5 LLMs مفتوحة المصدر في عام 2024 ، فاقرأ مدونتنا هنا.

Gemini 1.5 Flash مقابل GPT-4o: رد جوجل على GPT-4o؟

Posted on May 28, 2024 by Om Kamath - غير مصنف

اشتد سباق الذكاء الاصطناعي ، وأصبح لعبة اللحاق بالركب بين اللاعبين الكبار في مجال التكنولوجيا. إطلاق GPT-4o قبل Google I / O مباشرة ليس من قبيل المصادفة. خلقت قدرات GPT-4o المذهلة في الوسائط المتعددة ، أو الوسائط المتعددة على وجه الدقة ، تأثيرا كبيرا في منافسة الذكاء الاصطناعي التوليدي. ومع ذلك ، فإن Google ليست واحدة تتراجع. خلال Google I / O ، أعلنوا عن متغيرات جديدة من طرازات Gemini و Gemma. من بين جميع الطرز التي تم الإعلان عنها ، يبرز Gemini 1.5 Flash باعتباره الأكثر تأثيرا. في هذه المدونة، سنستكشف في هذه المدونة أهم ميزات Gemini 1.5 Flash ونقارنها مع Gemini 1.5 Pro و Gemini 1.5 Flash مقابل GPT-4o لتحديد أيهما أفضل.

مقارنة بين Gemini 1.5 Flash و GPT-4o GPT-4o

استنادًا إلى النتائج المعيارية التي أصدرتها Google، يتمتع Gemini 1.5 Flash بأداء متفوق على الصوت مقارنةً بجميع أجهزة LLM الأخرى من Google، وهو على قدم المساواة مع طراز Gemini 1.5 Pro (فبراير 2024) المنتهية ولايته بالنسبة للمعايير الأخرى. على الرغم من أننا لا نوصي بالاعتماد بشكل كامل على المعايير القياسية لتقييم أداء أي من أجهزة LLM، إلا أنها تساعد في تحديد الفرق في الأداء والتحديثات الطفيفة. تكمن المشكلة في تكلفة فلاش Gemini 1.5 Gemini 1.5. بالمقارنة مع GPT-4o، فإن Gemini 1.5 Flash أقل تكلفة بكثير من GPT-4o.

نافذة السياق

تمامًا مثل Gemini 1.5 Pro، يأتي الفلاش مع نافذة سياق تبلغ مليون رمز مميز، وهو أكثر من أي من طرازات OpenAI، وهو أحد أكبر نوافذ السياق في أجهزة LLM من فئة الإنتاج. تسمح نافذة السياق الأكبر بمزيد من فهم البيانات ويمكنها تحسين تقنيات الجهات الخارجية مثل RAG (الجيل المعزز للاسترجاع) لحالات الاستخدام ذات قاعدة المعرفة الكبيرة عن طريق زيادة حجم القطعة. بالإضافة إلى ذلك، تتيح نافذة السياق الأكبر حجمًا توليد المزيد من النصوص، وهو أمر مفيد في سيناريوهات مثل كتابة المقالات ورسائل البريد الإلكتروني والبيانات الصحفية.

تعدد الوسائط

فلاش Gemini-1.5 متعدد الوسائط. تسمح الوسائط المتعددة بإدخال السياق في شكل صوت وفيديو ومستندات وما إلى ذلك. تُعد الآلات ذات الوسائط المتعددة أكثر تنوعًا وتفتح الأبواب لمزيد من تطبيقات الذكاء الاصطناعي التوليدي دون الحاجة إلى أي معالجة مسبقة.

“تم تصميم طرازات Gemini 1.5 للتعامل مع السياقات الطويلة للغاية. لديهم القدرة على التذكر والتفكير في المعلومات الدقيقة من ما يصل إلى 10 ملايين رمز على الأقل. هذا المقياس غير مسبوق بين نماذج اللغات الكبيرة المعاصرة (LLMs) ، ويتيح معالجة مدخلات الوسائط المختلطة الطويلة بما في ذلك مجموعات كاملة من المستندات ، وساعات متعددة من الفيديو ، وما يقرب من خمسة أيام من الصوت.

الدباس = مدرب القطار باللغة الهندية. إظهار الأداء متعدد الوسائط ومتعدد اللغات.

كما يتيح لنا وجود تعدد الوسائط أيضاً استخدام الآليات المحلية كبدائل للخدمات المتخصصة الأخرى. على سبيل المثال. التعرف الضوئي على الحروف أو مسح الويب.

كشط البيانات بسهولة من صفحات الويب وتحويلها.

سرعة

تم تصميم فلاش Gemini 1.5 Flash، كما يوحي اسمه، ليكون له ميزة على الطرز الأخرى من حيث وقت الاستجابة. بالنسبة لمثال كشط الويب المذكور أعلاه، يوجد فرق 2.5 ثانية تقريبًا في زمن الاستجابة، وهو أسرع بنسبة 40% تقريبًا، مما يجعل Gemini 1.5 Flash خيارًا أفضل للاستخدام الآلي أو أي حالة استخدام تتطلب زمن استجابة أقل.

بعض حالات الاستخدام المثيرة للاهتمام من الجوزاء 1.5 فلاش

تلخيص مقاطع الفيديو

يعد فهم الفيديو في Gemini 1.5 Pro أكثر الأشياء التي تم التقليل من شأنها في الذكاء الاصطناعي.

في حوالي 50 ثانية، “شاهدت” مقطع فيديو على Youtube مدته 11 دقيقة (حوالي 175 ألف توكين) لأكثر اللحظات شهرة في الرياضة وتمكنت من سرد جميع اللحظات الـ 18 بشكل مثالي (على حد علمي). لا يوجد أي فيديو آخر للذكاء الاصطناعي بهذه الجودة! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydydas) 5 أبريل 2024

كتابة التعليمات البرمجية باستخدام الفيديو

هذا هو العقل تهب 🤯

لقد أعطيتُ Gemini 1.5 تسجيل فيديو لي وأنا أتسوق وأعطاني كود سيلينيوم في 5 ثوانٍ تقريبًا. هذا يمكن أن يغير الكثير من الأشياء. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) 18 مايو 2024

أتمتة اللعب

لقد قمت ببناء مساعد أومني الخاص بي باستخدام Gemini 1.5 Flash لإرشادي خلال Super Mario 64.

يستطيع Gemini رؤية ما أقوم به على شاشتي والتواصل معي في الوقت الفعلي عبر الصوت، وبفضل السياق الطويل 1M، لديه ذاكرة لكل ما نقوم به معًا. مذهل. pic.twitter.com/doTngufjFL – بيترو شيرانو (@skirano) 21 مايو 2024

GPT-4o: OpenAI تكشف النقاب عن أحدث نموذج لغوي ، متاح مجانا للمستخدمين

Posted on May 14, 2024 by Om Kamath - غير مصنف

بعد الكثير من التكهنات على وسائل التواصل الاجتماعي والمنتديات الأخرى حول ما يخبئه OpenAI لنا ، بالأمس ، كشفت OpenAI أخيرا عن أحدث وأقوى LLM حتى الآن – GPT-4o (“o” لأومني). في حال فاتتك حدث إطلاق GPT-4o ، دعنا ننتقل إلى إمكانيات GPT-4o والميزات التي يقدمها.

قدرات الصوت والنص والرؤية المحسنة

GPT-4 Turbo هو نموذج قوي ، لكنه يأتي مع عيب واحد – الكمون. عند مقارنتها ب GPT-3.5 Turbo ، لا يزال GPT-4 Turbo أبطأ بكثير. يعالج GPT-4o هذا العيب وهو أسرع 2 مرة من GPT-4 Turbo. هذا يفتح مجموعة واسعة من حالات الاستخدام التي تنطوي على دمج البيانات من الكلام والنص والرؤية ، مما يجعلها خطوة أخرى إلى الأمام من الوسائط المتعددة إلى الوسائط المتعددة. يتمثل الاختلاف الرئيسي بين الوسائط المتعددة والوسائط المتعددة في أنه في الوسائط المتعددة ، يمكن تشغيل جميع المصادر الثلاثة بسلاسة بالتوازي.

تمكن هذه التحسينات أيضا النموذج من توليد الكلام مع تعديل الصوت المحسن ، والقدرة على فهم السخرية ، وتعزيز قدرات المحادثة الطبيعية.

أسعار مخفضة ومتاحة مجانا لمستخدمي ChatGPT

على الرغم من أن GPT-4o أكثر كفاءة وأسرع مقارنة ب GPT-4 Turbo المنتهية ولايته ، إلا أنه نصف سعر (API) ل GPT-4 Turbo ، مما يعني أن GPT-4o سيكلف 5.00 دولارات أمريكية / 1 مليون رمز إدخال و 15.00 دولارا أمريكيا / 1 مليون رمز إخراج. مع التسعير الأفضل ، أصبحت نافذة السياق الآن 128 ألف رمز ، وقطع المعرفة هو أكتوبر 2023.

ككرز في الأعلى ، سيكون GPT-4o متاحا لجميع مستخدمي ChatGPT مجانا (سيكون لدى مستخدمي ChatGPT Plus غطاء 5x ل GPT-4o). إلى جانب ذلك ، كشفت OpenAI أيضا عن تطبيق ChatGPT لسطح المكتب ، والذي سيسمح للمستخدمين بالاستفادة من إمكانات الرؤية في GPT-4o لقراءة وفهم المحتوى المعروض على الشاشة. سيتمكن المستخدمون أيضا من التحدث إلى ChatGPT باستخدام تطبيق سطح المكتب.

GPT-4o تجريبي

صرحت OpenAI أنها تطرح الوصول إلى GPT-4o على مراحل خلال الأسابيع القليلة المقبلة ، مع حصول مستخدمي ChatGPT Plus على الأولوية والوصول المبكر إلى النموذج. لن نفهم الإمكانات الحقيقية لهذا النموذج إلا عندما نتمكن من الوصول إليه في الأسابيع المقبلة. أوقات مثيرة في المستقبل!

جروق ولاما 3: ثنائي يغير قواعد اللعبة

Posted on May 6, 2024 by Om Kamath - غير مصنف

قبل شهرين ، ظهرت شركة جديدة تسمى “Groq” على ما يبدو من العدم ، محققة طفرة في صناعة الذكاء الاصطناعي. لقد وفروا منصة للمطورين للوصول إلى وحدات LPU كمحركات استدلال ل LLMs ، خاصة تلك مفتوحة المصدر مثل Llama و Mixtral و Gemma. في هذه المدونة ، دعنا نستكشف ما الذي يجعل Groq مميزا للغاية ونتعمق في الأعجوبة وراء LPUs.

ما هو جروق؟

“Groq في مهمة لوضع معيار لسرعة الاستدلال GenAI ، مما يساعد تطبيقات الذكاء الاصطناعي في الوقت الفعلي على الظهور اليوم.” – موقع Groq

Groq ليست شركة تقوم بتطوير LLMs مثل GPT أو Gemini. بدلا من ذلك ، يركز Groq على تعزيز أسس هذه النماذج اللغوية الكبيرة – الأجهزة التي تعمل عليها. إنه بمثابة “محرك الاستدلال”. حاليا ، تستخدم معظم LLMs في السوق وحدات معالجة الرسومات التقليدية المنتشرة على الخوادم الخاصة أو السحابة. في حين أن وحدات معالجة الرسومات هذه باهظة الثمن وقوية ، يتم الحصول عليها من شركات مثل Nvidia ، إلا أنها لا تزال تعتمد على بنية GPU التقليدية ، والتي قد لا تكون مناسبة بشكل مثالي لاستدلال LLM (على الرغم من أنها تظل قوية ومفضلة لنماذج التدريب).

يعمل محرك الاستدلال الذي توفره Groq على وحدات معالجة اللغة LPUs.

ما هو LPU؟

وحدة معالجة اللغة هي شريحة مصممة خصيصا ل LLMs وهي مبنية على بنية فريدة تجمع بين وحدات المعالجة المركزية ووحدات معالجة الرسومات لتحويل وتيرة الحلول الذكاء الاصطناعي وإمكانية التنبؤ بها وأدائها ودقتها ل LLMs.

السمات الرئيسية لنظام LPU. ائتمانات: جروق

يحتوي نظام LPU على قدر كبير أو أكثر من الحوسبة مثل معالج الرسومات (GPU) ويقلل من مقدار الوقت لكل كلمة محسوبة ، مما يسمح بتوليد تسلسلات نصية بشكل أسرع.

ميزات محرك الاستدلال LPU كما هو مدرج في موقع Groq:

أداء تسلسلي استثنائي
بنية أحادية النواة
الشبكات المتزامنة التي يتم الحفاظ عليها حتى لعمليات النشر واسعة النطاق
القدرة على التجميع >التلقائي ل 50B LLMs
الوصول الفوري إلى الذاكرة
دقة عالية يتم الحفاظ عليها حتى في مستويات الدقة المنخفضة

الخدمات التي تقدمها جروق:

جروك كلاود: وحدات LPU على السحابة
GroqRack: رف 42U مع ما يصل إلى 64 شريحة مترابطة
GroqNode: نظام حوسبة قابل للتطوير جاهز للحامل 4U يضم ثمانية مسرعات GroqCard™ مترابطة
جروقكارد: شريحة واحدة في عامل شكل PCIe Gen 4×16 قياسي يوفر تكاملا خاليا من المتاعب للخادم

“على عكس وحدة المعالجة المركزية التي تم تصميمها للقيام بنوع مختلف تماما من المهام عن الذكاء الاصطناعي ، أو وحدة معالجة الرسومات التي تم تصميمها بناء على وحدة المعالجة المركزية للقيام بشيء يشبه الذكاء الاصطناعي عن طريق الصدفة ، أو TPU التي عدلت وحدة معالجة الرسومات لجعلها أفضل بالنسبة الذكاء الاصطناعي ، فإن Groq من الألف إلى الياء ، المبادئ الأولى ، نظام كمبيوتر ل الذكاء الاصطناعي”- دانيال وارفيلد ، نحو علم البيانات

لمعرفة المزيد حول كيفية اختلاف وحدات LPU عن وحدات معالجة الرسومات ووحدات TPU ووحدات المعالجة المركزية ، نوصي بقراءة هذه المقالة الشاملة التي كتبها دانيال وارفيلد ل نحو علوم البيانات.

ما الهدف من جروق؟

LLMs قوية بشكل لا يصدق ، وقادرة على مهام تتراوح من تحليل البيانات غير المهيكلة إلى الإجابة على أسئلة حول جاذبية القطط. ومع ذلك ، فإن عيبها الرئيسي يكمن حاليا في وقت الاستجابة. يؤدي وقت الاستجابة البطيء إلى زمن انتقال كبير عند استخدام LLMs في عمليات الواجهة الخلفية. على سبيل المثال ، يعد جلب البيانات من قاعدة بيانات وعرضها بتنسيق JSON حاليا أسرع بكثير عند القيام به باستخدام المنطق التقليدي بدلا من تمرير البيانات عبر LLM للتحويل. ومع ذلك ، تكمن ميزة LLMs في قدرتها على فهم استثناءات البيانات والتعامل معها.

مع سرعة الاستدلال المذهلة التي تقدمها Groq ، يمكن تقليل هذا العيب في LLMs بشكل كبير. هذا يفتح حالات استخدام أفضل وأوسع ل LLMs ويقلل من التكاليف ، كما هو الحال مع LPU ، ستتمكن من نشر نماذج مفتوحة المصدر أرخص بكثير للتشغيل مع أوقات استجابة سريعة حقا.

لاما 3 على جروق

قبل أسبوعين ، كشفت Meta النقاب عن أحدث إصدار لها من LLM مفتوح المصدر القوي بالفعل وذو القدرة العالية – Llama 3. إلى جانب التحسينات النموذجية في السرعة وفهم البيانات وتوليد الرموز المميزة ، يبرز تحسينان مهمان:

تم تدريبه على مجموعة بيانات أكبر 7 مرات من Llama 2 ، مع كود أكثر 4 مرات.
مضاعفة طول السياق إلى 8000 رمز مميز.

كان Llama 2 بالفعل LLM هائلا مفتوح المصدر ، ولكن مع هذين التحديثين ، من المتوقع أن يرتفع أداء Llama 3 بشكل كبير.

اللاما 3 المعايير

لاختبار اللاما 3 ، لديك خيار استخدام Meta الذكاء الاصطناعي أو ملعب Groq. سنعرض أداء Groq من خلال اختباره مع Llama 3.

ملعب جروق

يوفر ملعب Groq حاليا الدخول المجاني إلى Gemma 7B و Llama 3 70B و 8B و Mixtral 8x7b. يسمح لك الملعب بضبط المعلمات مثل درجة الحرارة والحد الأقصى للرموز المميزة وتبديل البث. بالإضافة إلى ذلك ، يتميز بوضع JSON مخصص لإنشاء إخراج JSON فقط.

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

عند الوصول إلى المجال / التطبيق الأكثر تأثيرا في رأيي ، استخراج البيانات وتحويلها:

مطالبة النموذج باستخراج معلومات مفيدة وتوفير JSON باستخدام وضع JSON.

تم الانتهاء من الاستخراج والتحويل إلى تنسيق JSON في أقل من نصف ثانية.

استنتاج

كما هو موضح ، برزت Groq كمغير لقواعد اللعبة في مشهد LLM من خلال محرك الاستدلال LPU المبتكر. يشير التحول السريع المعروض هنا إلى الإمكانات الهائلة لتسريع تطبيقات الذكاء الاصطناعي. بالنظر إلى المستقبل ، لا يسع المرء إلا أن يتكهن بالابتكارات المستقبلية من Groq. ربما ، يمكن لوحدة معالجة الصور أن تحدث ثورة في نماذج توليد الصور ، مما يساهم في التقدم في توليد الفيديو الذكاء الاصطناعي. في الواقع ، إنه مستقبل مثير لتوقعه.

بالنظر إلى المستقبل ، نظرا لأن تدريب LLM أصبح أكثر كفاءة ، فإن إمكانية الحصول على ChatGPT مخصص ، مضبوط بدقة مع بياناتك على جهازك المحلي ، يصبح احتمالا محيرا. إحدى المنصات التي توفر مثل هذه القدرات هي Cody ، وهو مساعد الذكاء الاصطناعي ذكي مصمم خصيصا لدعم الشركات في مختلف الجوانب. مثل ChatGPT ، يمكن تدريب Cody على بيانات عملك وفريقك وعملياتك وعملائك ، باستخدام قاعدة المعرفة الفريدة الخاصة بك.

مع Cody ، يمكن للشركات تسخير قوة الذكاء الاصطناعي لإنشاء مساعد شخصي وذكي يلبي احتياجاتهم على وجه التحديد ، مما يجعله إضافة واعدة لعالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

أفضل 5 LLMs مجانية مفتوحة المصدر في عام 2024

Posted on April 2, 2024 by Om Kamath - غير مصنف

LLMs موجودة في كل مكان في الوقت الحاضر ، ولا تحتاج إلى مقدمة. سواء كنت تعمل في مجال التكنولوجيا أم لا ، فمن المحتمل أنك واجهت أو تستخدم حاليا شكلا من أشكال LLM على أساس يومي. تشمل أبرز LLMs في الوقت الحالي GPT من OpenAI و Claude من Anthropic و Gemini من Google.

ومع ذلك ، غالبا ما تعمل هذه LLMs الشائعة كأنظمة مجردة أو صندوق أسود ، مما يثير مخاوف بشأن خصوصية البيانات والشفافية. لمعالجة مثل هذه المشكلات ، تتوفر العديد من LLMs مفتوحة المصدر ، مما يسمح للمستخدمين بنشرها على الأجهزة أو الخوادم الخاصة براحة البال.

يشير المصدر المفتوح إلى البرامج أو المنتجات الموزعة مع شفرة المصدر الخاصة بها المتاحة مجانا للفحص والتعديل والتوزيع. تمكن إمكانية الوصول هذه المستخدمين من فهم البرنامج وتحسينه والمساهمة في تطويره.

فيما يلي بعض من أفضل LLMs مفتوحة المصدر المتاحة حاليا:

اللاما 2

Llama 2 هو ماجستير في القانون مفتوح المصدر تم تطويره بواسطة Meta ، ويتم تقديمه مجانا للأغراض التجارية والبحثية. يتم تدريب نماذج اللاما 2 على تريليوني رمز وتفتخر بضعف طول سياق اللاما 1.

تؤثر معلمات النموذج بشكل مباشر على قدرته على فهم النص ، حيث تقدم النماذج الأكبر أداء أفضل على حساب زيادة الحجم ومتطلبات الموارد.

المتغيرات المتاحة: معلمات 7B و 13B و 70B

نافذة السياق: 4096 الرموز

اللغات المدعومة: أفضل أداء في اللغة الإنجليزية

ميكسترال 8x7B

Mixtral 8x7B ، الذي طورته Mistral الذكاء الاصطناعي ، هو LLM يحتوي على 46.7B إجمالي المعلمات. على الرغم من حجمه ، فإنه يحافظ على سرعة الاستدلال والتكلفة المماثلة للنماذج ثلث حجمه. يتفوق نموذج خليط الخبراء (MoE) للمحولات (MoE) الذي يعمل بوحدة فك التشفير فقط بشكل كبير على LLama 2 و GPT-3.5 في بعض المعايير.

المتغيرات المتاحة: صغيرة وصغيرة ومتوسطة وكبيرة (مرتبة من فعالة من حيث التكلفة إلى عالية الأداء)

نافذة السياق: 32000 رمز (على ميسترال كبير)

اللغات المدعومة: الإنجليزية، الفرنسية، الإسبانية، الألمانية، الإيطالية (على ميسترال لارج)

صقر

فالكون، الذي طوره معهد الابتكار التكنولوجي (TII) في أبوظبي، هو برنامج ماجستير آخر مفتوح المصدر ومفتوح المصدر. بعد إطلاقه ، احتل Falcon 40B المركز #1 في لوحة المتصدرين في Hugging Face لنماذج اللغات الكبيرة مفتوحة المصدر (LLMs) لمدة شهرين. ومع متغير 180B، يعزز معهد دراسات الترجمة معرفة النموذج وقدراته على فهم البيانات. Falcon 180B هو نموذج لغوي فائق القوة تم تدريبه على 3.5 تريليون رمز.

المتغيرات المتاحة: فالكون 40B و فالكون 180B

نافذة السياق: 4096 الرموز

اللغات المدعومة: الإنجليزية والألمانية والإسبانية والفرنسية ، مع دعم محدود للإيطالية والبرتغالية والبولندية والهولندية والرومانية والتشيكية والسويدية.

وردة

BLOOM هو نموذج لغة كبيرة الانحدار الذاتي (LLM) تم تطويره بواسطة Big Science. تم تدريب BLOOM على معلمات 176B ، وهو يتفوق في توليد استمرار النص من المطالبات باستخدام كميات هائلة من البيانات النصية والموارد الحسابية على نطاق صناعي.

المتغيرات المتاحة: بلوم-560 م ، بلوم-1ب1 ، بلوم-1ب7 ، بلوم-3ب ، بلوم-7ب1 ، بلوم 176 ب

نافذة السياق: 2048 الرموز

اللغات المدعومة: 46 لغة طبيعية (بكميات متفاوتة من البيانات ، من 30٪ للغة الإنجليزية إلى 0.00002٪ ل Chi Tumbuka)

جيما

جيما ، أحدث ماجستير مفتوح من Google ، يتبع نجاح الجوزاء. جيما هي عائلة من نماذج اللغات الكبيرة ذات الأوزان المفتوحة (LLM) من Google DeepMind ، المبنية على أبحاث وتكنولوجيا Gemini. في حين أن أوزان النموذج يمكن الوصول إليها بحرية ، فقد تختلف شروط الاستخدام المحددة وإعادة التوزيع والملكية المتغيرة وقد لا تستند إلى ترخيص مفتوح المصدر.

المتغيرات المتاحة: جيما 2 ب وجيما 7 ب

نافذة السياق: 8192 توكنز

اللغات المدعومة: الإنكليزية

استنتاج

نحن في Cody نعطي الأولوية لنهج محايد للنموذج عندما يتعلق الأمر ب LLMs ، حيث نقدم نظاما أساسيا يمكنك من إنشاء روبوتات مخصصة مصممة خصيصا لحالة الاستخدام الفريدة الخاصة بك. مع مجموعة متنوعة من خيارات LLM المتاحة ، فأنت لست مقيدا بمزود واحد ، مما يمنحك حرية اختيار الأنسب لمتطلباتك.

من خلال كودي ، يمكن للشركات الاستفادة من الذكاء الاصطناعي لتطوير مساعدين أذكياء مخصصين لاحتياجاتهم الدقيقة. هذه المرونة تجعل كودي إضافة واعدة إلى عالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

ChatGPT القاتل؟ ماذا يعني الجوزاء 1.5 لمستقبل Google الذكاء الاصطناعي

Posted on February 22, 2024 by Om Kamath - غير مصنف

جوجل مقابل OpenAI: هل تفوز جوجل؟

بعد أن فقدت العلامة مع Bard في قطار الضجيج الذكاء الاصطناعي ، كشفت Google مؤخرا عن أحدث منتج الذكاء الاصطناعي ، Gemini. كجزء من هذا الإطلاق ، تم تغيير اسم Bard إلى Gemini ويتضمن الآن Gemini Pro LLM الجديد. دعونا نتعمق أكثر لفهم مدى هذه التغييرات.

ما هو الذكاء الاصطناعي الجوزاء؟

يمثل Gemini أحدث نموذج لغة كبيرة (LLM) من Google ، بعد إصدار LaMDA و PaLM. على عكس سابقاتها ، فإن Gemini متعدد الوسائط أصلا ، وقادر على فهم النص والصور والكلام والرمز ، ويفتخر بقدرات الفهم والتفكير المحسنة.

المتغيرات من الجوزاء الذكاء الاصطناعي

يتكون الذكاء الاصطناعي الجوزاء من ثلاثة نماذج لغوية كبيرة:

الجوزاء نانو: محسن لتحقيق الكفاءة على الجهاز ، مما يوفر حلول الذكاء الاصطناعي سريعة مباشرة على جهازك الشخصي.
الجوزاء برو: نموذج متعدد الاستخدامات وقابل للتطوير ، بارع في معالجة المهام المتنوعة بأداء قوي. يمكن الوصول إليها على الإصدار المجاني من واجهة دردشة الجوزاء.
الجوزاء الترا: قمة سلسلة Gemini ، تمكين حل المشكلات المعقدة وتعزيز حدود القدرات الذكاء الاصطناعي. حصريا للمشتركين في خطة Google One الذكاء الاصطناعي Premium.

تم تدريب نماذج الجوزاء باستخدام TPUv5e و TPUv4 ، اعتمادا على أحجامها وتكوينها. استخدم تدريب Gemini Ultra أسطولا كبيرا من مسرعات TPUv4 المملوكة لشركة Google عبر مراكز بيانات متعددة. يمثل هذا زيادة كبيرة في الحجم مقارنة بنموذجهم الرئيسي السابق PaLM-2 الذي قدم تحديات جديدة للبنية التحتية.

مقارنة الجوزاء مع LLMs الأخرى

الفهم النصي

المصدر: جوجل ديب مايند

فهم الصورة

المصدر: جوجل ديب مايند

اقرأ المزيد عنها هنا.

فوائد الجوزاء

1. التكامل السلس مع جميع تطبيقات Google

يتكامل Gemini الآن بسلاسة مع جميع تطبيقات Google ، بما في ذلك الخرائط و YouTube و Gmail والمزيد. للاستعلام عن تطبيقات معينة ، ما عليك سوى بادئة اسم التطبيق ب “@” متبوعا باستعلامك. في حين أنه يمكن تحقيق عمليات تكامل مماثلة على ChatGPT باستخدام GPTs والمكونات الإضافية ، إلا أنها قد لا تقدم نفس المستوى من السلاسة مثل عمليات تكامل Gemini الأصلية.

تمتد خبرة Google الشهيرة في تكنولوجيا محركات البحث بلا شك إلى تعزيز قدرات تصفح الويب في Gemini. من خلال الاستفادة من نقاط القوة الأساسية في خوارزميات البحث والفهرسة ، يوفر Gemini للمستخدمين تجربة تصفح سلسة وفعالة.

2. قدرات متعددة الوسائط

يوفر Gemini الآن إمكانات متعددة الوسائط ، بما في ذلك فهم الصور ، على واجهة دردشة Gemini دون أي تكلفة إضافية. في حين أن أدائها أثناء الاختبار كان لائقا ، فقد لا يتطابق مع دقة GPT-4V. ومع ذلك ، نظرا لأنه مجاني ، لا يمكننا الشكوى حقا ، أليس كذلك؟ 😉 هناك احتمال أن يتفوق Gemini Ultra على GPT-4V بناء على المقاييس

3. حرية الوصول إلى الهواة والطلاب

بالنسبة لمطوري LLM الطموحين الذين يتطلعون إلى الغوص في هذا المجال ولكنهم يواجهون قيودا في الوصول إلى واجهات برمجة تطبيقات GPT بسبب التكاليف ، توفر Google وصولا مجانيا إلى واجهة برمجة تطبيقات Gemini Pro 1.0. باستخدام هذا ، يمكنك إجراء ما يصل إلى 60 استفسارا في الدقيقة على Google الذكاء الاصطناعي Studio ، وهي أداة مطور مجانية قائمة على الويب. يتيح لك Google الذكاء الاصطناعي Studio تطوير المطالبات بسرعة والحصول على مفتاح API لتطوير التطبيقات. من خلال تسجيل الدخول إلى Google الذكاء الاصطناعي Studio باستخدام حساب Google الخاص بك ، يمكنك الاستفادة من هذه الحصة المجانية. إنها فرصة ممتازة لبدء رحلة LLM الخاصة بك واستكشاف التضمينات وقواعد بيانات المتجهات والبحث الدلالي والمزيد.

4. القيمة مقابل المال

مقابل 20 دولارا شهريا ، يمكن للمستخدمين الوصول إلى GPT-4 عبر ChatGPT Plus. بدلا من ذلك ، بنفس السعر ، يمكنهم الوصول إلى Gemini Advanced باستخدام Gemini Ultra 1.0 ، والذي يتضمن مزايا إضافية مثل 2 تيرابايت من التخزين السحابي والتكامل مع تطبيقات Google مثل Gmail و Docs. ومع ذلك ، يتطلب الوصول إلى Gemini Advanced اشتراكا في خطة Google One الذكاء الاصطناعي Premium. على الرغم من هذا المطلب ، فإنه يوفر قيمة أكبر لأموالك.

إن تقديم خطة متوسطة المستوى بسعة تخزين تبلغ 500 جيجابايت والوصول إلى Gemini Advanced بين الخطط القياسية والمميزة من شأنه أن يعزز بشكل كبير إمكانية الوصول إلى Gemini ، خاصة للطلاب والمستخدمين ذوي متطلبات التخزين المعتدلة. Google ، إذا كنت تستمع ، فيرجى مراعاة هذا الاقتراح.

ما التالي للجوزاء؟

تعمل DeepMind من Google باستمرار على تطوير نموذج Gemini ، مع طرح Gemini Pro 1.5 مؤخرا قبل أسبوع واحد فقط. في هذا المتغير المحدث، تم توسيع نافذة السياق إلى 128000 رمز مميز. بالإضافة إلى ذلك ، يمكن لمجموعة مختارة من المطورين وعملاء المؤسسات الآن تجربة نوافذ سياق أكبر تصل إلى 1 مليون رمز مميز من خلال معاينات خاصة على الذكاء الاصطناعي Studio و Vertex الذكاء الاصطناعي . لوضع هذا في المنظور الصحيح ، يحتوي الكتاب غير الخيالي النموذجي على حوالي 300000 رمز. مع نافذة سياق الرمز المميز ل Gemini Pro 1.5 التي تبلغ مليون رمز مميز ، يمكن للمستخدمين الآن تحميل كتب كاملة في طلبات الاستعلام – وهو تقدم ملحوظ مقارنة بنافذة سياق الرمز المميز ل GPT-4 البالغ عددها 128000.

وسط تشبع LLMs في صناعة الذكاء الاصطناعي ، يبدو أن Google قد حققت الذهب من خلال بنيتها المحسنة ، والاستجابات السريعة ، والتكامل السلس داخل نظام Google البيئي هذه المرة. يمكن أن تكون بالفعل خطوة في الاتجاه الصحيح ، مما يبقي OpenAI والمنافسين الآخرين على أهبة الاستعداد.

في عصر الذكاء الاصطناعي هذا ، من الأهمية بمكان أن يكون لدى الشركات موظفين مدربين تدريبا جيدا ، ويمكن أن يكون دمج الذكاء الاصطناعي لتدريب الموظفين استثمارا كبيرا. إذا كنت تبحث عن حلول الذكاء الاصطناعي لتدريب موظفيك ، فإن Cody هي الأداة المناسبة لك. على غرار ChatGPT و Gemini ، يمكن تدريب Cody على بيانات عملك وفريقك وعملياتك وعملائك ، باستخدام قاعدة المعرفة الفريدة الخاصة بك. كودي محايد للنموذج مما يسهل عليك تبديل النماذج وفقا لمتطلباتك.