اشتد سباق الذكاء الاصطناعي ، وأصبح لعبة اللحاق بالركب بين اللاعبين الكبار في مجال التكنولوجيا. إطلاق GPT-4o قبل Google I / O مباشرة ليس من قبيل المصادفة. خلقت قدرات GPT-4o المذهلة في الوسائط المتعددة ، أو الوسائط المتعددة على وجه الدقة ، تأثيرا كبيرا في منافسة الذكاء الاصطناعي التوليدي. ومع ذلك ، فإن Google ليست واحدة تتراجع. خلال Google I / O ، أعلنوا عن متغيرات جديدة من طرازات Gemini و Gemma. من بين جميع الطرز التي تم الإعلان عنها ، يبرز Gemini 1.5 Flash باعتباره الأكثر تأثيرا. في هذه المدونة، سنستكشف في هذه المدونة أهم ميزات Gemini 1.5 Flash ونقارنها مع Gemini 1.5 Pro و Gemini 1.5 Flash مقابل GPT-4o لتحديد أيهما أفضل.
مقارنة بين Gemini 1.5 Flash و GPT-4o GPT-4o
استنادًا إلى النتائج المعيارية التي أصدرتها Google، يتمتع Gemini 1.5 Flash بأداء متفوق على الصوت مقارنةً بجميع أجهزة LLM الأخرى من Google، وهو على قدم المساواة مع طراز Gemini 1.5 Pro (فبراير 2024) المنتهية ولايته بالنسبة للمعايير الأخرى. على الرغم من أننا لا نوصي بالاعتماد بشكل كامل على المعايير القياسية لتقييم أداء أي من أجهزة LLM، إلا أنها تساعد في تحديد الفرق في الأداء والتحديثات الطفيفة. تكمن المشكلة في تكلفة فلاش Gemini 1.5 Gemini 1.5. بالمقارنة مع GPT-4o، فإن Gemini 1.5 Flash أقل تكلفة بكثير من GPT-4o.
نافذة السياق
تمامًا مثل Gemini 1.5 Pro، يأتي الفلاش مع نافذة سياق تبلغ مليون رمز مميز، وهو أكثر من أي من طرازات OpenAI، وهو أحد أكبر نوافذ السياق في أجهزة LLM من فئة الإنتاج. تسمح نافذة السياق الأكبر بمزيد من فهم البيانات ويمكنها تحسين تقنيات الجهات الخارجية مثل RAG (الجيل المعزز للاسترجاع) لحالات الاستخدام ذات قاعدة المعرفة الكبيرة عن طريق زيادة حجم القطعة. بالإضافة إلى ذلك، تتيح نافذة السياق الأكبر حجمًا توليد المزيد من النصوص، وهو أمر مفيد في سيناريوهات مثل كتابة المقالات ورسائل البريد الإلكتروني والبيانات الصحفية.
تعدد الوسائط
فلاش Gemini-1.5 متعدد الوسائط. تسمح الوسائط المتعددة بإدخال السياق في شكل صوت وفيديو ومستندات وما إلى ذلك. تُعد الآلات ذات الوسائط المتعددة أكثر تنوعًا وتفتح الأبواب لمزيد من تطبيقات الذكاء الاصطناعي التوليدي دون الحاجة إلى أي معالجة مسبقة.
“تم تصميم طرازات Gemini 1.5 للتعامل مع السياقات الطويلة للغاية. لديهم القدرة على التذكر والتفكير في المعلومات الدقيقة من ما يصل إلى 10 ملايين رمز على الأقل. هذا المقياس غير مسبوق بين نماذج اللغات الكبيرة المعاصرة (LLMs) ، ويتيح معالجة مدخلات الوسائط المختلطة الطويلة بما في ذلك مجموعات كاملة من المستندات ، وساعات متعددة من الفيديو ، وما يقرب من خمسة أيام من الصوت.
الدباس = مدرب القطار باللغة الهندية. إظهار الأداء متعدد الوسائط ومتعدد اللغات.
كما يتيح لنا وجود تعدد الوسائط أيضاً استخدام الآليات المحلية كبدائل للخدمات المتخصصة الأخرى. على سبيل المثال. التعرف الضوئي على الحروف أو مسح الويب.
كشط البيانات بسهولة من صفحات الويب وتحويلها.
سرعة
تم تصميم فلاش Gemini 1.5 Flash، كما يوحي اسمه، ليكون له ميزة على الطرز الأخرى من حيث وقت الاستجابة. بالنسبة لمثال كشط الويب المذكور أعلاه، يوجد فرق 2.5 ثانية تقريبًا في زمن الاستجابة، وهو أسرع بنسبة 40% تقريبًا، مما يجعل Gemini 1.5 Flash خيارًا أفضل للاستخدام الآلي أو أي حالة استخدام تتطلب زمن استجابة أقل.
بعض حالات الاستخدام المثيرة للاهتمام من الجوزاء 1.5 فلاش
تلخيص مقاطع الفيديو
يعد فهم الفيديو في Gemini 1.5 Pro أكثر الأشياء التي تم التقليل من شأنها في الذكاء الاصطناعي.
في حوالي 50 ثانية، “شاهدت” مقطع فيديو على Youtube مدته 11 دقيقة (حوالي 175 ألف توكين) لأكثر اللحظات شهرة في الرياضة وتمكنت من سرد جميع اللحظات الـ 18 بشكل مثالي (على حد علمي). لا يوجد أي فيديو آخر للذكاء الاصطناعي بهذه الجودة! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydydas) 5 أبريل 2024
كتابة التعليمات البرمجية باستخدام الفيديو
هذا هو العقل تهب 🤯
لقد أعطيتُ Gemini 1.5 تسجيل فيديو لي وأنا أتسوق وأعطاني كود سيلينيوم في 5 ثوانٍ تقريبًا. هذا يمكن أن يغير الكثير من الأشياء. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) 18 مايو 2024
أتمتة اللعب
لقد قمت ببناء مساعد أومني الخاص بي باستخدام Gemini 1.5 Flash لإرشادي خلال Super Mario 64.
يستطيع Gemini رؤية ما أقوم به على شاشتي والتواصل معي في الوقت الفعلي عبر الصوت، وبفضل السياق الطويل 1M، لديه ذاكرة لكل ما نقوم به معًا. مذهل. pic.twitter.com/doTngufjFL – بيترو شيرانو (@skirano) 21 مايو 2024