Author: Om Kamath

Om Kamath

Gemini 1.5 Flash مقابل GPT-4o: رد جوجل على GPT-4o؟

اشتد سباق الذكاء الاصطناعي ، وأصبح لعبة اللحاق بالركب بين اللاعبين الكبار في مجال التكنولوجيا. إطلاق GPT-4o قبل Google I / O مباشرة ليس من قبيل المصادفة. خلقت قدرات GPT-4o المذهلة في الوسائط المتعددة ، أو الوسائط المتعددة على وجه الدقة ، تأثيرا كبيرا في منافسة الذكاء الاصطناعي التوليدي. ومع ذلك ، فإن Google ليست واحدة تتراجع. خلال Google I / O ، أعلنوا عن متغيرات جديدة من طرازات Gemini و Gemma. من بين جميع الطرز التي تم الإعلان عنها ، يبرز Gemini 1.5 Flash باعتباره الأكثر تأثيرا. في هذه المدونة، سنستكشف في هذه المدونة أهم ميزات Gemini 1.5 Flash ونقارنها مع Gemini 1.5 Pro و Gemini 1.5 Flash مقابل GPT-4o لتحديد أيهما أفضل.

مقارنة بين Gemini 1.5 Flash و GPT-4o GPT-4o

استنادًا إلى النتائج المعيارية التي أصدرتها Google، يتمتع Gemini 1.5 Flash بأداء متفوق على الصوت مقارنةً بجميع أجهزة LLM الأخرى من Google، وهو على قدم المساواة مع طراز Gemini 1.5 Pro (فبراير 2024) المنتهية ولايته بالنسبة للمعايير الأخرى. على الرغم من أننا لا نوصي بالاعتماد بشكل كامل على المعايير القياسية لتقييم أداء أي من أجهزة LLM، إلا أنها تساعد في تحديد الفرق في الأداء والتحديثات الطفيفة. الجوزاء 1.5 معايير فلاش تكمن المشكلة في تكلفة فلاش Gemini 1.5 Gemini 1.5. بالمقارنة مع GPT-4o، فإن Gemini 1.5 Flash أقل تكلفة بكثير من GPT-4o. سعر الجوزاء

سعر الجوزاء

سعر GPT

نافذة السياق

تمامًا مثل Gemini 1.5 Pro، يأتي الفلاش مع نافذة سياق تبلغ مليون رمز مميز، وهو أكثر من أي من طرازات OpenAI، وهو أحد أكبر نوافذ السياق في أجهزة LLM من فئة الإنتاج. تسمح نافذة السياق الأكبر بمزيد من فهم البيانات ويمكنها تحسين تقنيات الجهات الخارجية مثل RAG (الجيل المعزز للاسترجاع) لحالات الاستخدام ذات قاعدة المعرفة الكبيرة عن طريق زيادة حجم القطعة. بالإضافة إلى ذلك، تتيح نافذة السياق الأكبر حجمًا توليد المزيد من النصوص، وهو أمر مفيد في سيناريوهات مثل كتابة المقالات ورسائل البريد الإلكتروني والبيانات الصحفية.

تعدد الوسائط

فلاش Gemini-1.5 متعدد الوسائط. تسمح الوسائط المتعددة بإدخال السياق في شكل صوت وفيديو ومستندات وما إلى ذلك. تُعد الآلات ذات الوسائط المتعددة أكثر تنوعًا وتفتح الأبواب لمزيد من تطبيقات الذكاء الاصطناعي التوليدي دون الحاجة إلى أي معالجة مسبقة.

“تم تصميم طرازات Gemini 1.5 للتعامل مع السياقات الطويلة للغاية. لديهم القدرة على التذكر والتفكير في المعلومات الدقيقة من ما يصل إلى 10 ملايين رمز على الأقل. هذا المقياس غير مسبوق بين نماذج اللغات الكبيرة المعاصرة (LLMs) ، ويتيح معالجة مدخلات الوسائط المختلطة الطويلة بما في ذلك مجموعات كاملة من المستندات ، وساعات متعددة من الفيديو ، وما يقرب من خمسة أيام من الصوت.

تعدد الوسائط

الدباس = مدرب القطار باللغة الهندية. إظهار الأداء متعدد الوسائط ومتعدد اللغات.

كما يتيح لنا وجود تعدد الوسائط أيضاً استخدام الآليات المحلية كبدائل للخدمات المتخصصة الأخرى. على سبيل المثال. التعرف الضوئي على الحروف أو مسح الويب. التعرف الضوئي على الحروف على الجوزاء

كشط البيانات بسهولة من صفحات الويب وتحويلها.

سرعة

تم تصميم فلاش Gemini 1.5 Flash، كما يوحي اسمه، ليكون له ميزة على الطرز الأخرى من حيث وقت الاستجابة. بالنسبة لمثال كشط الويب المذكور أعلاه، يوجد فرق 2.5 ثانية تقريبًا في زمن الاستجابة، وهو أسرع بنسبة 40% تقريبًا، مما يجعل Gemini 1.5 Flash خيارًا أفضل للاستخدام الآلي أو أي حالة استخدام تتطلب زمن استجابة أقل. السرعة على الجوزاء 1.5 برو

بعض حالات الاستخدام المثيرة للاهتمام من الجوزاء 1.5 فلاش

تلخيص مقاطع الفيديو


كتابة التعليمات البرمجية باستخدام الفيديو

أتمتة اللعب

GPT-4o: OpenAI تكشف النقاب عن أحدث نموذج لغوي ، متاح مجانا للمستخدمين

GPT-4o

بعد الكثير من التكهنات على وسائل التواصل الاجتماعي والمنتديات الأخرى حول ما يخبئه OpenAI لنا ، بالأمس ، كشفت OpenAI أخيرا عن أحدث وأقوى LLM حتى الآن – GPT-4o (“o” لأومني). في حال فاتتك حدث إطلاق GPT-4o ، دعنا ننتقل إلى إمكانيات GPT-4o والميزات التي يقدمها.

قدرات الصوت والنص والرؤية المحسنة

GPT-4 Turbo هو نموذج قوي ، لكنه يأتي مع عيب واحد – الكمون. عند مقارنتها ب GPT-3.5 Turbo ، لا يزال GPT-4 Turbo أبطأ بكثير. يعالج GPT-4o هذا العيب وهو أسرع 2 مرة من GPT-4 Turbo. هذا يفتح مجموعة واسعة من حالات الاستخدام التي تنطوي على دمج البيانات من الكلام والنص والرؤية ، مما يجعلها خطوة أخرى إلى الأمام من الوسائط المتعددة إلى الوسائط المتعددة. يتمثل الاختلاف الرئيسي بين الوسائط المتعددة والوسائط المتعددة في أنه في الوسائط المتعددة ، يمكن تشغيل جميع المصادر الثلاثة بسلاسة بالتوازي.

تمكن هذه التحسينات أيضا النموذج من توليد الكلام مع تعديل الصوت المحسن ، والقدرة على فهم السخرية ، وتعزيز قدرات المحادثة الطبيعية.

أسعار مخفضة ومتاحة مجانا لمستخدمي ChatGPT

على الرغم من أن GPT-4o أكثر كفاءة وأسرع مقارنة ب GPT-4 Turbo المنتهية ولايته ، إلا أنه نصف سعر (API) ل GPT-4 Turbo ، مما يعني أن GPT-4o سيكلف 5.00 دولارات أمريكية / 1 مليون رمز إدخال و 15.00 دولارا أمريكيا / 1 مليون رمز إخراج. مع التسعير الأفضل ، أصبحت نافذة السياق الآن 128 ألف رمز ، وقطع المعرفة هو أكتوبر 2023.

ككرز في الأعلى ، سيكون GPT-4o متاحا لجميع مستخدمي ChatGPT مجانا (سيكون لدى مستخدمي ChatGPT Plus غطاء 5x ل GPT-4o). إلى جانب ذلك ، كشفت OpenAI أيضا عن تطبيق ChatGPT لسطح المكتب ، والذي سيسمح للمستخدمين بالاستفادة من إمكانات الرؤية في GPT-4o لقراءة وفهم المحتوى المعروض على الشاشة. سيتمكن المستخدمون أيضا من التحدث إلى ChatGPT باستخدام تطبيق سطح المكتب.

GPT-4o تجريبي

 

صرحت OpenAI أنها تطرح الوصول إلى GPT-4o على مراحل خلال الأسابيع القليلة المقبلة ، مع حصول مستخدمي ChatGPT Plus على الأولوية والوصول المبكر إلى النموذج. لن نفهم الإمكانات الحقيقية لهذا النموذج إلا عندما نتمكن من الوصول إليه في الأسابيع المقبلة. أوقات مثيرة في المستقبل!

جروق ولاما 3: ثنائي يغير قواعد اللعبة

قبل شهرين ، ظهرت شركة جديدة تسمى “Groq” على ما يبدو من العدم ، محققة طفرة في صناعة الذكاء الاصطناعي. لقد وفروا منصة للمطورين للوصول إلى وحدات LPU كمحركات استدلال ل LLMs ، خاصة تلك مفتوحة المصدر مثل Llama و Mixtral و Gemma. في هذه المدونة ، دعنا نستكشف ما الذي يجعل Groq مميزا للغاية ونتعمق في الأعجوبة وراء LPUs.

ما هو جروق؟

“Groq في مهمة لوضع معيار لسرعة الاستدلال GenAI ، مما يساعد تطبيقات الذكاء الاصطناعي في الوقت الفعلي على الظهور اليوم.” – موقع Groq

Groq ليست شركة تقوم بتطوير LLMs مثل GPT أو Gemini. بدلا من ذلك ، يركز Groq على تعزيز أسس هذه النماذج اللغوية الكبيرة – الأجهزة التي تعمل عليها. إنه بمثابة “محرك الاستدلال”. حاليا ، تستخدم معظم LLMs في السوق وحدات معالجة الرسومات التقليدية المنتشرة على الخوادم الخاصة أو السحابة. في حين أن وحدات معالجة الرسومات هذه باهظة الثمن وقوية ، يتم الحصول عليها من شركات مثل Nvidia ، إلا أنها لا تزال تعتمد على بنية GPU التقليدية ، والتي قد لا تكون مناسبة بشكل مثالي لاستدلال LLM (على الرغم من أنها تظل قوية ومفضلة لنماذج التدريب).

يعمل محرك الاستدلال الذي توفره Groq على وحدات معالجة اللغة LPUs.

ما هو LPU؟

وحدة معالجة اللغة هي شريحة مصممة خصيصا ل LLMs وهي مبنية على بنية فريدة تجمع بين وحدات المعالجة المركزية ووحدات معالجة الرسومات لتحويل وتيرة الحلول الذكاء الاصطناعي وإمكانية التنبؤ بها وأدائها ودقتها ل LLMs.

وحدة معالجة اللغات LPUs في Groq

السمات الرئيسية لنظام LPU. ائتمانات: جروق

يحتوي نظام LPU على قدر كبير أو أكثر من الحوسبة مثل معالج الرسومات (GPU) ويقلل من مقدار الوقت لكل كلمة محسوبة ، مما يسمح بتوليد تسلسلات نصية بشكل أسرع.

ميزات محرك الاستدلال LPU كما هو مدرج في موقع Groq:

  • أداء تسلسلي استثنائي
  • بنية أحادية النواة
  • الشبكات المتزامنة التي يتم الحفاظ عليها حتى لعمليات النشر واسعة النطاق
  • القدرة على التجميع >التلقائي ل 50B LLMs
  • الوصول الفوري إلى الذاكرة
  • دقة عالية يتم الحفاظ عليها حتى في مستويات الدقة المنخفضة

الخدمات التي تقدمها جروق:

  1. جروك كلاود: وحدات LPU على السحابة
  2. GroqRack: رف 42U مع ما يصل إلى 64 شريحة مترابطة
  3. GroqNode: نظام حوسبة قابل للتطوير جاهز للحامل 4U يضم ثمانية مسرعات GroqCard™ مترابطة
  4. جروقكارد: شريحة واحدة في عامل شكل PCIe Gen 4×16 قياسي يوفر تكاملا خاليا من المتاعب للخادم

“على عكس وحدة المعالجة المركزية التي تم تصميمها للقيام بنوع مختلف تماما من المهام عن الذكاء الاصطناعي ، أو وحدة معالجة الرسومات التي تم تصميمها بناء على وحدة المعالجة المركزية للقيام بشيء يشبه الذكاء الاصطناعي عن طريق الصدفة ، أو TPU التي عدلت وحدة معالجة الرسومات لجعلها أفضل بالنسبة الذكاء الاصطناعي ، فإن Groq من الألف إلى الياء ، المبادئ الأولى ، نظام كمبيوتر ل الذكاء الاصطناعي”- دانيال وارفيلد ، نحو علم البيانات

لمعرفة المزيد حول كيفية اختلاف وحدات LPU عن وحدات معالجة الرسومات ووحدات TPU ووحدات المعالجة المركزية ، نوصي بقراءة هذه المقالة الشاملة التي كتبها دانيال وارفيلد ل نحو علوم البيانات.

ما الهدف من جروق؟

LLMs قوية بشكل لا يصدق ، وقادرة على مهام تتراوح من تحليل البيانات غير المهيكلة إلى الإجابة على أسئلة حول جاذبية القطط. ومع ذلك ، فإن عيبها الرئيسي يكمن حاليا في وقت الاستجابة. يؤدي وقت الاستجابة البطيء إلى زمن انتقال كبير عند استخدام LLMs في عمليات الواجهة الخلفية. على سبيل المثال ، يعد جلب البيانات من قاعدة بيانات وعرضها بتنسيق JSON حاليا أسرع بكثير عند القيام به باستخدام المنطق التقليدي بدلا من تمرير البيانات عبر LLM للتحويل. ومع ذلك ، تكمن ميزة LLMs في قدرتها على فهم استثناءات البيانات والتعامل معها.

مع سرعة الاستدلال المذهلة التي تقدمها Groq ، يمكن تقليل هذا العيب في LLMs بشكل كبير. هذا يفتح حالات استخدام أفضل وأوسع ل LLMs ويقلل من التكاليف ، كما هو الحال مع LPU ، ستتمكن من نشر نماذج مفتوحة المصدر أرخص بكثير للتشغيل مع أوقات استجابة سريعة حقا.

لاما 3 على جروق

قبل أسبوعين ، كشفت Meta النقاب عن أحدث إصدار لها من LLM مفتوح المصدر القوي بالفعل وذو القدرة العالية – Llama 3. إلى جانب التحسينات النموذجية في السرعة وفهم البيانات وتوليد الرموز المميزة ، يبرز تحسينان مهمان:

  1. تم تدريبه على مجموعة بيانات أكبر 7 مرات من Llama 2 ، مع كود أكثر 4 مرات.
  2. مضاعفة طول السياق إلى 8000 رمز مميز.

كان Llama 2 بالفعل LLM هائلا مفتوح المصدر ، ولكن مع هذين التحديثين ، من المتوقع أن يرتفع أداء Llama 3 بشكل كبير.

اللاما 3 المعايير

اللاما 3 المعايير

لاختبار اللاما 3 ، لديك خيار استخدام Meta الذكاء الاصطناعي أو ملعب Groq. سنعرض أداء Groq من خلال اختباره مع Llama 3.

ملعب جروق

يوفر ملعب Groq حاليا الدخول المجاني إلى Gemma 7B و Llama 3 70B و 8B و Mixtral 8x7b. يسمح لك الملعب بضبط المعلمات مثل درجة الحرارة والحد الأقصى للرموز المميزة وتبديل البث. بالإضافة إلى ذلك ، يتميز بوضع JSON مخصص لإنشاء إخراج JSON فقط.

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

فقط 402 مللي ثانية للاستدلال بمعدل 901 رمز / ثانية

عند الوصول إلى المجال / التطبيق الأكثر تأثيرا في رأيي ، استخراج البيانات وتحويلها:

مطالبة النموذج باستخراج معلومات مفيدة وتوفير JSON باستخدام وضع JSON.

مطالبة النموذج باستخراج معلومات مفيدة وتوفير JSON باستخدام وضع JSON.

تم الانتهاء من الاستخراج والتحويل إلى تنسيق JSON في أقل من نصف ثانية.

تم الانتهاء من الاستخراج والتحويل إلى تنسيق JSON في أقل من نصف ثانية.

استنتاج

كما هو موضح ، برزت Groq كمغير لقواعد اللعبة في مشهد LLM من خلال محرك الاستدلال LPU المبتكر. يشير التحول السريع المعروض هنا إلى الإمكانات الهائلة لتسريع تطبيقات الذكاء الاصطناعي. بالنظر إلى المستقبل ، لا يسع المرء إلا أن يتكهن بالابتكارات المستقبلية من Groq. ربما ، يمكن لوحدة معالجة الصور أن تحدث ثورة في نماذج توليد الصور ، مما يساهم في التقدم في توليد الفيديو الذكاء الاصطناعي. في الواقع ، إنه مستقبل مثير لتوقعه.

بالنظر إلى المستقبل ، نظرا لأن تدريب LLM أصبح أكثر كفاءة ، فإن إمكانية الحصول على ChatGPT مخصص ، مضبوط بدقة مع بياناتك على جهازك المحلي ، يصبح احتمالا محيرا. إحدى المنصات التي توفر مثل هذه القدرات هي Cody ، وهو مساعد الذكاء الاصطناعي ذكي مصمم خصيصا لدعم الشركات في مختلف الجوانب. مثل ChatGPT ، يمكن تدريب Cody على بيانات عملك وفريقك وعملياتك وعملائك ، باستخدام قاعدة المعرفة الفريدة الخاصة بك.

مع Cody ، يمكن للشركات تسخير قوة الذكاء الاصطناعي لإنشاء مساعد شخصي وذكي يلبي احتياجاتهم على وجه التحديد ، مما يجعله إضافة واعدة لعالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

أفضل 5 LLMs مجانية مفتوحة المصدر في عام 2024

LLMs موجودة في كل مكان في الوقت الحاضر ، ولا تحتاج إلى مقدمة. سواء كنت تعمل في مجال التكنولوجيا أم لا ، فمن المحتمل أنك واجهت أو تستخدم حاليا شكلا من أشكال LLM على أساس يومي. تشمل أبرز LLMs في الوقت الحالي GPT من OpenAI و Claude من Anthropic و Gemini من Google.

ومع ذلك ، غالبا ما تعمل هذه LLMs الشائعة كأنظمة مجردة أو صندوق أسود ، مما يثير مخاوف بشأن خصوصية البيانات والشفافية. لمعالجة مثل هذه المشكلات ، تتوفر العديد من LLMs مفتوحة المصدر ، مما يسمح للمستخدمين بنشرها على الأجهزة أو الخوادم الخاصة براحة البال.

يشير المصدر المفتوح إلى البرامج أو المنتجات الموزعة مع شفرة المصدر الخاصة بها المتاحة مجانا للفحص والتعديل والتوزيع. تمكن إمكانية الوصول هذه المستخدمين من فهم البرنامج وتحسينه والمساهمة في تطويره.

فيما يلي بعض من أفضل LLMs مفتوحة المصدر المتاحة حاليا:

اللاما 2

LLaMA 2: نموذج الذكاء الاصطناعي مفتوح المصدر من Meta

Llama 2 هو ماجستير في القانون مفتوح المصدر تم تطويره بواسطة Meta ، ويتم تقديمه مجانا للأغراض التجارية والبحثية. يتم تدريب نماذج اللاما 2 على تريليوني رمز وتفتخر بضعف طول سياق اللاما 1.

تؤثر معلمات النموذج بشكل مباشر على قدرته على فهم النص ، حيث تقدم النماذج الأكبر أداء أفضل على حساب زيادة الحجم ومتطلبات الموارد.

المتغيرات المتاحة: معلمات 7B و 13B و 70B

نافذة السياق: 4096 الرموز

اللغات المدعومة: أفضل أداء في اللغة الإنجليزية

ميكسترال 8x7B

ميسترال الذكاء الاصطناعي تكشف النقاب عن Mixtral 8x7B ، وهو ماجستير في القانون مفتوح المصدر تدعي أنه على قدم المساواة مع GPT 3.5

Mixtral 8x7B ، الذي طورته Mistral الذكاء الاصطناعي ، هو LLM يحتوي على 46.7B إجمالي المعلمات. على الرغم من حجمه ، فإنه يحافظ على سرعة الاستدلال والتكلفة المماثلة للنماذج ثلث حجمه. يتفوق نموذج خليط الخبراء (MoE) للمحولات (MoE) الذي يعمل بوحدة فك التشفير فقط بشكل كبير على LLama 2 و GPT-3.5 في بعض المعايير.

المتغيرات المتاحة: صغيرة وصغيرة ومتوسطة وكبيرة (مرتبة من فعالة من حيث التكلفة إلى عالية الأداء)

نافذة السياق: 32000 رمز (على ميسترال كبير)

اللغات المدعومة: الإنجليزية، الفرنسية، الإسبانية، الألمانية، الإيطالية (على ميسترال لارج)

صقر

معهد الإمارات للابتكار التكنولوجي يطلق نموذج اللغة الكبيرة

فالكون، الذي طوره معهد الابتكار التكنولوجي (TII) في أبوظبي، هو برنامج ماجستير آخر مفتوح المصدر ومفتوح المصدر. بعد إطلاقه ، احتل Falcon 40B المركز #1 في لوحة المتصدرين في Hugging Face لنماذج اللغات الكبيرة مفتوحة المصدر (LLMs) لمدة شهرين. ومع متغير 180B، يعزز معهد دراسات الترجمة معرفة النموذج وقدراته على فهم البيانات. Falcon 180B هو نموذج لغوي فائق القوة تم تدريبه على 3.5 تريليون رمز.

المتغيرات المتاحة: فالكون 40B و فالكون 180B

نافذة السياق: 4096 الرموز

اللغات المدعومة: الإنجليزية والألمانية والإسبانية والفرنسية ، مع دعم محدود للإيطالية والبرتغالية والبولندية والهولندية والرومانية والتشيكية والسويدية.

وردة

وردة

BLOOM هو نموذج لغة كبيرة الانحدار الذاتي (LLM) تم تطويره بواسطة Big Science. تم تدريب BLOOM على معلمات 176B ، وهو يتفوق في توليد استمرار النص من المطالبات باستخدام كميات هائلة من البيانات النصية والموارد الحسابية على نطاق صناعي.

المتغيرات المتاحة: بلوم-560 م ، بلوم-1ب1 ، بلوم-1ب7 ، بلوم-3ب ، بلوم-7ب1 ، بلوم 176 ب

نافذة السياق: 2048 الرموز

اللغات المدعومة: 46 لغة طبيعية (بكميات متفاوتة من البيانات ، من 30٪ للغة الإنجليزية إلى 0.00002٪ ل Chi Tumbuka)

جيما

Gemma] بناء الذكاء الاصطناعي مساعد لعلوم 🤖 البيانات

جيما ، أحدث ماجستير مفتوح من Google ، يتبع نجاح الجوزاء. جيما هي عائلة من نماذج اللغات الكبيرة ذات الأوزان المفتوحة (LLM) من Google DeepMind ، المبنية على أبحاث وتكنولوجيا Gemini. في حين أن أوزان النموذج يمكن الوصول إليها بحرية ، فقد تختلف شروط الاستخدام المحددة وإعادة التوزيع والملكية المتغيرة وقد لا تستند إلى ترخيص مفتوح المصدر.

المتغيرات المتاحة: جيما 2 ب وجيما 7 ب

نافذة السياق: 8192 توكنز

اللغات المدعومة: الإنكليزية

استنتاج

نحن في Cody نعطي الأولوية لنهج محايد للنموذج عندما يتعلق الأمر ب LLMs ، حيث نقدم نظاما أساسيا يمكنك من إنشاء روبوتات مخصصة مصممة خصيصا لحالة الاستخدام الفريدة الخاصة بك. مع مجموعة متنوعة من خيارات LLM المتاحة ، فأنت لست مقيدا بمزود واحد ، مما يمنحك حرية اختيار الأنسب لمتطلباتك.

من خلال كودي ، يمكن للشركات الاستفادة من الذكاء الاصطناعي لتطوير مساعدين أذكياء مخصصين لاحتياجاتهم الدقيقة. هذه المرونة تجعل كودي إضافة واعدة إلى عالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

ChatGPT القاتل؟ ماذا يعني الجوزاء 1.5 لمستقبل Google الذكاء الاصطناعي

جوجل مقابل OpenAI: هل تفوز جوجل؟

بعد أن فقدت العلامة مع Bard في قطار الضجيج الذكاء الاصطناعي ، كشفت Google مؤخرا عن أحدث منتج الذكاء الاصطناعي ، Gemini. كجزء من هذا الإطلاق ، تم تغيير اسم Bard إلى Gemini ويتضمن الآن Gemini Pro LLM الجديد. دعونا نتعمق أكثر لفهم مدى هذه التغييرات.

ما هو الذكاء الاصطناعي الجوزاء؟

يمثل Gemini أحدث نموذج لغة كبيرة (LLM) من Google ، بعد إصدار LaMDA و PaLM. على عكس سابقاتها ، فإن Gemini متعدد الوسائط أصلا ، وقادر على فهم النص والصور والكلام والرمز ، ويفتخر بقدرات الفهم والتفكير المحسنة.

المتغيرات من الجوزاء الذكاء الاصطناعي

يتكون الذكاء الاصطناعي الجوزاء من ثلاثة نماذج لغوية كبيرة:

  1. الجوزاء نانو: محسن لتحقيق الكفاءة على الجهاز ، مما يوفر حلول الذكاء الاصطناعي سريعة مباشرة على جهازك الشخصي.
  2. الجوزاء برو: نموذج متعدد الاستخدامات وقابل للتطوير ، بارع في معالجة المهام المتنوعة بأداء قوي. يمكن الوصول إليها على الإصدار المجاني من واجهة دردشة الجوزاء.
  3. الجوزاء الترا: قمة سلسلة Gemini ، تمكين حل المشكلات المعقدة وتعزيز حدود القدرات الذكاء الاصطناعي. حصريا للمشتركين في خطة Google One الذكاء الاصطناعي Premium.

تم تدريب نماذج الجوزاء باستخدام TPUv5e و TPUv4 ، اعتمادا على أحجامها وتكوينها. استخدم تدريب Gemini Ultra أسطولا كبيرا من مسرعات TPUv4 المملوكة لشركة Google عبر مراكز بيانات متعددة. يمثل هذا زيادة كبيرة في الحجم مقارنة بنموذجهم الرئيسي السابق PaLM-2 الذي قدم تحديات جديدة للبنية التحتية.

مقارنة الجوزاء مع LLMs الأخرى

الفهم النصي

مقارنة الجوزاء مع LLMs الأخرى

المصدر: جوجل ديب مايند

فهم الصورة

مقارنة الجوزاء مع LLMs الأخرى

المصدر: جوجل ديب مايند

اقرأ المزيد عنها هنا.

فوائد الجوزاء

1. التكامل السلس مع جميع تطبيقات Google

يتكامل Gemini الآن بسلاسة مع جميع تطبيقات Google ، بما في ذلك الخرائط و YouTube و Gmail والمزيد. للاستعلام عن تطبيقات معينة ، ما عليك سوى بادئة اسم التطبيق ب “@” متبوعا باستعلامك. في حين أنه يمكن تحقيق عمليات تكامل مماثلة على ChatGPT باستخدام GPTs والمكونات الإضافية ، إلا أنها قد لا تقدم نفس المستوى من السلاسة مثل عمليات تكامل Gemini الأصلية.

تكامل الجوزاء

تمتد خبرة Google الشهيرة في تكنولوجيا محركات البحث بلا شك إلى تعزيز قدرات تصفح الويب في Gemini. من خلال الاستفادة من نقاط القوة الأساسية في خوارزميات البحث والفهرسة ، يوفر Gemini للمستخدمين تجربة تصفح سلسة وفعالة.

2. قدرات متعددة الوسائط

يوفر Gemini الآن إمكانات متعددة الوسائط ، بما في ذلك فهم الصور ، على واجهة دردشة Gemini دون أي تكلفة إضافية. في حين أن أدائها أثناء الاختبار كان لائقا ، فقد لا يتطابق مع دقة GPT-4V. ومع ذلك ، نظرا لأنه مجاني ، لا يمكننا الشكوى حقا ، أليس كذلك؟ 😉 هناك احتمال أن يتفوق Gemini Ultra على GPT-4V بناء على المقاييس

الجوزاء متعدد الوسائط

3. حرية الوصول إلى الهواة والطلاب

بالنسبة لمطوري LLM الطموحين الذين يتطلعون إلى الغوص في هذا المجال ولكنهم يواجهون قيودا في الوصول إلى واجهات برمجة تطبيقات GPT بسبب التكاليف ، توفر Google وصولا مجانيا إلى واجهة برمجة تطبيقات Gemini Pro 1.0. باستخدام هذا ، يمكنك إجراء ما يصل إلى 60 استفسارا في الدقيقة على Google الذكاء الاصطناعي Studio ، وهي أداة مطور مجانية قائمة على الويب. يتيح لك Google الذكاء الاصطناعي Studio تطوير المطالبات بسرعة والحصول على مفتاح API لتطوير التطبيقات. من خلال تسجيل الدخول إلى Google الذكاء الاصطناعي Studio باستخدام حساب Google الخاص بك ، يمكنك الاستفادة من هذه الحصة المجانية. إنها فرصة ممتازة لبدء رحلة LLM الخاصة بك واستكشاف التضمينات وقواعد بيانات المتجهات والبحث الدلالي والمزيد.

استوديو الذكاء الاصطناعي جوجل

4. القيمة مقابل المال

مقابل 20 دولارا شهريا ، يمكن للمستخدمين الوصول إلى GPT-4 عبر ChatGPT Plus. بدلا من ذلك ، بنفس السعر ، يمكنهم الوصول إلى Gemini Advanced باستخدام Gemini Ultra 1.0 ، والذي يتضمن مزايا إضافية مثل 2 تيرابايت من التخزين السحابي والتكامل مع تطبيقات Google مثل Gmail و Docs. ومع ذلك ، يتطلب الوصول إلى Gemini Advanced اشتراكا في خطة Google One الذكاء الاصطناعي Premium. على الرغم من هذا المطلب ، فإنه يوفر قيمة أكبر لأموالك.

خطط جوجل ون

إن تقديم خطة متوسطة المستوى بسعة تخزين تبلغ 500 جيجابايت والوصول إلى Gemini Advanced بين الخطط القياسية والمميزة من شأنه أن يعزز بشكل كبير إمكانية الوصول إلى Gemini ، خاصة للطلاب والمستخدمين ذوي متطلبات التخزين المعتدلة. Google ، إذا كنت تستمع ، فيرجى مراعاة هذا الاقتراح.

ما التالي للجوزاء؟

تعمل DeepMind من Google باستمرار على تطوير نموذج Gemini ، مع طرح Gemini Pro 1.5 مؤخرا قبل أسبوع واحد فقط. في هذا المتغير المحدث، تم توسيع نافذة السياق إلى 128000 رمز مميز. بالإضافة إلى ذلك ، يمكن لمجموعة مختارة من المطورين وعملاء المؤسسات الآن تجربة نوافذ سياق أكبر تصل إلى 1 مليون رمز مميز من خلال معاينات خاصة على الذكاء الاصطناعي Studio و Vertex الذكاء الاصطناعي . لوضع هذا في المنظور الصحيح ، يحتوي الكتاب غير الخيالي النموذجي على حوالي 300000 رمز. مع نافذة سياق الرمز المميز ل Gemini Pro 1.5 التي تبلغ مليون رمز مميز ، يمكن للمستخدمين الآن تحميل كتب كاملة في طلبات الاستعلام – وهو تقدم ملحوظ مقارنة بنافذة سياق الرمز المميز ل GPT-4 البالغ عددها 128000.

وسط تشبع LLMs في صناعة الذكاء الاصطناعي ، يبدو أن Google قد حققت الذهب من خلال بنيتها المحسنة ، والاستجابات السريعة ، والتكامل السلس داخل نظام Google البيئي هذه المرة. يمكن أن تكون بالفعل خطوة في الاتجاه الصحيح ، مما يبقي OpenAI والمنافسين الآخرين على أهبة الاستعداد.

في عصر الذكاء الاصطناعي هذا ، من الأهمية بمكان أن يكون لدى الشركات موظفين مدربين تدريبا جيدا ، ويمكن أن يكون دمج الذكاء الاصطناعي لتدريب الموظفين استثمارا كبيرا. إذا كنت تبحث عن حلول الذكاء الاصطناعي لتدريب موظفيك ، فإن Cody هي الأداة المناسبة لك. على غرار ChatGPT و Gemini ، يمكن تدريب Cody على بيانات عملك وفريقك وعملياتك وعملائك ، باستخدام قاعدة المعرفة الفريدة الخاصة بك. كودي محايد للنموذج مما يسهل عليك تبديل النماذج وفقا لمتطلباتك.

مع Cody ، يمكن للشركات تسخير قوة الذكاء الاصطناعي لإنشاء مساعد شخصي وذكي يلبي احتياجاتهم على وجه التحديد ، مما يجعله إضافة واعدة لعالم حلول الأعمال التي تعتمد على الذكاء الاصطناعي.

3 أسباب مقنعة لتوظيف موظف الذكاء الاصطناعي لعملك

Revolutionize your workplace with AI

لماذا يحتاج عملك إلى موظف الذكاء الاصطناعي اليوم

ليس هناك من ينكر القوة التحويلية للحلول الذكاء الاصطناعي مثل ChatGPT في أماكن العمل الحديثة. من تبسيط صياغة البريد الإلكتروني إلى تقديم دعم الصحة العقلية ، تحدث ChatGPT ثورة في كيفية تعاملنا مع المهام اليومية. ومع ذلك ، فإنه لا يخلو من قيوده ، مثل عدم وجود تخصيص لقاعدة معارف عملك المحددة. أدخل Cody ، الحل الخالي من المتاعب بدون رمز لجلب أفضل ما في الذكاء الاصطناعي إلى مؤسستك.

دعنا نستكشف ثلاث طرق يمكن الذكاء الاصطناعي تفيد مؤسستك:

التدريب: من ثابت إلى ديناميكي

غالبا ما تتضمن طرق التدريب التقليدية تدفقات ثابتة ومحددة مسبقا ليست أقل جاذبية فحسب ، بل ليست بالضرورة مصممة خصيصا لاحتياجات عملك. من خلال الاستفادة من الذكاء الاصطناعي ، يمكنك إضفاء الديناميكية والتفاعل على برامج تدريب الموظفين.

مع Cody ، الأمر بسيط مثل تحميل مستندات التدريب الحالية – سواء كانت مستندات PDF أو Word. اختر من بين قوالب الروبوتات المعدة مسبقا أو استخدم أداة إنشاء الروبوتات المتقدمة لتخصيص شخصية كودي حسب رغبتك. في بضع خطوات سهلة ، سيكون لديك مدرب إعداد مخصص يلبي احتياجات كل موظف ، وبالتالي تعزيز فعالية وبديهية برامج التدريب الخاصة بك.

البحث: إتاحة المعرفة

ما الهدف من وجود قاعدة معرفية تجارية موثقة جيدا إذا كان موظفوك يقضون وقتا طويلا في غربلة البيانات؟ تعمل الحلول التي تعمل الذكاء الاصطناعي مثل Cody على تحويل طريقة الوصول إلى المعلومات داخل مؤسستك ، وتعمل مثل محرك بحث داخلي.

بمجرد تحميل معرفتك التجارية إلى Cody ، سيتم تلبية أي استعلام يتم إجراؤه بلغة طبيعية باستجابة دقيقة ومتماسكة تم إنشاؤها من بياناتك المحددة. إنه مثل وجود خبير بشري 24 / 7 جاهز لمعالجة جميع استفساراتك. لقد ولت أيام البحث بلا هدف من خلال البيانات التي لا نهاية لها.

التشغيل الآلي: تبسيط مهام سير العمل

يتيح لك آخر تحديث لدينا نقل الأتمتة إلى المستوى التالي. يتكامل Cody الآن بسلاسة مع Zapier ، مما يتيح لك إنشاء مهام سير عمل مؤتمتة تعمل بالطاقة الذكاء الاصطناعي والتي ليست فعالة فحسب ، بل سهلة الاستخدام أيضا. من خلال أتمتة المهام الروتينية ، فإنك تحرر موظفيك للتركيز على عمل أكثر جدوى. ومع قدرات كودي الذكاء الاصطناعي ، فإن المحتوى الذي تم إنشاؤه على قدم المساواة مع ما يمكن أن ينتجه الإنسان ، إن لم يكن أفضل.

Zapier هي أداة تمكنك من ربط Cody بأكثر من 5000 تطبيق ، مما يفتح عالما من الاحتمالات اللانهائية.

المستقبل الآن ، وهو كودي

لقد بحثنا في القوة التحويلية الذكاء الاصطناعي في مكان العمل ، مع التركيز على تأثيرها على التدريب والبحث وأتمتة سير العمل. مع منصات مثل كودي ، المستقبل ليس حقيقة بعيدة. إنه يحدث هنا والآن. لا يوفر تكامل الذكاء الاصطناعي كفاءة تشغيلية مبسطة فحسب ، بل يوفر أيضا انخفاضا كبيرا في التكاليف وتعزيزا في رضا الموظفين.

فلماذا الانتظار؟ سواء كنت شركة ناشئة تتطلع إلى التوسع أو شركة راسخة تهدف إلى التحديث ، فإن الوقت الحالي هو الوقت المثالي لتبني حلول الذكاء الاصطناعي. مع مزايا مقنعة وسجل حافل ، تقدم Cody خيارا خاليا من المتاعب وبدون رمز لأولئك الذين يتطلعون إلى تحقيق قفزة إلى مستقبل العمل.

لا تفوت الفرصة لإحداث ثورة في ديناميكيات مكان عملك. انقر هنا لبدء رحلتك مع كودي واكتشاف عالم من الكفاءة والابتكار لم تعتقد أنه ممكن.