كيف ينشئ كودي ردودا باستخدام مستنداتك؟
عندما تبدأ مع كودي ، من المحتمل أن تشعر بخيبة أمل أو إحباط بشأن سبب عدم قدرة كودي على توليد الردود المتوقعة. في هذه المدونة القصيرة ، لن نتعمق في كيفية استخدام Cody ، لكننا سنقدم لك فكرة تقريبية عن كيفية استخدام Cody لمستنداتك لإنشاء ردود حتى تتمكن من فهم عملية الإنشاء وتجربتها بشكل أفضل.
هناك عاملان رئيسيان يؤثران بشكل أساسي على إنشاء الاستجابة باستخدام مستنداتك:
- التقطيع
- نافذة السياق
كل من هذه المصطلحات ، التقسيم ونافذة السياق ، مترابطة. يمكن رسم تشبيه بسيط لمقارنة توليد الاستجابة بطهي الطعام. يمكن رؤية القطع على أنها قطع الخضار الفردية التي تقطعها ، بينما تمثل نافذة السياق حجم أواني الطهي. من المهم تقطيع الخضار إلى قطع بحجم مثالي لتعزيز المذاق العام ، ويسمح الإناء الأكبر بإضافة المزيد من قطع الخضار.
ما هو التشنكينغ؟
بعبارات بسيطة ، التقسيم هو عملية تقسيم المحتوى إلى أجزاء يمكن التحكم فيها من أجل الاستخدام الفعال للذاكرة. إذا كنت قد قرأت مدوناتنا ، فقد تدرك أن نماذج مثل GPT تتطلب موارد كبيرة ، ولمعالجة قيود نافذة السياق ، فإننا نستخدم عمليات متعددة مثل التقطيع.
التقطيع هو عملية يتم إجراؤها بعد تحميل المستندات إلى Cody. يقسم المستند أو يقسمه إلى أجزاء متعددة ، حيث يحتوي كل جزء على سياق محيطي ذي صلة. ثم يتم تعيين علامات رقمية لهذه القطع لتسهيل الحساب ، وهو ما يعرف باسم التضمين. من المهم العثور على حجم القطعة الأمثل. يقلل حجم القطعة الأصغر من ملاءمة السياق ، بينما يقدم حجم القطعة الأكبر مزيدا من الضوضاء. تقوم خوارزمية التقطيع الخاصة ب Cody بضبط حجم القطعة ديناميكيا بناء على توزيع الرمز المميز الذي حدده المستخدم.
كيف تؤثر نافذة السياق على استجابات الروبوت؟
تؤثر عوامل مختلفة مثل موجه الشخصية ، ودرجة الصلة ، وما إلى ذلك ، على جودة استجابات الروبوت. تلعب نافذة السياق للنموذج أيضا دورا مهما في تحديد الجودة. تشير نافذة السياق إلى مقدار النص الذي يمكن ل LLM (نموذج اللغة) معالجته في مكالمة واحدة. نظرا لأن Cody يستخدم التضمين وحقن السياق لإنشاء إجابات باستخدام نماذج OpenAI ، فإن نافذة السياق الأكبر تسمح بمزيد من استيعاب البيانات بواسطة النموذج في كل استعلام.
💡 كل استعلام (≤ نافذة السياق) = شخصية الروبوت + أجزاء المعرفة + السجل + إدخال المستخدم + الاستجابة
نوافذ السياق لنماذج مختلفة:
- GPT-3.5: 4096 رمزا (≈3500 كلمة)
- GPT-3.5 16K: 16000 رمز (≈13000 كلمة)
- GPT-4: 8000 رمز (≈7000 كلمة)
عندما تكون نافذة السياق أكبر ، فإنها تتيح نسبة أكبر من كل معلمة ، بما في ذلك الشخصية والقطع والمحفوظات والإدخال والاستجابة. يمكن هذا السياق الموسع الروبوت من إنشاء استجابات أكثر صلة وتماسكا وإبداعا بطبيعتها.
تتيح أحدث إضافة ل Cody للمستخدمين التحقق من اقتباسات المستندات بالنقر فوق اسم المستند في نهاية الردود. تتوافق هذه الاستشهادات مع الأجزاء التي تم الحصول عليها من خلال البحث الدلالي. يحدد Cody حد القطعة للسياق استنادا إلى درجة الصلة التي حددها المستخدم. إذا قام المستخدم بتعيين درجة صلة عالية ، فإن Cody يستخدم فقط الأجزاء التي تتجاوز حدا محددا مسبقا كسياق لإنشاء الإجابة.
مثل
بافتراض قيمة حد عتبة محددة مسبقا تبلغ 90٪ للحصول على درجة صلة عالية ، يتجاهل Cody أي أجزاء ذات درجة صلة أقل من 90٪. نوصي المستخدمين الجدد بالبدء بدرجة ملاءمة أقل (منخفضة أو متوازنة) ، خاصة عند استخدام المستندات التي تم تحميلها (ملفات PDF ، Powerpoints ، Word ، إلخ) أو مواقع الويب. قد تواجه المستندات أو مواقع الويب التي تم تحميلها مشكلات في التنسيق وسهولة القراءة أثناء المعالجة المسبقة ، مما قد يؤدي إلى انخفاض درجات الصلة. سيضمن تنسيق المستند باستخدام محرر النصوص المدمج لدينا بدلا من تحميل المستندات الأولية أعلى درجة من الدقة والثقة.
إذا وجدت هذه المدونة مثيرة للاهتمام وترغب في التعمق في مفاهيم نافذة السياق والتقطيع ، فإننا نوصي بشدة بقراءة هذه المدونة التي كتبها كريستيان من All About الذكاء الاصطناعي. لمزيد من الموارد ، يمكنك أيضا التحقق من مركز المساعدة والانضمام إلى مجتمع Discord الخاص بنا.