عادة ما يستحضر تنسيق الوكلاء المتعددين في الذهن واجهات برمجة السحابة. لكن عرضاً تجريبياً شارعه المجتمع مؤخراً يشير إلى اتجاه مختلف. فقد شغّل نموذج Gemma 4 26B على جهاز محلي لتنسيق 10 وكلاء فرعيين متوازيين يكتبون معرض فن بصيغة SVG، وحقق حسب التقارير معدل معالجة تجاوز 100 رمز في الثانية.

في ThakiCloud نتعامل مباشرة مع خدمة النماذج وسير عمل الوكلاء المتعددين على منصتنا السحابية للذكاء الاصطناعي والتعلم الآلي المبنية على K8s. لنستعرض لماذا يمثل هذا العرض نقطة تحول في اقتصاد الاستدلال المحلي، وما الذي يعنيه من الناحية التشغيلية.

ما الذي تغيّر: أصبحت أنظمة الوكلاء المتعددين المحلية عملية فعلاً

اجتمع هنا أمران في آن واحد.

  • النماذج أصبحت صغيرة وسريعة بما يكفي: نماذج مفتوحة الأوزان متوسطة الحجم مثل Gemma 4 26B تعمل الآن على وحدات معالجة الرسومات المحلية بمعدل معالجة عملي.
  • يمكن تشغيل الوكلاء بشكل متوازٍ: يمكن لنموذج واحد أن يوزّع المهام على عدد كبير من الوكلاء الفرعيين في آن واحد، فيوزّع المهام المستقلة بينهم.

عشرة وكلاء فرعيين، كل واحد منهم ينتج عملاً فنياً بصيغة SVG ثم يجمّع النتائج في معرض واحد، يُظهر أن أنماط الوكلاء المتعددين يمكن التحقق منها محلياً دون أي تكاليف لواجهات برمجة السحابة. (رقم المئة رمز في الثانية أو أكثر هو رقم أبلغ عنه الكاتب نفسه من بيئته المحلية، لذا من الدقيق اعتباره [تقديري]. فهو يتغير كثيراً بحسب العتاد ودقة التكميم وإعدادات الدُفعات.)

المنظور التشغيلي لتنسيق الوكلاء المتعددين

تشغيل وكلاء فرعيين متوازيين أمر مثير، لكن تشغيله فعلياً يتطلب انضباطاً. هذه هي المبادئ التي توصلنا إليها من خلال عملنا مع سير عمل الوكلاء المتعددين.

  • اجعل العامل رخيصاً وأنفق على البوابة فقط: مهام التوزيع مثل الاستكشاف والتوليد يكفيها نموذج محلي صغير. اترك مرحلة الحكم مثل التوليف والتحقق للنموذج الأقوى. تشغيل كل شيء على النموذج نفسه لا يعطي أفضل جودة ولا أفضل تكلفة.
  • التوازي يستدعي تنافساً على الموارد: تشغيل 10 وكلاء فرعيين في آن واحد يعني أن ذاكرة وحدة معالجة الرسومات وذاكرة التخزين المؤقت للمفاتيح والقيم تتنافس على المساحة. لا بد من الموازنة بين المعالجة التسلسلية والمتوازية حسب طبيعة المهمة.
  • مرحلة التحقق هي ما يصنع الجودة: بعد جمع مخرجات العمال المتوازيين، إضافة مرحلة تحقق تنافسية إضافية واحدة ترفع الجودة دون الحاجة لرفع درجة النموذج. مشاكل الجودة غالباً ما تنشأ من غياب التحقق وليس من ضعف النموذج.

منظور ThakiCloud: اقتصاد الاستدلال المحلي

السبب الحقيقي وراء أهمية عرض الوكلاء المتعددين المحلي هو سيادة البيانات والتكلفة. هناك طلب واضح على معالجة الأكواد والوثائق الحساسة على وحدات معالجة رسومات داخلية بدلاً من إرسالها إلى واجهة برمجة خارجية. ومع وصول النماذج مفتوحة الأوزان متوسطة الحجم إلى معدل معالجة عملي، يتوقف هذا الطلب عن كونه نظرياً ويصبح خياراً قابلاً للتشغيل فعلياً.

وهذا هو بالضبط المجال الذي نعمل فيه: توحيد خدمة النماذج على K8s، وترتيب أحمال عمل وحدات معالجة الرسومات في طوابير عبر Kueue، وتشغيل تنسيق الوكلاء المتعددين بطريقة قابلة لإعادة الإنتاج. توسيع عرض تجريبي على جهاز واحد ليصبح بنية خدمة على مستوى المؤسسة يجعل من جدولة الموارد والعزل والمراقبة تحديات أساسية. تشغيل نموذج واحد أمر يختلف تماماً عن جعل عدة مستأجرين يشغّلون وكلاء متعددين بشكل موثوق.

في الختام

عرض Gemma 4 26B للوكلاء المتعددين المحلي إشارة إلى أن الاستدلال المحلي أصبح عملياً فعلاً. فمع تصغير النماذج وزيادة سرعتها، صار بالإمكان التحقق من أنماط الوكلاء المتعددين دون تكاليف سحابية. وبالنسبة للمهندسين المهتمين بتوسيع هذا على مستوى المؤسسة، فإن مشاكل الخدمة والجدولة هذه هي بالضبط ما نعمل عليه يومياً هنا.


المصدر: عرض تجريبي من المجتمع لتنسيق الوكلاء المتعددين المحلي باستخدام Gemma 4 26B. معلومات نموذج Gemma: https://ai.google.dev/gemma (أرقام معدل المعالجة مُبلَّغ عنها ذاتياً من قِبل الكاتب من اختباره المحلي [تقديري])