Chain of Agents: تعاون النماذج اللغوية الكبيرة في معالجة المهام ذات السياق الطويل

⏱️ وقت القراءة المقدر: 12 دقيقة

مقدمة

على الرغم من التطور الكبير في النماذج اللغوية الكبيرة (LLM)، تظل معالجة السياق الطويل بفاعلية تحدياً جوهرياً. تقدّم الورقة البحثية المشتركة بين Google Cloud AI Research وجامعة Penn State، بعنوان “Chain of Agents: Large Language Models Collaborating on Long-Context Tasks”، نهجاً جديداً لمعالجة هذه الإشكالية.

يتجاوز هذا البحث القيود المنهجية للمقاربات التقليدية القائمة على توسيع نافذة السياق أو تقليص حجم المدخلات، ويقدّم إطار عمل Chain-of-Agents (CoA) الذي يُتيح دمج المعلومات والاستدلال بصورة طبيعية عبر التعاون بين وكلاء متعددين. يتناول هذا المقال الأفكار المحورية للورقة بتحليل تفصيلي فقرة بفقرة.

خلفية البحث وتعريف المشكلة

الإشكالية الجوهرية في معالجة السياق الطويل

تتخطى إشكالية معالجة السياق الطويل الحدود التقنية لتصل إلى تحدٍّ معرفي حقيقي. ففي تطبيقات من قبيل الإجابة عن الأسئلة وتلخيص المستندات وتلخيص المحادثات وإكمال الكود، كثيراً ما يُطلب سياق بالغ الطول يشمل كتباً بأكملها أو مقالات مطوّلة.

في هذا الإطار، يواجه LLM قيدين رئيسيين: أولهما القيد المادي لنافذة السياق الذي يحول دون معالجة المعلومات كاملةً في آنٍ واحد، وثانيهما ظاهرة “الضياع في المنتصف” (lost in the middle) التي تُضعف قدرة النموذج على التركيز على المعلومات الجوهرية داخل النصوص المطوّلة حتى عند توفّر الإمكانية التقنية.

تحليل قيود الحلول القائمة

يُصنّف الباحثون المقاربات الموجودة في فئتين ويكشفون عن حدود كل منهما. تقليص المدخلات (Input Reduction): تسعى أساليب كالاقتطاع (Truncation) وRAG (الاسترجاع المعزَّز بالتوليد) إلى تقليص المدخلات لتلائم نطاق معالجة LLM، غير أن ذلك ينطوي على خطر إغفال معلومات حيوية، فضلاً عن تدني الأداء حين تكون دقة الاسترجاع منخفضة.

توسيع النافذة (Window Extension): تسعى نماذج كـ Claude-3 إلى معالجة ما يصل إلى 200 ألف رمز، إلا أن قدرة LLM على التركيز على المعلومات الجوهرية تتراجع تراجعاً حاداً مع اتساع النافذة، مما يُفضي إلى ضعف في توظيف السياق واستثماره.

التحليل التفصيلي لمنهجية Chain-of-Agents

الفلسفة المستوحاة من الإدراك البشري

تستوحي الفكرة المحورية لإطار CoA طريقةَ معالجة الإنسان للنصوص الطويلة. إذ يقرأ الإنسان هذه النصوص بصورة تسلسلية مُحتفظاً بالمعلومات الجوهرية وبانياً الفهم الكلي تدريجياً. تُجسّد CoA هذه العملية المعرفية الطبيعية في منظومة متعددة الوكلاء، يقرأ فيها كل وكيل المعلومات ويعالجها بالتسلسل ويُمرّرها إلى الوكيل التالي.

آلية التعاون على مرحلتين

تنقسم CoA إلى مرحلتين واضحتين. المرحلة الأولى: تعاون الوكلاء العمال (Worker Agents): يُجزّأ السياق الطويل إلى مقاطع متعددة، ويتولى كل وكيل عامل معالجة مقطعه بالتتابع. يعالج كل وكيل الرسالة الواردة من الوكيل السابق إلى جانب المقطع النصي المسنَد إليه، لجمع الأدلة اللازمة للإجابة عن الاستفسار وتجميعها. الأساس هنا أن كل وكيل لا يعمل باستقلالية تامة، بل يُراكم المعلومات تدريجياً انطلاقاً من معالجة الوكيل السابق.

المرحلة الثانية: تكامل الوكيل المُدير (Manager Agent): يستقبل الوكيل المُدير من الوكيل العامل الأخير الأدلةَ والمعلومات الكاملة، ثم يتولى توليد الإجابة النهائية بتحليل شامل لكل ما جمعه الوكلاء.

الفارق الجوهري عن المنهجيات القائمة

يتميز CoA بأسلوب “القراءة والمعالجة المتشابكة” (interleaved read-process). فبينما تعتمد طريقة تقليص المدخلات نمط “اقرأ ثم عالج” (read-then-process) بتقليص المدخلات أولاً، تعتمد CoA معالجة كل مقطع أثناء قراءته، مما يُعالج إشكاليات مهام كالتلخيص أو الإحصاء.

وفيما تسعى طريقة توسيع النافذة إلى حشد عدد كبير من الرموز في LLM واحد، تُقدّم CoA حلاً أكثر طبيعية يستثمر قدرات التواصل، مُستندةً إلى الافتراض الواقعي بأن لكل LLM حدوداً في المعالجة وأن المهام المعقدة ستتجاوز هذه الحدود دوماً.

تصميم التجارب وتقييم الأداء

بيئة تجريبية شاملة

بنى الباحثون بيئة تجريبية دقيقة لإثبات أداء CoA، إذ استعانوا بـ 9 مجموعات بيانات تشمل مهام متنوعة كالإجابة عن الأسئلة والتلخيص وإكمال الكود، ووظّفوا 6 نماذج LLM مختلفة تشمل PaLM 2 وGemini وClaude 3، لتقليص الاعتماد على نموذج بعينه والتحقق من القدرة على التعميم.

صُمّمت مجموعات البيانات لتقييم جوانب متعددة: تقيس HotpotQA القدرة على دمج المعلومات من وثائق متعددة في الأسئلة متعددة الخطوات، وتقيس NarrativeQA مهارة الاستيعاب في القصص الطويلة، وتقيّم QMSum قدرة التلخيص للمحادثات والمقابلات المطوّلة، فيما تختبر RepoBench-P إكمال الكود في قواعد بيانات ضخمة.

المقارنة مع خطوط أساس قوية

اختار الباحثون خطّين أساسيين للمقارنة: خط RAG الأساسي الذي يُمثّل تزويد LLM بأكثر المعلومات صلةً عبر أحدث أدوات الاسترجاع، وخط السياق الكامل (Full-Context / Vanilla) الذي يُمثّل تغذية LLM بكامل المدخلات حتى حدود النافذة.

والجدير بالاهتمام أن الباحثين، إدراكاً منهم لشُح الدراسات حول الأنظمة متعددة الوكلاء، طوّروا خطين أساسيين إضافيين: نظام متعدد الوكلاء ذو بنية هرمية، وأسلوب دمج النتائج. وذلك لإثبات أن تفوّق CoA لا يعود إلى طابعه متعدد الوكلاء وحسب، بل إلى فلسفته التصميمية المتميزة.

النتائج الرئيسية وتحليل الأداء

تحسّن أداء شامل

جاءت نتائج التجارب دليلاً صريحاً على تفوّق CoA: حقّق CoA تحسّناً ملموساً على جميع خطوط الأساس في كل مجموعات البيانات التسع، بلغت ذروته 10%. لا يُمثّل هذا التحسّن مجرد أرقام، بل يُثبت التفوّق الجوهري للتعاون متعدد الوكلاء في معالجة السياق الطويل.

والأكثر إثارةً أن هذه التحسينات تجلّت بصورة متسقة عبر نماذج LLM ومهام متنوعة، مما يدل على أن CoA ليس حلاً مخصصاً لنموذج أو مهمة بعينها، بل إطار عمل شامل لمعالجة الإشكاليات العامة للسياق الطويل.

تحليل الكفاءة الحسابية

يُوفّر CoA أيضاً مزايا في التعقيد الحسابي: فبينما يبلغ التعقيد الزمني لأسلوب السياق الكامل n² (حيث n عدد رموز المدخلات)، يصل تعقيد CoA إلى nk (حيث k حدود سياق LLM) وهو أدنى بكثير. يكشف هذا عن القيمة العملية لـ CoA من حيث الكفاءة التشغيلية، وهو اعتبار بالغ الأهمية في بيئات الإنتاج.

تحليل حالات عينية

تُجسّد الأمثلة الواردة في الورقة آلية عمل CoA. في مثال مجموعة HotpotQA، وللإجابة عن سؤال “ما الجسم السماوي الذي زاره Gary L. Bennett في المهمة الفضائية التي شارك فيها؟”، يجمع الوكلاء العمال بالتتابع سجلّ مشاركات Bennett في المهام المختلفة، ليتعرّفوا إلى المعلومة المحورية وهي أن مهمة Ulysses كانت تهدف إلى استكشاف القطبين الشمسيين، فيتوصّل الوكيل المُدير إلى الإجابة الصحيحة: “الشمس”.

أما في مثال مجموعة QMSum، فعند تلخيص نقاشات حول المكونات الصناعية، يُراكم الوكلاء تدريجياً عناصر النقاش المتعلقة باختيار مواد التيتانيوم والمطاط وتصميم الأزرار وتقنية التعرف على الصوت، ليُنتجوا ملخصاً منظماً وشاملاً.

متانة النموذج وقدرته على التعميم

أداء متسق عبر نماذج LLM متنوعة

من أبرز سمات CoA حصوله على تحسينات متسقة عبر معماريات LLM المختلفة. إن تحقيق مستوى مماثل من التحسّن على نماذج ذات خصائص متباينة كـ PaLM 2 وGemini وClaude 3 يؤكد أن CoA لا يتكئ على خصائص نموذج بعينه، بل هو حل عام قابل للتطبيق الواسع.

متانة في مواجهة أحجام نوافذ السياق المختلفة

أثبتت تجارب إضافية باستخدام Claude 3 Haiku أن CoA يحافظ على أداء مستقر عبر أحجام مختلفة لنوافذ السياق. يُشير هذا إلى مرونة CoA وقابليته للتطبيق في بيئات تشغيل متباينة تستلزم أحجاماً مختلفة للنوافذ بفعل قيود الأجهزة أو الاعتبارات الاقتصادية.

إمكانية التفسير والشفافية

مسار تعاوني مفهوم للإنسان

تتمثّل ميزة جوهرية أخرى لـ CoA في قابليته العالية للتفسير. إذ تُعبَّر عملية معالجة كل وكيل عامل وعملية التكامل لدى الوكيل المُدير بلغة طبيعية، مما يُتيح للمستخدم فهم مسار استخلاص النتائج والتحقق منه. وهذه سمة نفيسة في التطبيقات التي تستوجب الثقة والشفافية في أنظمة الذكاء الاصطناعي.

تشخيص الأخطاء وإمكانية التحسين

نظراً لإمكانية رصد عملية المعالجة التسلسلية للوكلاء بالكامل، يمكن تتبّع مصدر الخطأ في حال صدور إجابة غير دقيقة، وهو ما يُتيح تحسين النظام وضبط جودته بصورة منهجية ومستدامة.

القيود واتجاهات البحث المستقبلية

أهمية تصميم التوجيهات (Prompts)

من أبرز القيود التي يُقرّ بها الباحثون أن CoA يرتكز على التوجيهات (prompts)، مما يستلزم تصميماً دقيقاً للتوجيهات عند تطبيقه على نماذج LLM جديدة لبلوغ الأداء الأمثل. غير أن هذا قيد مشترك بين معظم أنظمة LLM الحالية.

تضاعف استدعاءات API وزمن الاستجابة

يستلزم الطابع متعدد الوكلاء لـ CoA مزيداً من استدعاءات API مقارنةً بالوكيل المفرد، مما قد يُفضي إلى زيادة في حركة الشبكة وزمن الاستجابة. وفي التطبيقات الحساسة لسرعة الاستجابة، قد يؤثّر ذلك في تجربة المستخدم.

اعتبارات قابلية التوسع

اعتمدت الدراسة الحالية عدداً محدوداً من الوكلاء العمال، وثمة حاجة إلى مزيد من البحث حول الأداء والكفاءة عند الزيادة الكبيرة في عدد الوكلاء لمعالجة سياقات أطول بكثير.

الدلالات العملية وإمكانيات التطبيق الصناعي

آفاق التطبيق في البيئات المؤسسية

يمتلك CoA إمكانات تطبيقية واسعة في بيئات العمل المؤسسية التي تستلزم معالجة وثائق طويلة. ويُتوقع أن يُقدّم أداءً متفوقاً في مجالات كتحليل الوثائق القانونية وتلخيص التقارير التقنية ومعالجة التقارير الضخمة مقارنةً بالمنهجيات القائمة.

القيمة في بيئات البحث والتطوير

في سياق البحث الأكاديمي والبيئات البحثية والتطويرية التي تتطلب مراجعة أدبيات واسعة أو تحليل قواعد أكواد برمجية ضخمة، يمكن للمعالجة المنهجية للمعلومات في CoA أن ترفع إنتاجية الباحثين رفعاً ملموساً.

خاتمة وآفاق مستقبلية

يُقدّم Chain-of-Agents نهجاً مبتكراً وعملياً للتغلب على قيود LLM الجوهرية في معالجة السياق الطويل. يُقدّم الأسلوب التعاوني متعدد الوكلاء، المستوحى من الإدراك البشري، قابلية عالية للتفسير وكفاءة في التكلفة، مع تجاوز فعّال لقصور المنهجيات القائمة.

يتجاوز هذا البحث تقديم حل تقني جديد ليقترح تحولاً في نظرة تصميم أنظمة LLM: قد يكون توظيف الذكاء الجمعي عبر تعاون نماذج متعددة أجدى وأنجع من السعي إلى توسيع قدرات نموذج مفرد إلى أقصى حدودها.

يُرجَّح أن يتطور هذا البحث مستقبلاً نحو تعاون أكثر اتساعاً بين الوكلاء، وتوزيع ديناميكي للمهام، وتكوينات وكلاء متخصصة في مجالات متعددة. ومن المنتظر أن تثبت قيمته أكثر مع التحسين في بيئات الإنتاج الفعلية وتوسيع نطاق تطبيقه في مختلف القطاعات.

معلومات الورقة البحثية

العنوان: Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
المؤلفون: Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan O. Arik
الانتماء المؤسسي: Penn State University, Google Cloud AI Research
النشر: arXiv:2406.02818
الرابط: https://arxiv.org/pdf/2406.02818