Agents Last Exam: لماذا تطوّر معيار تقييم وكلاء استخدام الحاسوب إلى 153 مهمة طويلة الأمد

⏱️ وقت القراءة المقدر: 8 دقائق

مخطط مفاهيمي لتقييم وكيل Agents Last Exam

نظرة عامة على مجموعة البيانات

agents-last-exam مجموعة بيانات معيارية لتقييم وكلاء استخدام الحاسوب (computer-use) وفق معيار المهام الطويلة الأمد (long-horizon tasks). تتألف من 153 مهمة تمتد عبر مجالات متخصصة متعددة كـ Business وComputing وMathematics وEngineering وLegal، وتقيس قدرة الوكيل على إنجاز سير عمل مهني فعلي.

في حين ركّزت أغلب المعيارات التقليدية على الإجابة عن أسئلة فردية أو إكمال شفرات بسيطة، تتميز هذه المجموعة بقياسها “اكتمال المهمة” من حيث قدرة الوكيل على استخدام أدوات متعددة بالتسلسل، وحفظ المخرجات الوسيطة في ملفات، وتسليم المنتج النهائي.

البنية والمخطط

الحجم

إجمالي المهام: 153 (تقسيم مفرد v1.0)
طول task_prompt لكل مهمة: 502 إلى 5,840 حرفاً
الإجراءات الإلزامية (agent_must_do) لكل مهمة: 0 إلى 9 إجراءات
ملفات الإدخال المرفقة لكل مهمة: 0 إلى 14 ملفاً

توزيع المجالات

المجال	عدد المهام (تقريبي)
Computing and Mathematics	نحو 70
Business and Finance	نحو 60
Education and Information	نحو 10
Engineering	نحو 10
Legal	نحو 3

المخطط

يتكون كل سجل من الحقول التالية:

الحقل	الوصف
`task_id`	معرّف المهمة
`title`	عنوان المهمة
`summary`	ملخص المهمة
`category`	المجال الرئيسي
`subdomain`	المجال الفرعي
`task_prompt`	التعليمات الفعلية الممنوحة للوكيل
`agent_must_do`	قائمة الإجراءات الإلزامية التي يتحقق منها المقيّم
`software`	البرمجيات والأدوات الواجب استخدامها
`input_files`	قائمة ملفات الإدخال اللازمة لإنجاز المهمة
`taxonomy`	بيانات وصفية للمجال والمجال الفرعي
`source_repo_path`	مسار المصدر القابل للتحقق

صيغة الملف

Parquet (تحويل تلقائي من المصدر). اللغة: الإنجليزية.

أنواع المهام

المحاسبة والتمويل: معالجة النماذج الضريبية وتحليل القوائم المالية وأبحاث الأسهم
سلاسل التوريد: أتمتة سير العمل في Odoo ERP
التمويل الكمي: تسعير الخيارات وإعادة إنتاج نماذج العوامل
الأمن السيبراني: تحليل البرمجيات الخبيثة والجنائيات على الحزم
البنية التحتية: تحسين Kubernetes وخفض تكاليف AWS
هندسة البيانات: خطوط أنابيب ETL وأنظمة التوصية

الرخصة

CC-BY-4.0، وهي رخصة تتيح الاستخدام التجاري والتعديل وإعادة التوزيع بحرية مع الإشارة إلى المصدر. تُصنَّف من أكثر رخص مجموعات البيانات المعيارية انفتاحاً.

تطوّر معايير تقييم الوكلاء

لفهم أهمية هذه المجموعة، لا بد من استيعاب كيفية تطور معايير تقييم الوكلاء.

ركّزت معيارات نماذج اللغة الأولى كـ MMLU وHellaSwag على دقة الإجابة عن الأسئلة متعددة الخيارات. حين بلغت هذه النماذج حد الإشباع، انتقل التقييم إلى معيارية توليد الشفرات كـ HumanEval وMBPP. مع دخول عصر الوكلاء، ظهرت معيارية كـ SWE-Bench لحل مشكلات GitHub الفعلية بالشفرة.

agents-last-exam امتداد لهذا المسار. لا يكتفي بتقييم كتابة الشفرة، بل يقيس قدرة الوكيل على إتمام سير عمل كامل: فتح المتصفح، واسترداد البيانات من نظام ERP، وتعديل جداول البيانات، وتسليم ملف التقرير النهائي.

منهجية التقييم

يقوم التقييم على عقد مخرجات حتمية (deterministic output contract). حين يُسلّم الوكيل JSON أو XLSX أو ملف شفرة أو تقرير بالصيغة المحددة، يُتحقق من محتوياته وفق معايير كل مجال:

الدقة المالية: هل تطابق نتائج الحسابات القيمة المرجعية؟
الصرامة الأمنية: هل توصّل تحليل البرمجيات الخبيثة إلى الاستنتاج الصحيح؟
الامتثال لمخطط البيانات: هل يتبع مخرج ETL المخطط المحدد؟
قابلية التشغيل: هل تعمل الشفرة المولّدة فعلياً؟

تُقيَّم الإجراءات الإلزامية المدرجة في حقل agent_must_do بالتسجيل الموزون، وتختلف مواصفات التقييم من مهمة إلى أخرى.

فئات البرمجيات المستخدمة

تشمل البرمجيات التي يجب على الوكيل التعامل معها في 153 مهمة: أتمتة المتصفح وتحليل PDF وسير عمل GeoPackage والبرمجة النصية بـ Python وC++ وSQL والصدفة، وكذلك Odoo وMetabase وFlowable BPMN وLibreOffice وRhino 8 وDocker وKubernetes وإدارة صلاحيات Linux. لا يُعنى الأمر بمطالبة وكيل واحد بالتفوق في جميع هذه المجالات، بل بقياس المستوى الفعلي في كل مجال بدقة وتفصيل.

بناء خط أنابيب قياسي لنماذجك الخاصة

القيمة العملية لهذه المجموعة تتجلى في توظيفها مرجعاً لقياس أداء وكلاء النماذج الداخلية. نظراً لعدم توفر أرقام أداء baseline رسمية مع المجموعة، يتعين على الجهات المستخدمة وضع مرجعها الخاص. وبالمثل، يُتاح تحديد معيار مقارنة داخلي مستقل بعيداً عن الأرقام المنشورة للعموم.

مراحل بناء خط أنابيب التقييم:

تصفية المهام حسب المجال: تحديد نطاق التقييم باستخدام category وsubdomain.
تهيئة بيئة الأدوات: تجهيز الأدوات المحددة في حقل software لكل مهمة ضمن بيئة حاوية.
تشغيل الوكيل: تغذية task_prompt لكل مهمة مدخلاً للوكيل.
جمع المخرجات: حفظ الملفات أو الاستجابات التي أنتجها الوكيل في دليل مخرجات مخصص لكل مهمة.
تشغيل التحقق: التحقق التلقائي من الإكمال وفق قائمة الإجراءات في حقل agent_must_do.

زوايا الاستفادة لدى ThakiCloud

للمنصة اتجاهان رئيسيان للاستفادة من هذه المجموعة:

قياس قدرات الوكيل الداخلي: إجراء قياسات دورية لأداء نماذج الوكيل الذكي المُشغَّلة في Kueue على 153 مهمة من agents-last-exam للتحقق من مدى إكمالها المهام المهنية الفعلية. مهام Kubernetes ومهام هندسة البيانات على وجه الخصوص مناسبة لتحديد نقاط القوة والضعف في نموذج البنية التحتية الداخلية.

اختبار الانحدار في تطوير الوكيل: استخدامها اختباراً آلياً للانحدار عند كل تحديث لنموذج الوكيل أو سياسة الأدوات، عبر تشغيل مجموعة فرعية من مهام المجال ذي الصلة للتحقق من عدم تراجع الأداء. رخصة CC-BY-4.0 لا تفرض أي قيد على دمجها في خطوط الأنابيب الداخلية.

اتباع بنية ArgoCD GitOps يُتيح إدارة مهام التقييم لكل مهمة في صورة شفرة، مع تشغيل المعيارية تلقائياً عند كل تغيير في إصدار الوكيل.

خلاصة

agents-last-exam مجموعة بيانات تعكس تحولاً في معايير تقييم الوكلاء من الإجابة القصيرة إلى إكمال المهام الطويلة الأمد. مزيج 153 مهمة و5 مجالات ورخصة CC-BY-4.0 يشكّل نقطة انطلاق للفرق الراغبة في قياس القدرات الواقعية لنماذج الوكيل الخاصة بها. غياب أرقام baseline رسمية ليس ملائماً دائماً، لكنه يمنح قدراً من الحرية في تتبع التقدم الداخلي دون مقارنة خارجية.

HuggingFace: agents-last-exam/agents-last-exam