Drag-and-Drop LLMs: تقنية الانتقال من الموجِّه إلى الأوزان دون تدريب

⏱️ وقت القراءة المقدر: 8 دقائق

مقدمة

يُعدّ تخصيص النماذج اللغوية الكبيرة (LLMs) لمهام محددة من أبرز عوامل التأخير في تطبيقها العملي. وقد عالجت أساليب الضبط الدقيق الفعّال للمعاملات (PEFT)، ولا سيما LoRA (التكيّف منخفض الرتبة)، هذه المشكلة جزئيًا، غير أنها كانت لا تزال تستلزم ساعاتٍ من التدريب لكل مهمة.

في يناير 2025، نشر فريق بحثي متعدد الجنسيات من الجامعة الوطنية في سنغافورة (NUS) وجامعة تكساس في أوستن (UT Austin) وغيرها بحثًا بعنوان Drag-and-Drop LLMs (DnD)، يطرح نهجًا مبتكرًا يُقلب هذا النموذج رأسًا على عقب. فقد أتاح البحث توليد معاملات مخصصة لكل مهمة من موجِّه (prompt) فقط في ثوانٍ معدودة، دون أي تدريب.

الفكرة الجوهرية والدافع وراءها

قيود الأساليب الحالية

تعاني الطريقة السائدة في تخصيص النماذج اللغوية، وهي LoRA، من القيود التالية:

التكلفة الزمنية: تستلزم ساعاتٍ من التدريب لكل مهمة
استهلاك الموارد: زيادة في استخدام وحدات معالجة الرسوميات (GPU) واستهلاك الطاقة
إشكاليات التوسع: اختناقات عند النشر على نطاق واسع
محدودية المرونة: يستلزم كل مهمة جديدة إجراء تدريب مستقل

الرؤية الجوهرية لـ DnD

طوّر الباحثون نهجًا مبتكرًا استندوا فيه إلى رؤية جوهرية مفادها أن محوِّلات LoRA هي في جوهرها دوال للبيانات التدريبية. فبينما تعمل الأساليب التقليدية على “سحب” الأوزان الأساسية نحو قيم مثلى خاصة بكل مهمة عبر الانحدار التدريجي، يتعلم DnD هذا التعيين مباشرةً متجاوزًا الانحدار التدريجي كليًا.

يشبه ذلك طاهيًا يستطيع استحضار وصفة كاملة بمجرد رؤية المكونات، عوضًا عن تجربة وصفات جديدة في كل مرة.

طريقة التنفيذ التقنية

بنية النظام

يتوزع تنفيذ DnD على مرحلتين رئيسيتين:

المرحلة الأولى: إعداد بيانات التدريب

تدريب محوِّلات LoRA على مجموعات بيانات متنوعة وتخزينها
إقران موجِّه كل مجموعة بيانات بنقطة تفتيش (checkpoint) المقابلة بصورة صريحة
توليد بيانات تدريبية من أزواج (موجِّه، معاملات)

المرحلة الثانية: تدريب مولِّد المعاملات

مشفِّر النصوص: استخراج تمثيلات الموجِّهات باستخدام مشفِّرات جاهزة
وحدة فك التشفير بالتلافيف الفائقة المتتالية (Cascade Hyperconvolution Decoder): تتكون من كتل تلافيفية (Convolution) متتالية
خسارة MSE: تحسين متوسط مربع الخطأ بين الأوزان المولَّدة وأوزان النموذج الأصلية

مرحلة الاستدلال

تتسم العملية عند الاستخدام الفعلي ببساطة لافتة:

إدخال موجِّه مجموعة البيانات الجديدة إلى DnD
التوليد الفوري للمعاملات المخصصة عبر تمرير أمامي واحد
تطبيق المعاملات المولَّدة على النموذج الأساسي

تكتمل هذه العملية كلها في ثوانٍ معدودة.

نتائج التجارب وتحليل الأداء

أداء التعميم دون تدريب

يتجلى الأداء الأكثر إثارةً لـ DnD في قدرته على التعميم دون تدريب على مجموعات بيانات لم يَرَها من قبل:

مهام الاستدلال المنطقي العام

تحسن يبلغ 30% مقارنةً بمتوسط أداء محوِّلات LoRA المستخدمة في التدريب
تحقيق تحسينات أداء متسقة عبر مجموعات بيانات جديدة متنوعة

أداء المهام المركّبة

حل المسائل الرياضية: تحسن ملحوظ في الأداء مقارنةً بالأساليب الحالية
مهام البرمجة: نتائج قوية على معايير أداء معقدة كـ LiveCodeBench
الإجابة متعددة الوسائط: أداء قوي في مهام الجمع بين الصورة والنص أيضًا

التحقق من قابلية التوسع

أداء مستقر على النماذج الكبيرة ذات المعاملات البالغة 7 مليارات
قابلية للتوسع دون تراجع في الأداء مع زيادة حجم النموذج

المقارنة مع الأساليب الحالية

المقايضة بين السرعة والأداء

تتجلى الخصائص الجوهرية لـ DnD بوضوح في المقارنات التالية:

مقابل الضبط الدقيق الشامل

السرعة: معدل معالجة أسرع بـ 12,000 مرة
الأداء: مساوٍ لأداء LoRA المدرَّب بالكامل أو يتفوق عليه
كفاءة الموارد: انخفاض ملحوظ في استخدام وحدات معالجة الرسوميات واستهلاك الطاقة

مقابل التعلم بأمثلة قليلة وSCL

الاتساق: أداء متفوق باستمرار حتى 256 مثالًا
متطلبات البيانات: يعمل بموجِّهات غير موسومة فقط
الجدوى العملية: تعلم فعّال حتى في غياب بيانات الإجابات

تحليل الكفاءة من حيث التكلفة

في حين تستلزم الأساليب الحالية ساعات من وقت وحدة معالجة الرسوميات لكل مهمة، يوفر DnD:

كفاءة الطاقة: استهلاك طاقة أقل بمقدار 2,500 إلى 12,000 مرة
متطلبات الأجهزة: تكفي أجهزة الاستدلال وحدها
التكلفة التشغيلية: توفير ملحوظ في التكاليف عند النشر على نطاق واسع

الأهمية التقنية والتأثيرات المتوقعة

دلالة تحوّل النموذج

يمثل DnD تحولًا جذريًا في النموذج التقليدي يتجاوز مجرد تحسين الأداء:

1. آفاق جديدة في التعلم الميتا

تحقيق تعلم مباشر في فضاء المعاملات
حالة استخدام عملية لتقنية الشبكات الفائقة (Hypernetworks)

2. التكيّف الآني للنموذج

تخصيص فوري للنموذج وفقًا لمتطلبات المستخدم
نشر مرن للنموذج في البيئات الديناميكية

3. ديمقراطية الموارد

إمكانية الاستفادة من نماذج مخصصة عالية الأداء بموارد حوسبة محدودة
تحسين إمكانية وصول الشركات الصغيرة والمطورين الأفراد إلى الذكاء الاصطناعي

منظومة الأبحاث ذات الصلة

ترتبط DnD ارتباطًا وثيقًا بمجالات البحث التالية:

التمثيلات الفائقة (Hyperrepresentations): منهجيات جديدة للتعامل مع أوزان الشبكات العصبية
انتشار الشبكات العصبية (Neural Network Diffusion): استخدام نماذج الانتشار لتوليد معاملات النموذج
توليد LoRA الشرطي: تقنيات توليد المعاملات عبر اشتراط نصي

القيود والتوجهات المستقبلية

القيود الراهنة

كما يُقرّ الباحثون، لا يزال DnD بحاجة إلى تحسين:

الاعتماد على بيانات التدريب

تعتمد جودة التوليد على تنوع محوِّلات LoRA المستخدمة في التدريب
محدودية الأداء في المهام خارج نطاق المجال

قيود حجم المعاملات المولَّدة

قادر حاليًا على توليد معاملات بحجم LoRA فحسب
الحاجة إلى دعم بنى محوِّلات أكثر تعقيدًا

اتجاهات التطوير المستقبلية

تحسينات تقنية

مدخلات متعددة الوسائط: استثمار معلومات اشتراط متنوعة تتخطى النص
التوليد الهرمي: توليد معاملات متخصصة في طبقات مختلفة من النموذج
الضبط التكيّفي للحجم: تعديل ديناميكي لحجم المعاملات وفقًا لتعقيد المهمة

إمكانيات التطبيق الموسَّعة

الذكاء الاصطناعي المخصَّص: التوليد الفوري لنماذج مخصصة لكل مستخدم
الحوسبة الطرفية: تكيّف النموذج في الوقت الفعلي في بيئات الموارد المحدودة
التعلم الموزع: مشاركة النموذج وتكيّفه مع الحفاظ على الخصوصية

آفاق تأثيرات قطاع الصناعة

تحولات نماذج الأعمال

يُرجَّح أن يُفضي توظيف تقنية DnD تجاريًا إلى التحولات التالية في قطاع خدمات الذكاء الاصطناعي:

ابتكار في أسلوب تقديم الخدمات

التخصيص الفوري: خدمات ذكاء اصطناعي قادرة على الاستجابة لمتطلبات العملاء فعليًا
نموذج الاشتراك: نماذج أعمال جديدة لخدمات توليد المعاملات
حلول خفيفة الوزن: تراجع الاعتماد على السحابة وانتشار الذكاء الاصطناعي على الأجهزة

إعادة رسم ملامح المنافسة

مزودو خدمات الضبط الدقيق الحاليون في حاجة إلى إعادة النظر في استراتيجياتهم
تراجع ملحوظ في عوائق الدخول أمام الوافدين الجدد
تصاعد أهمية البيانات والخبرة المتخصصة في المجال على حساب القدرة التقنية

تحولات في منظومة التكنولوجيا

تطور أدوات المطورين

أدوات تخصيص النموذج في الوقت الفعلي مدمجة في بيئات التطوير المتكاملة
واجهات سحب وإفلات يسهل استخدامها لغير المختصين
أدوات آلية للتنبؤ بأداء النموذج وتحسينه

تحولات في متطلبات الأجهزة

تراجع الاعتماد على وحدات معالجة الرسوميات عالية الأداء للتدريب
تصاعد أهمية الأجهزة المحسَّنة للاستدلال
توسيع نطاق استخدام الذكاء الاصطناعي على الأجهزة المحمولة وأجهزة إنترنت الأشياء

خلاصة

تُعدّ Drag-and-Drop LLMs تحولًا حقيقيًا في مجال تكيّف نماذج الذكاء الاصطناعي. فما وراء الأرقام التي تشهد على تحسن بمقدار 12,000 مرة في السرعة وبنسبة 30% في الأداء، تنطوي هذه التقنية على إمكانات لتغيير جوهري في طريقة توظيف الذكاء الاصطناعي.

والأمر الجدير بالاهتمام بشكل خاص هو أن هذه التقنية لا تقتصر على تحسين الأداء، بل تُسهم مساهمة كبيرة في ديمقراطية الذكاء الاصطناعي وتوسيع إمكانية الوصول إليه. إذ سيُتاح للمطورين وصغار الشركات ذوي الموارد المحدودة توظيف نماذج ذكاء اصطناعي مخصصة عالية الأداء بسهولة، مما سيُعجِّل من انتشار تقنية الذكاء الاصطناعي وابتكاراتها.

ومع إتاحة فريق البحث الكود المصدري والورقة البحثية وعرض HuggingFace التجريبي، باتت الجدوى العملية للتقنية وإمكانية الوصول إليها مضمونتَين، مما يُبشِّر بظهور تطبيقات متنوعة في مجالات شتى وإصدارات محسَّنة في المستقبل. وسيكون DnD معلمًا بارزًا يرسم للبحث في الذكاء الاصطناعي والصناعة معًا اتجاهات جديدة.

روابط المراجع:

أبحاث ذات صلة:

Hyperrepresentations for pre-training and transfer learning (NeurIPS 2022)
Neural Network Diffusion (arXiv 2024)
Conditional LoRA Parameter Generation (arXiv 2024)