NVIDIA Granary: مجموعة بيانات صوتية متعددة اللغات تغطي 25 لغة أوروبية
⏱️ وقت القراءة المقدر: 8 دقائق
مقدمة
مع التطور المتسارع في تقنيات الذكاء الاصطناعي الصوتي، تزداد أهمية مجموعات البيانات الصوتية عالية الجودة التي تدعم لغات متعددة. فبناء الخدمات العالمية يستلزم قدرات معالجة صوتية متعددة اللغات لا الاقتصار على لغة واحدة. في هذا السياق، تُقدم مجموعة بيانات Granary التي أصدرتها NVIDIA إنجازاً بارزاً في مجال الذكاء الاصطناعي الصوتي.
Granary مجموعة بيانات متعددة اللغات على نطاق واسع، توفر ما مجموعه 640,000 ساعة من البيانات الصوتية موزعة على 25 لغة أوروبية. وهي تدعم مهمتي التعرف التلقائي على الكلام (ASR) والترجمة التلقائية للكلام (AST)، مما يوفر للباحثين والمطورين أساساً متيناً لبناء نماذج ذكاء اصطناعي صوتية متعددة اللغات من الجيل التالي.
نظرة عامة على مجموعة بيانات NVIDIA Granary
الحجم والنطاق
أبرز ما يميز مجموعة بيانات Granary هو حجمها الهائل. فـ640,000 ساعة من البيانات الصوتية تتخطى بكثير حجم مجموعات البيانات المفتوحة المتاحة حالياً، وهو ما يعادل نحو 73 عاماً من التشغيل المتواصل، بمتوسط يزيد على 25,000 ساعة من البيانات لكل لغة.
تشمل مجموعة البيانات 25 لغة أوروبية، تتراوح بين اللغات الرئيسية كالألمانية والإنجليزية والفرنسية والإسبانية والإيطالية، وصولاً إلى لغات ذات موارد محدودة نسبياً كالبلغارية واللاتفية والسلوفينية. ويتيح هذا النطاق اللغوي الواسع تطوير أنظمة ذكاء اصطناعي صوتية تغطي منطقة أوروبا بأسرها.
دعم مهمتين رئيسيتين
تدعم Granary المهمتين الجوهريتين في الذكاء الاصطناعي الصوتي الحديث:
التعرف التلقائي على الكلام (ASR) تتمثل هذه المهمة في تحويل الكلام بلغة ما إلى نص بالاللغة ذاتها، كتحويل الكلام الألماني إلى نص ألماني مثلاً. توفر Granary بيانات ASR لجميع اللغات الخمس والعشرين، بإجمالي 643,000 ساعة من بيانات ASR.
الترجمة التلقائية للكلام (AST) تتمثل هذه المهمة في ترجمة الكلام بلغة المصدر مباشرةً إلى نص بلغة أخرى. توفر Granary بيانات AST تُترجم فيها 24 لغة غير إنجليزية إلى نص إنجليزي، بإجمالي 351,000 ساعة من بيانات AST.
تكوين البيانات ومصادرها
دمج أربعة مجموعات نصية رئيسية
تنبع قوة Granary من دمجها المنهجي لأربع مجموعات نصية صوتية رئيسية، تتسم كل واحدة منها بخصائص متميزة:
YODAS (YouTube-Over-Dataset Audio Segmentation) طورته جامعة كارنيجي ميلون (CMU)، ويوفر 192,000 ساعة من البيانات عبر 23 لغة. يتسم YODAS بكونه مستخرجاً من محتوى يوتيوب الفعلي، مما يعكس أنماط تعبير متنوعة وأساليب حديث مختلفة وظروف صوتية بيئية متباينة.
VoxPopuli مستند إلى تسجيلات جلسات البرلمان الأوروبي، يوفر 206,000 ساعة من بيانات الخطاب السياسي عالية الجودة عبر 24 لغة. يتميز بالكلام الرسمي والواضح، ويفيد في تعلم النطق المعياري وقواعد اللغة لمجموعة متنوعة من اللغات الأوروبية.
YouTube-Commons مجمَّع من محتوى يوتيوب المتنوع، يضم 122,000 ساعة من البيانات بـ24 لغة. يشمل مجالات التعليم والترفيه والأخبار وغيرها، ويعكس تنوع اللغة في الاستخدام الفعلي.
LibriLight مجموعة بيانات مخصصة للغة الإنجليزية توفر 23,000 ساعة من الكلام الإنجليزي. مستندة إلى تسجيلات قراءة الكتب، تتسم بنطق إنجليزي واضح ومعياري، وتؤدي دور المرجع القياسي لنماذج ASR الإنجليزية.
ضبط جودة البيانات
خضعت كل مجموعة نصية لعملية صارمة لضبط الجودة. بالنسبة للتعرف على الكلام، جرى ضمان الدقة عبر مرحلتين من الاستنتاج بنموذج Whisper والتحقق من تحديد اللغة. كما طُبقت خطوات معالجة أولية متعددة كتجزئة الكلام وإزالة الضجيج والتحقق من اتساق البيانات الوصفية.
أما بيانات الترجمة الصوتية، فقد جرى إنتاجها بجودة عالية باستخدام نموذج EuroLLM-9B والتحقق منها عبر تحقق متقاطع بين اللغات، إضافةً إلى إجراءات إضافية لضبط الجودة كاكتشاف الهلوسة وفلترة معدلات الحروف.
هيكل البيانات وطرق الوصول
تكوينات مرنة للبيانات
صُممت مجموعة بيانات Granary ببنية مرنة للغاية لتلبية متطلبات المستخدمين المتنوعة. يمكن الوصول إلى البيانات عبر 76 تكويناً مختلفاً، وتنتظم بصورة رئيسية في أسلوبين:
الوصول بحسب اللغة يمكن استرداد جميع بيانات المجموعات النصية للغة بعينها دفعةً واحدة. فإذا كانت البيانات الألمانية مطلوبة مثلاً، تُقدَّم جميع البيانات الألمانية من YODAS وVoxPopuli وYouTube-Commons وغيرها في مجموعة موحدة.
الوصول بحسب المجموعة النصية يمكن اختيار بيانات مجموعة نصية بعينها للغة محددة. فمن يحتاج إلى أسلوب لغوي رسمي فحسب يمكنه اختيار بيانات VoxPopuli، ومن يحتاج إلى كلام يومي طبيعي يمكنه الاكتفاء بالبيانات المستخرجة من يوتيوب.
صيغة البيانات العملية
يتضمن كل عينة بيانات جميع البيانات الوصفية اللازمة لتطوير الذكاء الاصطناعي الصوتي فعلياً:
- مسار الملف الصوتي: موقع الملف الصوتي الفعلي
- النص المنقول: نقل نصي دقيق باللغة المصدر
- المدة: طول الملف الصوتي، يُستخدم لتحسين المعالجة الدُّفعية
- معلومات اللغة: رموز لغتي المصدر والهدف
- نوع المهمة: تمييز ASR أو AST
- المعرف الفريد: رقم تعريفي لتتبع البيانات وضمان قابلية إعادة الإنتاج
- النص المستهدف: النقل النصي في ASR، أو الترجمة الإنجليزية في AST
تتيح هذه البيانات الوصفية التفصيلية للباحثين تصفية البيانات وفق شروط محددة وإعادة نتائج التجارب بدقة.
التكامل مع مجموعة أدوات NeMo
ملفات قائمة الأعمال الجاهزة للاستخدام الفوري
من أكثر جوانب Granary عملية تكاملُها السلس مع مجموعة أدوات NVIDIA NeMo. توفر ملفات القائمة المرفقة إمكانية استخدام البيانات المُنزَّلة مباشرةً في بيئة NeMo دون الحاجة إلى خطوات تحويل معقدة.
وبما أن ملفات قائمة مستقلة مُتاحة لكل تركيبة من لغة ومجموعة نصية، يمكن للباحثين اختيار مجموعة البيانات التي تناسب أهدافهم البحثية بدقة والبدء في تدريب النماذج فوراً. فلتطوير نموذج للتعرف على الكلام الألماني مثلاً، يكفي استخدام ملف القائمة الألماني لـASR لبدء التدريب مباشرة.
تحسين الأداء للتدريب على نطاق واسع
يستلزم تدريب نماذج عالية الأداء للاستخدام الصناعي عادةً بيانات بصيغة محسَّنة مثل WebDataset. وقد صُممت Granary مع مراعاة هذا المتطلب مسبقاً، إذ يمكن تحويلها بسهولة إلى صيغة WebDataset باستخدام أدوات التحويل المرفقة مع NeMo.
يُتيح ذلك تحميل بيانات فعالاً حتى في التدريب الموزع على نطاق واسع عبر مئات وحدات GPU، مع تحسين استخدام الذاكرة وأداء الإدخال والإخراج.
إمكانية التوسع لتشمل لغات جديدة
علاوةً على تقديم مجموعة بيانات مكتملة، توفر Granary أيضاً أدوات لإنشاء مجموعات بيانات للغات جديدة باستخدام الخط الأنبوبي ذاته. يستطيع الباحثون من خلال NeMo-speech-data-processor إنشاء مجموعات بيانات صوتية خاصة بلغاتهم أو مجالاتهم بمستوى الجودة نفسه المتوفر في Granary.
مجالات التطبيق
أنظمة التعرف على الكلام متعددة اللغات
يتمثل التطبيق الأكثر مباشرةً لـGranary في تطوير أنظمة التعرف على الكلام متعددة اللغات. فبينما كان من الضروري سابقاً تطوير نماذج مستقلة لكل لغة، تتيح البنية الموحدة لـGranary تطوير نموذج واحد متكامل يدعم لغات متعددة في آن واحد.
يشكل هذا النهج قيمةً مضافةً كبيرة للشركات التي تقدم خدماتها في السوق الأوروبية. فنموذج واحد يدعم اللغات الخمس والعشرين جميعها يُخفض تكاليف التطوير والصيانة بصورة ملموسة، فضلاً عن إمكانية تحسين أداء اللغات المفردة عبر التعلم التحويلي بين اللغات.
خدمات الترجمة الصوتية الآنية
يمكن الاستفادة من بيانات AST لبناء خدمات ترجمة صوتية آنية، وهي تقنية عملية قابلة للتطبيق في مؤتمرات دولية والسياحة والتعليم وميادين أخرى كثيرة.
تُعدّ بيانات الترجمة من 24 لغة إلى الإنجليزية التي توفرها Granary ذات قيمة عملية خاصة نظراً لمكانة الإنجليزية لغةً عالمية، وتُمكّن من تطوير أدوات للتواصل الآني بين متحدثي اللغات الأوروبية المتنوعة والمتحدثين باللغة الإنجليزية.
البحث في اللغات محدودة الموارد
تتضمن Granary لغات ذات موارد محدودة نسبياً كالبلغارية واللاتفية والسلوفينية. وتُشكّل البيانات الصوتية الضخمة لهذه اللغات إسهاماً بالغ الأهمية في بحوث معالجة اللغات محدودة الموارد.
يستطيع الباحثون دراسة تقنيات التعلم التحويلي من اللغات الوفيرة الموارد (كالألمانية والفرنسية) إلى اللغات محدودة الموارد، أو تحليل كيفية تعلّم النماذج متعددة اللغات للأوجه المشتركة والفوارق بين اللغات.
بحوث التكيف مع المجال
تتسم المجموعات النصية الأربع في Granary بخصائص متباينة: تتضمن VoxPopuli خطاباً سياسياً رسمياً، وبيانات يوتيوب حديثاً يومياً عادياً، وLibriLight كلاماً مقروءاً معيارياً. يجعل هذا التنوع Granary أداةً نافعة للغاية في بحوث التكيف مع المجالات المختلفة.
يمكن للباحثين تحليل أداء نموذج مُدرَّب في مجال ما عند تطبيقه في مجال آخر، أو إجراء دراسات لتطوير نماذج أكثر متانةً بدمج بيانات مجالات متعددة.
الترخيص وإمكانية الوصول
سياسة ترخيص منفتحة
تُقدَّم مجموعة بيانات Granary بموجب ترخيص CC-BY-3.0، وهو ترخيص منفتح جداً يُتيح الاستخدام في شبه جميع الأغراض بما فيها الاستخدام التجاري، ولا يشترط سوى الإشارة المناسبة إلى المصدر.
يشجع هذا النهج المنفتح للترخيص توظيف مجموعة البيانات في البحث الأكاديمي وفي القطاع الصناعي على حد سواء، مما يُمكّن الجميع من الشركات الناشئة إلى الشركات الكبرى من استخدامها في تطوير منتجات ذكاء اصطناعي صوتية.
سهولة الوصول عبر Hugging Face
تُوزَّع مجموعة البيانات عبر منصة Hugging Face، مما يجعلها متاحةً بسهولة من أي مكان في العالم. يمكن تنزيل البيانات اللازمة ببضعة أسطر من الكود دون الحاجة إلى إجراءات تقديم أو موافقة معقدة.
يدعم التوزيع كذلك ميزة البث التدفقي، التي تُتيح استخدام الأجزاء المطلوبة فحسب في الوقت الفعلي دون الحاجة إلى تنزيل مجموعة البيانات كاملةً، وهو ما يُعدّ مفيداً جداً في بيئات البحث ذات مساحة التخزين المحدودة.
الابتكار التقني وضمان الجودة
توظيف أحدث تقنيات الذكاء الاصطناعي
استُعين في إنتاج مجموعة بيانات Granary بأحدث تقنيات الذكاء الاصطناعي المتاحة: استُخدم في التعرف على الكلام نظام استنتاج ثنائي المرحلة بنموذج Whisper، كما وُظِّف نموذج EuroLLM-9B في الترجمة.
لم يقتصر أثر توظيف هذه التقنيات على زيادة حجم البيانات، بل تجاوزه إلى التفوق بصورة ملموسة على مجموعات البيانات السابقة من حيث الجودة. وتضمن أساليب متقدمة كاكتشاف الهلوسة وفلترة تقدير الجودة والتحقق المتقاطع بين اللغات مستوى عالياً من الموثوقية.
نظام ضبط الجودة متعدد المراحل
يُنفَّذ ضبط جودة البيانات بصورة منهجية عبر مراحل متعددة، مع تحقق صارم في كل جانب: دقة تجزئة الكلام، ودقة النقل النصي، وجودة الترجمة، واتساق البيانات الوصفية.
يُتيح هذا النظام متعدد المراحل لضبط الجودة للباحثين التركيز مباشرةً على تطوير النماذج دون إهدار وقت في معالجة البيانات الأولية. كما يُحسّن استخدام بيانات مُعالَجة وفق معايير جودة موحدة من قابلية إعادة إنتاج نتائج التجارب ومقارنتها بصورة ملموسة.
التعاون البحثي والإسهام في المجتمع العلمي
نموذج للتعاون بين الصناعة والأوساط الأكاديمية
وُلد مشروع Granary من تعاون بين NVIDIA وجامعة كارنيجي ميلون (CMU) ومؤسسة Fondazione Bruno Kessler (FBK) الإيطالية، في نموذج يجمع بين الكفاءات التقنية للصناعة وطاقة البحث الأكاديمي والتعاون الدولي.
أتاح مساهمة كل مؤسسة في مجال تخصصها إنتاجَ مجموعة بيانات بحجم ومستوى جودة كان يصعب تحقيقهما لأي مؤسسة منفردة. ويُرجَّح أن يصبح هذا النموذج التعاوني مرجعاً نافعاً لمشاريع ذكاء اصطناعي واسعة النطاق مستقبلاً.
تجسيد مبادئ العلم المفتوح
يمثل الإصدار العلني لـGranary تطبيقاً نموذجياً لمبادئ العلم المفتوح؛ إذ يُسهم إتاحة مجموعة بيانات عالية الجودة أُنجزت بتكاليف وجهود جسيمة تحت ترخيص مفتوح في تقدم المجتمع البحثي العالمي.
وهذه الانفتاحية بدورها تستقطب ردود الفعل ومساهمات المجتمع البحثي، مما يُفضي إلى تحسين مستمر لمجموعة البيانات واكتشاف تطبيقات جديدة لها.
الآفاق المستقبلية واتجاهات التطوير
إمكانية التوسع اللغوي
تدعم Granary حالياً 25 لغة أوروبية، غير أنها تُظهر إمكانية توسيع الخط الأنبوبي ذاته ليشمل مجموعات لغوية أخرى. فالتوسع نحو اللغات الآسيوية والأفريقية ولغات السكان الأصليين في الأمريكتين قد يُشكّل أساساً لذكاء اصطناعي صوتي عالمي حقيقي متعدد اللغات.
ولا سيما أن بناء مجموعات بيانات مماثلة للغات شرق آسيا كالكورية واليابانية والصينية يمكن أن يُسهم بشكل ملموس في تقدم الذكاء الاصطناعي الصوتي في المنطقة الآسيوية.
إضافة أنواع مهام جديدة
يتركز الاهتمام حالياً على ASR وAST، لكن ثمة إمكانية للتوسع نحو مهام صوتية أخرى متنوعة كالتعرف على المشاعر في الكلام وتحديد هوية المتحدث وبيانات توليد الكلام. يمكن دعم مهام جديدة بإضافة بيانات وصفية تعليمية إلى البيانات الصوتية عالية الجودة التي تم جمعها.
التحسين للمعالجة الآنية
مجموعة البيانات الضخمة الحالية مُخصصة في المقام الأول للتدريب غير الآني، لكن مجموعات فرعية محسَّنة أو إصدارات خفيفة الوزن مصممة للمعالجة الصوتية الآنية قد تُتاح مستقبلاً، مما قد يجعل التعرف على الكلام متعدد اللغات عالي الجودة ممكناً على الأجهزة المحمولة وفي بيئات الحوسبة الطرفية.
خلاصة
تتجاوز مجموعة بيانات NVIDIA Granary كونها مجموعة بيانات ضخمة لتُشكّل موارداً يفتح آفاقاً جديدة لذكاء اصطناعي صوتي متعدد اللغات. تُتيح 640,000 ساعة من البيانات الصوتية عالية الجودة الموزعة على 25 لغة للباحثين والمطورين إجراء تجارب وعمليات تطوير بحجم لم يكن ممكناً من قبل.
يجعل ضبط الجودة المنهجي والتكامل السلس مع مجموعة أدوات NeMo والسياسة المنفتحة للترخيص هذه المجموعة من البيانات موارداً عملياً قابلاً للاستخدام الفعلي. كما يُقدّم مسار التطوير القائم على التعاون بين الصناعة والأوساط الأكاديمية وتجسيد مبادئ العلم المفتوح إرشادات قيّمة لمسيرة بحوث الذكاء الاصطناعي مستقبلاً.
ستظهر نتائج بحثية متنوعة مستفيدةً من Granary في السنوات القادمة، وستُفضي بدورها إلى مزيد من التقدم في تقنيات الذكاء الاصطناعي الصوتي متعدد اللغات. والأساس التقني لعصر تواصل عالمي حقيقي يتخطى حواجز اللغة يُبنى هنا وهو الآن.