قراءة كتاب كامل في تمريرة واحدة: سر ذاكرة KV الثابتة في Unlimited OCR من Baidu

نظرة عامة

عاد تحويل المستندات إلى بنية قابلة للقراءة آليًا ليكون محوريًا في عصر RAG والوكلاء. قد يمتد عقد واحد إلى عشرات الصفحات، وتحمل التقارير المالية أو الأبحاث جداول ومعادلات وتخطيطات متعددة الأعمدة تتدفق عبر حدود الصفحات. تحتاج هذه المستندات الطويلة إلى تحليلها بالترتيب الصحيح للقراءة، دفعة واحدة، قبل أن يتمكن نموذج اللغة الكبير من استخدامها جيدًا.

المشكلة هي التكلفة. عندما يحلل نموذج اللغة البصري مستندًا، يولّد فك التشفير رموز الإخراج واحدًا تلو الآخر بشكل انحداري ذاتي، ويجعل الانتباه الكامل في المحوّل القياسي ذاكرة KV تنمو خطيًا مع طول التسلسل. ومع تراكم الصفحات تتضخم الذاكرة، ويظهر سقف لطول المستند الذي يمكن معالجته دفعة واحدة. لهذا تقسّم معظم الأدوات الحالية المستندات صفحة بصفحة وتعالجها منفصلة ثم تعيد تجميع النتائج، فتكسر استمرارية الجداول والفقرات التي تعبر حدود الصفحات.

يزيل Unlimited OCR من Baidu (arXiv 2606.23050) هذا السقف بطريقة مختلفة. فهو يستبدل كل طبقة انتباه في فك التشفير بآلية Reference Sliding Window Attention (R-SWA)، محافظًا على حجم ذاكرة KV ثابتًا طوال فك التشفير. ونتيجة لذلك يمكنه نسخ عشرات الصفحات من مستند في تمريرة أمامية واحدة ضمن سياق 32K. وعبارة الورقة “التحليل أحادي اللقطة طويل الأفق” ليست مبالغة.

في ThakiCloud نشغّل أحمال الاستدلال متعدد المستأجرين ومعالجة المستندات مباشرة على منصة SaaS للذكاء الاصطناعي والتعلّم الآلي قائمة على كوبرنيتس. في بيئة تأتي فيها حصة كبيرة من تكلفة الاستدلال من ذاكرة KV، فإن “ذاكرة ثابتة بصرف النظر عن الطول” ليست فضولًا أكاديميًا بل موضوعًا يمس اقتصاديات الخدمة مباشرة. يشرح هذا المنشور ما هي R-SWA، ولماذا تبقى ذاكرة KV ثابتة، وأين تناسب من منظور منصتنا.

ما هو Unlimited OCR

ليس Unlimited OCR نموذجًا بُني من الصفر بل نموذج يدفع DeepSeek-OCR خطوة أبعد. فهو يحتفظ بـDeepEncoder القوي من DeepSeek-OCR كمشفّر له ويستبدل انتباه فك التشفير فقط بـ R-SWA.

مخطط مشفّر DeepEncoder وفك تشفير R-SWA في Unlimited OCR يقلّص مشفّر عالي الضغط الصفحة إلى عدد قليل من الرموز البصرية، ويولّد فك تشفير R-SWA مخرجات طويلة بذاكرة KV ثابتة.

المشفّر (DeepEncoder): يُربط SAM-ViT وCLIP-ViT على التوالي مع تطبيق ضغط رموز بمقدار 16 ضعفًا. تُضغط صفحة PDF واحدة بدقة 1024×1024 إلى 256 رمزًا بصريًا فقط. ولأن عدد الرموز مُقلّص بشدة على جانب الإدخال، تكون كمية المعلومات البصرية التي يجب على فك التشفير الرجوع إليها صغيرة. ويعمل هذا التصميم عالي الضغط مع ذاكرة KV الثابتة المذكورة أدناه لتمكين معالجة المستندات الطويلة.

فك التشفير (نموذج لغوي بـ R-SWA): فك التشفير نموذج خليط خبراء (MoE) بحجم 3 مليار معامل مع نحو 500 مليون معامل مُفعّل. وبما أن مجموعة فرعية فقط من الخبراء تُفعّل لكل رمز بدلًا من الـ 3 مليار كاملة، فإن الحوسبة لكل رمز خفيفة نسبةً إلى عدد المعاملات. وعلاوة على ذلك، يُعد استبدال جميع طبقات الانتباه بـ R-SWA هو الميزة الجوهرية للنموذج.

النموذج الكامل نحو ثلاثة مليارات معامل، صدر بأوزان BF16 تحت رخصة MIT المسموح بها تجاريًا. تتوفر الأوزان على Hugging Face في baidu/Unlimited-OCR وعلى ModelScope، منشورة مع الكود على GitHub. وعند الإصدار يعمل وفق التقارير على وحدة معالجة رسوميات NVIDIA متوسطة المدى واحدة.

هذا النموذج من سلالة Baidu نفسها مثل PaddleOCR-VL الذي تناولناه سابقًا، لكن النهج يختلف. يقسم PaddleOCR-VL تحليل التخطيط والتعرف على العناصر إلى مرحلتين لتأمين الاستقرار بنماذج صغيرة، بينما يحتفظ Unlimited OCR بنموذج واحد من طرف إلى طرف لكنه يغيّر آلية الانتباه لملاحقة معالجة المستندات الطويلة دفعة واحدة. ومن الممتع مقارنة فلسفتي تصميم تحلّان المشكلة نفسها.

الآلية الجوهرية: Reference Sliding Window Attention

لفهم R-SWA انظر أولًا إلى نقاط ضعف نهجين قائمين.

الانتباه الكامل يجعل كل رمز إخراج يرى كل رمز سابق. إنه دقيق، لكن ذاكرة KV تنمو بتناسب مع طول التسلسل. ومع زيادة الصفحات تنمو الذاكرة خطيًا وتصطدم بسقف.

انتباه النافذة المنزلقة العادي (SWA) يرى فقط آخر W رمزًا. تُثبَّت ذاكرة KV على حجم النافذة فتصبح الذاكرة ثابتة، لكن المعلومات التي تُدفع خارج النافذة تُنسى. ينفع هذا في توليد النص العام، لكنه قاتل في OCR حيث يجب “النظر إلى المصدر ونسخه بأمانة”. فبمجرد أن تتجاوز النافذة، تفقد دليل أي صفحة كنت تنسخها.

تجمع R-SWA بين الأمرين. وفكرتها الأساسية تأتي من طريقة نسخ البشر لمستند طويل. يكتب الشخص وهو ينظر إلى آخر بضع جمل كتبها (الذاكرة العاملة قصيرة المدى) وإلى المستند الأصلي المنشور أمامه (المرجع). و”Reference” في R-SWA هي بالضبط هذا المرجع الأصلي. فهي تحتفظ بالرموز البصرية عالية الضغط التي ينتجها المشفّر كمرساة يمكن الوصول إليها دائمًا، مع تطبيق نافذة منزلقة على رموز النص المولّد.

بعبارة أخرى، ينظر الانتباه إلى مجموعتين. الأولى رموز المرجع البصري ثابتة الحجم (مخرجات المشفّر)، والثانية نافذة منزلقة على النص المولّد حديثًا. وكلتا المجموعتين محدودتان في الطول، لذا مهما طال الإخراج تبقى ذاكرة KV الإجمالية ثابتة. إنه انتباه يحاكي الذاكرة العاملة بالمعنى الحرفي: لا ينسى المصدر أبدًا، ومع ذلك يبقي الذاكرة مستقرة.

تؤكد الورقة أن R-SWA ليست حيلة خاصة بـ OCR بل انتباه تحليل عام الغرض. ينطبق الهيكل نفسه على المهام التي تقرأ مدخلًا طويلًا وتنتج مخرجًا طويلًا، مثل التعرف على الكلام (ASR) أو الترجمة. وقد يتعمم نمط تثبيت المدخل كمرجع مرساة وتطبيق نافذة منزلقة على المخرج عبر مسائل التسلسل إلى التسلسل.

نتائج القياس

تُبلَّغ الأداء على OmniDocBench، وهو معيار لتحليل المستندات يقيّم بشمولية النص الأساسي والجداول والمعادلات وترتيب القراءة.

النتيجة الإجمالية على OmniDocBench v1.5 بنسبة 93.23%: تحسّن بمقدار 6.22 نقطة مئوية عن خط أساس DeepSeek-OCR.
النتيجة الإجمالية على OmniDocBench v1.6 بنسبة 93.92%: مُبلَّغ عنها كأحدث ما توصلت إليه التقنية من طرف إلى طرف.

ما يبرز هو تحقيق مكاسب الدقة وكفاءة الذاكرة في آنٍ واحد. عادةً يخلق تضييق النافذة لتوفير الذاكرة مقايضة في الدقة، لكن R-SWA تبلغ ذاكرة KV ثابتة دون خسارة في الدقة بالاحتفاظ بالمرجع البصري كمرساة ثابتة. والقدرة على بثّ مستند متصل دفعة واحدة، دون تقطيع الصفحات ومعالجتها منفصلة، تُحدث فرقًا عمليًا كبيرًا، لأنها تحافظ على استمرارية الجداول والحواشي والنص متعدد الأعمدة التي تنكسر عند حدود الصفحات.

ومع ذلك، فإن جميع الأرقام أعلاه قيم بلّغتها الورقة وبطاقة النموذج، وليست أرقامًا أعدنا إنتاجها بأنفسنا. فـ Unlimited OCR نموذج MoE بحجم 3 مليار، لذا يتطلب التحقق ذو المعنى وحدة معالجة رسوميات وتنزيل النموذج، ويركّز هذا المنشور على تحليل التصميم. ونخطط لتناول إعادة الإنتاج العملي في تجربة منفصلة.

تطبيقه على منصة ThakiCloud لـ K8s AI/ML SaaS

من منظور منصتنا، سبب أهمية هذا النموذج واضح: أصعب مورد في خدمة الاستدلال متعدد المستأجرين هو بالضبط ذاكرة KV.

اقتصاديات الخدمة: في محركات الخدمة مثل vLLM، يعتمد عدد الطلبات المتزامنة، أي حجم الدفعة، على مقدار ما تشغله ذاكرة KV من ذاكرة وحدة المعالجة الرسومية. يدع نموذج الانتباه الكامل طلب مستند طويل واحد يلتهم ذاكرة KV كبيرة، فيخفض الإنتاجية المتزامنة. أما نموذج ذاكرة KV الثابتة فلديه ذاكرة لكل طلب يمكن التنبؤ بها بصرف النظر عن طول المستند. وسواء كان فاتورة من صفحة واحدة أو عقدًا من 200 صفحة، تُعالَج ببصمة الذاكرة نفسها، فيمكنك تخطيط حجم الدفعة باستقرار دون أن يهزّك توزيع أطوال الحمل. وفي بيئة متعددة المستأجرين، يصبح عزل الموارد لكل مستأجر وتخطيط السعة أبسط بكثير.

في الموقع وكفاءة التكلفة: الأوزان المفتوحة تحت رخصة MIT والتشغيل على وحدة معالجة رسوميات متوسطة المدى واحدة عاملان حاسمان للعملاء الذين لا يمكنهم إرسال البيانات إلى الخارج. ففي مجالات تكون فيها المستندات نفسها حساسة، مثل المال والقطاع العام والرعاية الصحية، قد يكون رفع عقد إلى واجهة OCR سحابية انتهاكًا للامتثال بحد ذاته. وإذا أتاح تصميم الذاكرة الثابتة إقامة خط أنابيب للمستندات الطويلة في الموقع بوحدة معالجة رسوميات معقولة واحدة، فإنه يجلس بطبيعته فوق مكدّسنا حيث نجدول وحدات المعالجة الرسومية بـ Kueue ونخدم بـ vLLM.

خارطة طريق التطبيق: على منصتنا، تدخل أحمال ذكاء المستندات كمعالجة مسبقة لفهرسة RAG وكأدوات مستندات للوكلاء. ويمكن لـ OCR ذي ذاكرة KV الثابتة أن يكون البوابة الأولى في كلا المسارين، محلّلًا مستندًا طويلًا بدقة وبالكامل قبل تقطيعه. وخاصة للمستندات الحكومية الكورية والمستندات المالية ذات الجداول العابرة للصفحات والتخطيطات متعددة الأعمدة، تساهم القدرة على المعالجة المستمرة دون تقسيم الصفحات مباشرة في جودة RAG اللاحقة. وتتمثل استراتيجية تشغيل واقعية في نشر استقرار المراحل المنفصلة في PaddleOCR-VL ومعالجة Unlimited OCR للمستندات الطويلة دفعة واحدة بشكل انتقائي وفق خصائص الحمل.

القيود والحجج المضادة

التصميم الأنيق لا يعني أنه يناسب كل حالة.

الحدود المتأصلة للنافذة المنزلقة: رغم احتفاظ R-SWA بالمرجع البصري كمرساة، يظل جانب النص المولّد نافذة منزلقة. فالاعتماديات بعيدة المدى جدًا بين رموز الإخراج، مثل التوسيع المتسق لاختصار عُرّف في الصفحة 1 عبر الصفحة 180، قد لا تكون مضمونة بالدرجة نفسها كالانتباه الكامل حتى مع تعزيز المرجع البصري لها. وهذه نقطة يجب تأكيدها عبر إعادة الإنتاج العملي.

العبء التشغيلي لـ MoE: نموذج MoE بحجم 3 مليار خفيف في الحوسبة لكل رمز، لكن مجموعة الخبراء الكاملة يجب أن تكون في الذاكرة، فيتجاوز شغل الذاكرة الفعلي المعاملات النشطة (500 مليون). ولـ MoE أيضًا خاصية أن الإنتاجية تتذبذب عندما يصبح توجيه الخبراء عبر الرموز في دفعة غير متوازن، فيعتمد الأداء على نضج محرك الخدمة في دعم MoE.

الفجوة بين القياس والاستخدام الحقيقي: النتيجة العالية على OmniDocBench لا تضمن المستوى نفسه على المدخلات الصعبة في التشغيل الحقيقي، مثل الكتابات غير اللاتينية كالكورية والعربية، والخط اليدوي، والمسوحات منخفضة الجودة، أو المستندات الحكومية المغطاة بالأختام. وOCR المستندات مجال تكون فيه الفجوة بين القياس والميدان كبيرة بشكل خاص، وتقييم منفصل على توزيع مستنداتك الخاص أمر أساسي قبل الاعتماد.

الحاجة إلى التحقق: كل رقم في هذا المنشور قيمة بلّغتها الورقة وبطاقة النموذج. وما إذا كانت ذاكرة KV الثابتة تقدّم مكسب الإنتاجية الذي تَعِد به في الخدمة الحقيقية، وما إذا كانت تملأ 32K دون خسارة في الدقة، لا يمكن تأكيده إلا بقياسه بأنفسنا.

ومع ذلك، فإن فكرة “تثبيت المرجع وتطبيق نافذة منزلقة على التوليد” حركة نظيفة للتعامل مع سقف الذاكرة لمهام التسلسل إلى التسلسل الطويلة. وإذا صحّ الادعاء بأنها تتعمم إلى ما بعد OCR لتشمل ASR والترجمة، فإنها جديرة بالمتابعة من منظور تشغيل منصة استدلال متعددة المستأجرين.

قراءة كتاب كامل في تمريرة واحدة: سر ذاكرة KV الثابتة في Unlimited OCR من Baidu

نظرة عامة

ما هو Unlimited OCR

الآلية الجوهرية: Reference Sliding Window Attention

نتائج القياس

تطبيقه على منصة ThakiCloud لـ K8s AI/ML SaaS

القيود والحجج المضادة

المصادر

참고

루프를 돌리기 전에 설계합니다: 토큰을 태우지 않는 에이전트 루프 엔지니어링

슬랙 안으로 들어온 지속형 에이전트, Claude Tag을 플랫폼 관점에서 읽습니다

AI 에이전트에게 진짜 기억을 주는 법 - 컨텍스트 엔지니어링 4가지 기법

책 한 권을 한 번에 읽는 OCR: Baidu Unlimited OCR의 상수 KV 캐시 비밀