Arabic OCR Accuracy: What's Actually Working in 2026

قراءة المستندات العربية بالذكاء الاصطناعي ظلّت 'تقريباً تشتغل' لخمسة عشر سنة. في ٢٠٢٦ تجاوزت الحد فعلاً — بشروطها. هذا المقال يستعرض اللي يشتغل في الإنتاج، وين الحدود، وكيف ننشره للشركات الكويتية.

طوال السنوات العشر الماضية، تقنية قراءة المستندات العربية (OCR) كانت الشي اللي كل مزوّد يعرضه ببرزنتيشن جميل ويفشل بتسليمه على نطاق إنتاج. العروض كانت تستخدم خطوط عربية حديثة ونظيفة على خلفيات مسطّحة. الواقع الإنتاجي — عقود ممسوحة، إيصالات مصوّرة، جداول مختلطة عربي/إنجليزي — كان شي ثاني تماماً.

في ٢٠٢٦، الفجوة قفلت. مو لأن أحد أعاد اختراع الـOCR، بل لأن النماذج البصرية اللغوية (Vision-Language Models) رفعت الحد الأدنى لفهم المستندات فوق ما تقدر تصل له المنهجية الكلاسيكية.

هالمقال يستعرض اللي يشتغل فعلياً، وين تبقى الحدود، وكيف ننشره للشركات الكويتية.

ليش قراءة المستندات العربية كانت صعبة

سلسلة الـOCR الكلاسيكية — تقسيم الأحرف → تصنيف → إعادة تركيب — ما اشتغلت زين للعربي لأربعة أسباب:

خط متّصل. الحرف العربي يتغيّر شكله حسب موقعه في الكلمة (مستقل، بداية، وسط، نهاية). الحرف الواحد عنده لين أربعة أشكال.
النقاط والحركات. حرفين يمكن يكونوا متطابقين تماماً ما عدا موقع وعدد النقاط. ذرّة حبر تغيّر المعنى.
التشكيل الاختياري. الحركات أحياناً موجودة وغالباً غايبة — النموذج لازم يتعامل مع الحالتين.
تنوّع الخطوط. النسخ، الرقعة، الكوفي، الديواني، والخطوط الحديثة، كلها تغيّر الخط البصري.

السلسلة الكلاسيكية حاولت تحلّ هذي كخطوات منفصلة وكوّمت أخطاء في كل مرحلة. النماذج البصرية الحديثة تتجاوز السلسلة كلها — تقرأ الصفحة ككل وتنتج النص، بنفس الطريقة اللي يقرا فيها إنسان متعلّم.

وضع التقنية الحالي في ٢٠٢٦

التحوّل جا مع نماذج مثل Qwen3-VL و GPT-4o vision و Claude Sonnet vision والبدائل المفتوحة. هذي النماذج درّبت على مكتبات وثائق ضخمة متعدّدة اللغات تتضمّن نصوص عربية كثيرة. النتيجة: نموذج واحد يتعامل مع العربي المطبوع بكل الخطوط الشائعة والتنسيقات ومستويات الجودة بدون ضبط لكل مستند.

اختبرنا هذي النماذج على مكتبة شعر عربية منتقاة — ١٩ كتاب، ٣.٤ مليون توكن من خطوط متنوّعة وطباعة قديمة — وحصلنا على صفر أخطاء على مستوى السلسلة. مو دقة أحرف مثالية في كل سطر، بس بدون فشل في الطرف للطرف، بدون صفحات متخطّاة، بدون فساد صامت.

وين الحدود الفعلية (الصراحة مهمة)

القدرة حقيقية بس مو مفتوحة. حالات الفشل اللي لازم تتعامل معاها:

الكتابة اليدوية. نماذج VLM الحديثة تقرا الكتابة العربية اليدوية النظيفة بشكل مقبول؛ الكتابة المعكلة أو الملاحظات على هامش وثيقة مطبوعة لا تزال غير موثوقة.
المسح منخفض الدقة. تحت ٢٠٠ DPI تقريباً، التمييز بين الأحرف يتدهور. فوق ٣٠٠ DPI، المشكلة محلولة عملياً.
الجداول المختلطة AR–EN. التخطيط ثنائي الاتجاه في الجداول لا يزال يربك بنية المخرج؛ غالباً تحتاج معالجة بعدية لإعادة بناء الجدول.
الأختام والتواقيع والعلامات المائية. هذي تتراكب فوق الأحرف وتفسدها. ولا نموذج يتعامل معاها بشكل سلس.
النماذج الخطية الكويتية الخاصة. الاختصارات الكويتية وأعراف الوثائق المحلية تحتاج تدريب مخصّص.

إذا سلسلتك لازم تتعامل مع أي من هذي، خطّط لتدخّل بشري في حالات الفشل — وصمّم الواجهة بحيث التصعيد سريع.

كيف ننشره في الإنتاج

للشركات الكويتية، سؤال النشر أهم من سؤال النموذج. ثلاث اعتبارات:

١. سيادة البيانات والخصوصية. البنوك والجهات الحكومية والقطاع القانوني ما يقدرون يرسلون مستندات لـAPI طرف ثالث. لهذي الجهات، ننشر النماذج البصرية اللغوية داخل سيرفرات العميل أو في سحابة خاصة يتحكّم فيها. كروت GPU المحلية تتولّى الاستدلال؛ المستندات ما تخرج من شبكة العميل. هذا الفرق بين إثبات مفهوم ونظام يوقّع عليه فريق الامتثال فعلاً.

٢. دفعات أو لحظي. أغلب سير العمل بالمستندات ما يحتاج OCR لحظي. تشغيلة ليلية بدفعات تعالج مستندات اليوم، بتكلفة كسر من الاستدلال اللحظي، وتتكامل بنظافة مع أنظمة الـback-office الموجودة. اللحظي يصير منطقي بس للسير الموجّه للعميل (مثلاً تأهيل KYC).

٣. SLA الدقة. ما تعد بـ١٠٠٪. الـSLA الصحيح شي مثل: "≥٩٨٪ دقة أحرف على النماذج المطبوعة القياسية؛ مراجعة مُبلّغ بها للصفحات منخفضة الثقة؛ تدخّل بشري للمستندات الحرّة." البنوك تتفهّم وتقبل هذا؛ وعود "الذكاء الاصطناعي" الغامضة ما تنجو من إجراءات الشراء.

شلون يعني هذا لستاكك

إذا تعالج مستندات عربية بأي حجم — KYC للبنوك، أرشيف حكومي، فواتير تجارة، عقود قانونية — السؤال التقني محسوم. الأسئلة الباقية تشغيلية: وين يشتغل، مين يراجع الحالات الحرجة، كيف تقيس الدقة، وكيف تبقى داخل نظام الخصوصية اللي يطبّق على قطاعك.

نشرنا سلاسل OCR عربية لأنفسنا (رقمنة الشعر العربي الكلاسيكي) ولعملاء إنتاج. النماذج متاحة على Hugging Face. الخبرة في النشر — كيف نجعلها موثوقة داخل ستاك منظّم — هي اللي نبيعها.

الخلاصة

OCR العربي ما عاد مشكلة بحثية. صار مشكلة هندسية. إذا فريقك لا يزال يتعامل معاها على إنها الجزء الصعب من المشروع، باقي تصميم المشروع غالباً غلط. تعامل معاها كمكوّن محلول، صمّم سير العمل حول حالات الفشل، واطلق.

إذا عندك سير عمل مستندات لا يزال يدوي لأن "OCR العربي ما يشتغل"، يستاهل محادثة. تواصلوا عبر واتساب أو Qutaiba@cyb3rq.com.

دقة قراءة المستندات العربية: شلون يشتغل فعلاً في ٢٠٢٦