OpenPDFTools

نص PDF الممسوح ضوئياً غير قابل للتحديد - كيفية إصلاحه باستخدام OCR

Martin Pavličآخر تحديث 8 أبريل 20266 دقيقة قراءة
مشاركة
نص PDF الممسوح ضوئياً غير قابل للتحديد - كيفية إصلاحه باستخدام OCR

لماذا لا يمكنك تحديد النص في ملف PDF الممسوح ضوئياً؟

عندما يُمسح مستند ضوئياً بشكل فعلي ويُحفظ كملف PDF، يلتقط الماسح الضوئي صورة مسطحة للصفحة - تماماً مثل التقاط صورة فوتوغرافية. الملف الناتج لا يحتوي على أحرف نصية فعلية، بل على بكسلات مرتبة لتبدو كحروف. لهذا السبب، النقر في أي مكان في المستند لا يُحدد شيئاً: لا توجد طبقة نص يمكن للمؤشر الإمساك بها.

هذه من أكثر مشكلات PDF شيوعاً. يبدو المستند مقروءاً تماماً على الشاشة، لكنه في الأساس صورة فوتوغرافية مضمّنة في غلاف PDF. لا يمكنك البحث فيه أو النسخ منه، ولا يمكن لقارئ الشاشة تحليله.

ما هو OCR وكيف يُصلح هذه المشكلة؟

OCR (Optical Character Recognition) هو تقنية تُحلل صورة النص وتحولها إلى أحرف فعلية قابلة للقراءة آلياً. يفحص البرنامج أشكال الحروف ويقارنها بأنماط معروفة، وينتج طبقة نص تُضمَّن مجدداً في ملف PDF.

بعد معالجة OCR، ستحصل على ملف PDF قابل للبحث والتحديد - متطابق بصرياً مع الأصل، لكن الآن يستطيع المؤشر تمييز الكلمات، ويمكن لـ Ctrl+F إيجاد العبارات، والنسخ واللصق يعمل بشكل طبيعي. كما يمكن لقراء الشاشة وأدوات إمكانية الوصول قراءته.

كيفية تطبيق OCR على ملف PDF ممسوح ضوئياً

هناك عدة طرق لإضافة OCR إلى ملف PDF ممسوح ضوئياً، تتراوح من أدوات المتصفح المجانية إلى برامج سطح المكتب:

  • التحويل إلى Word ثم الحفظ كـ PDF: يستخرج محوّل PDF إلى Word لدينا المحتوى المرئي ويحوله إلى مستند Word قابل للتحرير. في Word، يصبح النص قابلاً للتحديد بالكامل. يمكنك بعد ذلك إعادة التصدير إلى PDF بطبقة نص مناسبة.
  • Adobe Acrobat (مدفوع): الأداة المعيارية في الصناعة. افتح ملف PDF، اذهب إلى الأدوات → مسح & OCR → التعرف على النص، وسيضيف Acrobat طبقة نص مباشرة. مكلف لكنه دقيق للغاية.
  • Google Drive (مجاني): ارفع ملف PDF الممسوح إلى Google Drive، انقر عليه بزر الماوس الأيمن واختر "الفتح باستخدام Google Docs." يقوم Google بتشغيل OCR تلقائياً ويفتح النص في مستند Docs. يعمل بشكل مدهش مع المسح الجيد.
  • Tesseract OCR (مجاني ومفتوح المصدر): محرك OCR سطري قوي تستخدمه تطبيقات عديدة. الأفضل للمطورين أو المستخدمين التقنيين الذين يريدون حلاً مجانياً ذاتي الاستضافة.
  • Adobe Acrobat online (مجاني محدود): تقدم Adobe معالجة OCR مجانية محدودة عبر أدواتها الإلكترونية للمستخدمين بدون اشتراك.

نصائح لدقة OCR أفضل

تعتمد جودة OCR اعتماداً كبيراً على جودة المسح الضوئي الأصلي. اتبع هذه النصائح لتعظيم الدقة:

  • المسح بـ 300 DPI أو أعلى: المسح بدقة منخفضة ينتج أحرفاً ضبابية تُقرأ بشكل خاطئ من محركات OCR. 300 DPI هو الحد الأدنى؛ 600 DPI مثالي للنصوص الصغيرة أو المستندات التفصيلية.
  • استخدام الأبيض والأسود للمستندات النصية: المسح الملون يزيد حجم الملف دون تحسين دقة OCR للنص العادي. الأبيض والأسود أو تدرج الرمادي كافٍ لمعظم المستندات.
  • الحفاظ على الصفحات مستقيمة: الصفحات المائلة أو المنحرفة تُربك برامج OCR. معظم الأدوات الحديثة يمكنها التقويم التلقائي، لكن البدء بوضع مستقيم يُساعد.
  • تجنب بقع القهوة والاتساخات: العلامات الفيزيائية على المستند تُقرأ بشكل خاطئ كأحرف. نظّف الأصل إذا أمكن.
  • فحص المخرجات: OCR ليس دقيقاً بنسبة 100%. دائماً راجع النتيجة، خاصة للأرقام وعلامات الترقيم والأقسام المكتوبة بخط اليد.

بعد OCR: تقليل حجم الملف إذا لزم الأمر

قد تزيد معالجة OCR أحياناً من حجم ملف PDF لأنها تضيف طبقة نص مخفية فوق طبقة الصورة الموجودة. إذا كان الملف الناتج كبيراً جداً، استخدم ضاغط PDF لدينا لتقليل الحجم دون فقدان الجودة البصرية.

ماذا تفعل إذا لم يتعرف OCR على النص بشكل صحيح؟

تعتمد دقة OCR على جودة المسح الأصلي. النتائج السيئة شائعة مع: الخطوط الصغيرة جداً (أقل من 8 نقاط)، النص المكتوب بخط اليد، الخطوط الزخرفية أو غير المعتادة، الحبر الباهت، أو المسح الضوئي منخفض الجودة أقل من 200 DPI. في هذه الحالات، قد يكون إعادة الكتابة يدوياً ضرورياً - أو إعادة مسح المستند الأصلي بجودة أعلى قبل تشغيل OCR مجدداً.

الأسئلة الشائعة

لماذا النص في ملف PDF الخاص بي غير قابل للتحديد؟
ملف PDF الخاص بك هو صورة ممسوحة ضوئياً، وليس مستنداً بطبقة نص مضمّنة. عندما يُمسح مستند ورقي ضوئياً ويُحفظ كـ PDF، تكون النتيجة في الأساس صورة فوتوغرافية للصفحة - بكسلات على شكل حروف، لكنها ليست نصاً فعلياً. لجعله قابلاً للتحديد، تحتاج إلى تشغيل OCR (Optical Character Recognition) لإضافة طبقة نص.
هل هناك طريقة مجانية لجعل نص PDF الممسوح ضوئياً قابلاً للتحديد؟
نعم - Google Drive يوفر OCR مجاناً: ارفع ملف PDF، انقر عليه بزر الأيمن وافتحه بـ Google Docs. يتعرف Google على النص تلقائياً. بديلاً، محوّل PDF إلى Word لدينا يستخرج المحتوى إلى مستند قابل للتحرير. للحل المجاني تماماً على سطح المكتب، Tesseract OCR مفتوح المصدر وقوي للغاية.
هل يغير OCR مظهر ملف PDF؟
لا - يُضيف OCR طبقة نص غير مرئية خلف الصورة الموجودة. يبقى المظهر البصري لملف PDF كما هو تماماً. تكسب فقط القدرة على تحديد النص ونسخه والبحث فيه. الاستثناء الوحيد هو إذا حوّلت إلى Word وأعدت التصدير، حيث قد تحدث تغييرات تنسيق طفيفة.
ما مدى دقة OCR في المستندات الممسوحة ضوئياً؟
OCR الحديث دقيق بنسبة 95-99% على المستندات النظيفة المُمسوحة جيداً بـ 300 DPI أو أعلى. تنخفض الدقة بشكل ملحوظ للمسح منخفض الدقة، وخط اليد، والخطوط غير المعتادة، أو الصفحات ذات الأضرار الفيزيائية. دائماً راجع المخرجات قبل الاعتماد عليها في المستندات المهمة.
هل يمكنني جعل نص PDF المكتوب بخط اليد قابلاً للتحديد بـ OCR؟
OCR القياسي يعمل بشكل سيئ على خط اليد - فهو مصمم للنص المطبوع والمكتوب آلياً. توجد أدوات تخصصية للتعرف على خط اليد لكنها أقل دقة بكثير من OCR للنص المطبوع. إذا كان المستند يحتوي على مزيج من الطباعة وخط اليد، سيتعرف OCR بشكل صحيح على الأجزاء المطبوعة لكنه على الأرجح سيُخطئ في قراءة الأجزاء المكتوبة بخط اليد.

مقالات ذات صلة