OpenPDFTools

متن PDF اسکن‌شده قابل انتخاب نیست - چطور با OCR آن را برطرف کنیم

Martin Pavličبروزرسانی در ۱۹ فروردین ۱۴۰۵6 دقیقه مطالعه
اشتراک‌گذاری
متن PDF اسکن‌شده قابل انتخاب نیست - چطور با OCR آن را برطرف کنیم

چرا نمی‌توانید متن را در یک PDF اسکن‌شده انتخاب کنید؟

وقتی یک سند به صورت فیزیکی اسکن می‌شود و به عنوان PDF ذخیره می‌شود، اسکنر یک تصویر مسطح از صفحه ضبط می‌کند - درست مثل گرفتن عکس. فایل حاصل هیچ کاراکتر متنی واقعی ندارد، فقط پیکسل‌هایی که شبیه حروف به نظر می‌رسند. به همین دلیل کلیک در هرجای سند چیزی انتخاب نمی‌کند: هیچ لایه متنی وجود ندارد که نشانگر بتواند به آن چنگ بزند.

این یکی از رایج‌ترین مشکلات PDF است. سند روی صفحه کاملاً خوانا به نظر می‌رسد، اما اساساً یک عکس است که درون یک پوشش PDF جاسازی شده. نمی‌توانید در آن جستجو کنید، از آن کپی بگیرید، یا اجازه دهید یک screen reader آن را تجزیه کند.

OCR چیست و چگونه این مشکل را برطرف می‌کند؟

OCR (Optical Character Recognition) فناوری است که تصویر متن را تجزیه و تحلیل می‌کند و آن را به کاراکترهای واقعی قابل خواندن توسط ماشین تبدیل می‌کند. نرم‌افزار اشکال حروف را بررسی می‌کند، آن‌ها را با الگوهای شناخته‌شده مقایسه می‌کند، و یک لایه متنی تولید می‌کند که به PDF برمی‌گردد.

پس از پردازش OCR، یک PDF قابل جستجو و انتخاب خواهید داشت - از نظر بصری یکسان با اصل، اما اکنون نشانگر می‌تواند کلمات را برجسته کند، Ctrl+F می‌تواند عبارات را پیدا کند، و کپی-پیست به طور عادی کار می‌کند. screen readerها و ابزارهای دسترس‌پذیری هم می‌توانند آن را بخوانند.

چگونه OCR را بر یک PDF اسکن‌شده اعمال کنیم

روش‌های مختلفی برای اضافه کردن OCR به یک PDF اسکن‌شده وجود دارد، از ابزارهای رایگان مرورگر تا نرم‌افزارهای دسکتاپ:

  • تبدیل به Word، سپس ذخیره به عنوان PDF: مبدل PDF به Word ما محتوای بصری را استخراج کرده و به یک سند Word قابل ویرایش تبدیل می‌کند. در Word، متن کاملاً قابل انتخاب است. سپس می‌توانید با یک لایه متنی مناسب دوباره به PDF صادر کنید.
  • Adobe Acrobat (پولی): ابزار استاندارد صنعت. PDF را باز کنید، به ابزارها → اسکن & OCR → شناسایی متن بروید، و Acrobat مستقیماً یک لایه متن اضافه می‌کند. گران اما بسیار دقیق.
  • Google Drive (رایگان): PDF اسکن‌شده خود را به Google Drive آپلود کنید، روی آن راست‌کلیک کنید و "باز کردن با Google Docs" را انتخاب کنید. Google به طور خودکار OCR اجرا می‌کند و متن را در یک سند Docs باز می‌کند. برای اسکن‌های تمیز به طرز شگفت‌انگیزی کار می‌کند.
  • Tesseract OCR (رایگان، متن‌باز): یک موتور OCR قوی خط فرمان که توسط بسیاری از برنامه‌ها استفاده می‌شود. بهترین گزینه برای توسعه‌دهندگان یا کاربران فنی که می‌خواهند یک راه‌حل رایگان خودمیزبان داشته باشند.
  • Adobe Acrobat online (رایگان محدود): Adobe پردازش OCR رایگان محدودی را از طریق ابزارهای آنلاین خود برای کاربران بدون اشتراک ارائه می‌دهد.

نکاتی برای دقت بهتر OCR

کیفیت OCR به شدت به کیفیت اسکن اصلی بستگی دارد. این نکات را دنبال کنید تا دقت را به حداکثر برسانید:

  • اسکن با 300 DPI یا بالاتر: اسکن‌های با وضوح پایین‌تر کاراکترهای مبهم تولید می‌کنند که موتورهای OCR اشتباه می‌خوانند. 300 DPI حداقل است؛ 600 DPI برای متن کوچک یا اسناد جزئیاتی ایده‌آل است.
  • استفاده از سیاه‌وسفید برای اسناد متنی: اسکن‌های رنگی حجم فایل را بدون بهبود دقت OCR برای متن ساده افزایش می‌دهند. سیاه‌وسفید یا خاکستری برای اکثر اسناد کافی است.
  • صفحات را مستقیم نگه دارید: صفحات کج یا چرخیده نرم‌افزار OCR را گیج می‌کنند. اکثر ابزارهای مدرن می‌توانند به طور خودکار تراز کنند، اما شروع مستقیم کمک می‌کند.
  • از لکه‌های قهوه و آلودگی‌ها دوری کنید: علامت‌های فیزیکی روی سند به عنوان کاراکتر اشتباه خوانده می‌شوند. اصل را در صورت امکان تمیز کنید.
  • خروجی را بررسی کنید: OCR 100٪ دقیق نیست. همیشه نتیجه را بررسی کنید، به خصوص برای اعداد، علائم نگارشی و بخش‌های دست‌نویس.

پس از OCR: در صورت نیاز حجم فایل را کاهش دهید

پردازش OCR گاهی می‌تواند حجم فایل PDF را افزایش دهد زیرا یک لایه متن پنهان بر روی لایه تصویر موجود اضافه می‌کند. اگر فایل حاصل بسیار بزرگ است، از فشرده‌ساز PDF ما استفاده کنید تا بدون از دست دادن کیفیت بصری، حجم را کاهش دهید.

اگر OCR متن را به درستی تشخیص ندهد چه باید کرد؟

دقت OCR به کیفیت اسکن اصلی بستگی دارد. نتایج ضعیف با این موارد رایج است: فونت‌های بسیار کوچک (زیر 8 نقطه)، متن دست‌نویس، فونت‌های تزئینی یا غیرمعمول، جوهر محو شده، یا اسکن‌های با کیفیت پایین زیر 200 DPI. در این موارد، تایپ مجدد دستی ممکن است ضروری باشد - یا اسکن مجدد سند اصلی با کیفیت بالاتر قبل از اجرای مجدد OCR.

سوالات متداول

چرا متن در PDF من قابل انتخاب نیست؟
PDF شما یک تصویر اسکن‌شده است، نه یک سند با لایه متن جاسازی‌شده. وقتی یک سند کاغذی اسکن شده و به عنوان PDF ذخیره می‌شود، نتیجه اساساً یک عکس از صفحه است - پیکسل‌هایی به شکل حروف، اما متن واقعی نیست. برای قابل انتخاب کردن آن، باید OCR (Optical Character Recognition) را اجرا کنید تا یک لایه متن اضافه شود.
آیا راه رایگانی برای قابل انتخاب کردن متن PDF اسکن‌شده وجود دارد؟
بله - Google Drive OCR رایگان ارائه می‌دهد: PDF را آپلود کنید، روی آن راست‌کلیک کنید و با Google Docs باز کنید. Google به طور خودکار متن را تشخیص می‌دهد. به عنوان جایگزین، مبدل PDF به Word ما محتوا را به یک سند قابل ویرایش استخراج می‌کند. برای یک راه‌حل دسکتاپ کاملاً رایگان، Tesseract OCR متن‌باز و بسیار قدرتمند است.
آیا OCR ظاهر PDF را تغییر می‌دهد؟
خیر - OCR یک لایه متن نامرئی اضافه می‌کند پشت تصویر موجود. ظاهر بصری PDF دقیقاً یکسان باقی می‌ماند. فقط توانایی انتخاب، کپی و جستجوی متن را به دست می‌آورید. تنها استثنا این است که اگر به Word تبدیل کنید و دوباره صادر کنید، که در آن تغییرات قالب‌بندی جزئی ممکن است رخ دهد.
دقت OCR در اسناد اسکن‌شده چقدر است؟
OCR مدرن در اسناد تمیز و به خوبی اسکن‌شده با 95-99٪ دقت در 300 DPI یا بالاتر کار می‌کند. دقت به طور قابل توجهی برای اسکن‌های کم‌وضوح، دست‌نویس، فونت‌های غیرمعمول یا صفحات با آسیب فیزیکی کاهش می‌یابد. همیشه قبل از اتکا به آن برای اسناد مهم، خروجی را بررسی کنید.
آیا می‌توانم متن دست‌نویس PDF را با OCR قابل انتخاب کنم؟
OCR استاندارد روی دست‌نویس عملکرد ضعیفی دارد - برای متن چاپی و تایپ‌شده طراحی شده است. ابزارهای تخصصی تشخیص دست‌خط وجود دارند اما بسیار کمتر از OCR متن چاپی دقیق هستند. اگر سند ترکیبی از چاپ و دست‌نویس دارد، OCR بخش‌های چاپی را به درستی تشخیص می‌دهد اما احتمالاً بخش‌های دست‌نویس را اشتباه می‌خواند.

مقالات مرتبط