OpenPDFTools

اسکین شدہ PDF میں متن منتخب نہیں ہوتا - OCR سے اسے کیسے ٹھیک کریں

Martin Pavlič8 اپریل، 2026 کو اپڈیٹ کیا گیا6 منٹ کی پڑھائی
شیئر کریں
اسکین شدہ PDF میں متن منتخب نہیں ہوتا - OCR سے اسے کیسے ٹھیک کریں

اسکین شدہ PDF میں متن کیوں منتخب نہیں کیا جا سکتا؟

جب کوئی دستاویز جسمانی طور پر اسکین کی جاتی ہے اور PDF کے طور پر محفوظ کی جاتی ہے، تو اسکینر صفحے کی ایک flat image کیپچر کرتا ہے - بالکل ایسے جیسے تصویر کھینچی جاتی ہے۔ نتیجے میں آنے والی فائل میں کوئی اصل متن characters نہیں ہوتے، صرف pixels ہوتے ہیں جو حروف جیسے دکھتے ہیں۔ اسی لیے دستاویز میں کہیں بھی کلک کرنے پر کچھ بھی منتخب نہیں ہوتا: آپ کے cursor کے لیے کوئی text layer نہیں ہے۔

یہ سب سے عام PDF مسائل میں سے ایک ہے۔ دستاویز اسکرین پر بالکل پڑھنے کے قابل دکھتی ہے، لیکن یہ بنیادی طور پر PDF wrapper میں ایمبیڈ کی گئی ایک تصویر ہے۔ آپ اسے تلاش نہیں کر سکتے، اس سے copy نہیں کر سکتے، یا screen reader کو اسے parse کرنے نہیں دے سکتے۔

OCR کیا ہے اور یہ اسے کیسے ٹھیک کرتا ہے؟

OCR (Optical Character Recognition) ایک ٹیکنالوجی ہے جو متن کی image کا تجزیہ کرتی ہے اور اسے حقیقی، machine-readable characters میں تبدیل کرتی ہے۔ سافٹ ویئر حروف کی اشکال دیکھتا ہے، انہیں معلوم patterns سے موازنہ کرتا ہے، اور ایک text layer output کرتا ہے جو PDF میں واپس embed ہو جاتی ہے۔

OCR processing کے بعد، آپ کو ایک searchable, selectable PDF ملتی ہے - بصری طور پر اصل جیسی ہی، لیکن اب آپ کا cursor الفاظ ہائی لائٹ کر سکتا ہے، Ctrl+F phrases تلاش کر سکتا ہے، اور copy-paste معمول کے مطابق کام کرتا ہے۔ Screen readers اور accessibility tools بھی اسے پڑھ سکتے ہیں۔

اسکین شدہ PDF پر OCR کیسے لگائیں

اسکین شدہ PDF میں OCR شامل کرنے کے کئی طریقے ہیں، free browser tools سے لے کر desktop software تک:

  • Word میں تبدیل کریں، پھر PDF کے طور پر محفوظ کریں: ہمارا PDF to Word converter visual content نکالتا ہے اور اسے editable Word document میں تبدیل کرتا ہے۔ Word میں آنے کے بعد متن مکمل طور پر منتخب ہو جاتا ہے۔ پھر آپ proper text layer کے ساتھ PDF میں re-export کر سکتے ہیں۔
  • Adobe Acrobat (paid): Industry-standard tool۔ PDF کھولیں، Tools → Scan & OCR → Recognize Text پر جائیں، اور Acrobat براہ راست text layer شامل کرتا ہے۔ مہنگا لیکن انتہائی درست۔
  • Google Drive (free): اپنی اسکین شدہ PDF Google Drive پر upload کریں، right-click کریں، اور "Open with Google Docs" منتخب کریں۔ Google خودبخود OCR چلاتا ہے اور Docs document میں متن کھولتا ہے۔ صاف scans کے لیے حیرت انگیز طور پر اچھا کام کرتا ہے۔
  • Tesseract OCR (free, open-source): بہت سی apps کے ذریعے استعمال ہونے والا ایک طاقتور command-line OCR engine۔ Developers یا technical users کے لیے بہترین جو free self-hosted solution چاہتے ہیں۔
  • Adobe Acrobat online (limited free): Adobe بغیر subscription کے users کے لیے اپنے online tools کے ذریعے محدود free OCR processing پیش کرتا ہے۔

بہتر OCR accuracy کے لیے نکات

OCR کا معیار بہت حد تک اصل scan کے معیار پر منحصر ہے۔ accuracy زیادہ سے زیادہ کرنے کے لیے ان نکات پر عمل کریں:

  • 300 DPI یا اس سے زیادہ پر اسکین کریں: کم resolution کے scans دھندلے characters پیدا کرتے ہیں جو OCR engines غلط پڑھتے ہیں۔ 300 DPI کم از کم ہے؛ 600 DPI چھوٹے متن یا تفصیلی دستاویزوں کے لیے مثالی ہے۔
  • متن دستاویزوں کے لیے black-and-white استعمال کریں: Color scans plain text کے لیے OCR accuracy بہتر کیے بغیر file size بڑھاتے ہیں۔ زیادہ تر دستاویزوں کے لیے Black-and-white یا grayscale کافی ہے۔
  • صفحات سیدھے رکھیں: Tilted یا skewed صفحات OCR software کو الجھاتے ہیں۔ زیادہ تر جدید tools auto-deskew کر سکتے ہیں، لیکن شروع سے سیدھا رکھنا مددگار ہے۔
  • Coffee stains اور smudges سے بچیں: دستاویز پر جسمانی نشانات characters کے طور پر غلط پڑھے جاتے ہیں۔ اگر ممکن ہو تو original کو صاف کریں۔
  • Output جانچیں: OCR 100% درست نہیں ہے۔ ہمیشہ نتیجہ proofread کریں، خاص طور پر numbers، punctuation اور handwritten حصوں کے لیے۔

OCR کے بعد: اگر ضرورت ہو تو file size کم کریں

OCR processing کبھی کبھی PDF file size بڑھا سکتی ہے کیونکہ یہ existing image layer کے اوپر ایک hidden text layer شامل کرتی ہے۔ اگر آپ کی نتیجے میں آنے والی فائل بہت بڑی ہے، تو visual quality کھوئے بغیر size کم کرنے کے لیے ہمارا PDF compressor استعمال کریں۔

اگر OCR متن کو صحیح طریقے سے نہ پہچانے تو؟

OCR accuracy اصل scan کے معیار پر منحصر ہے۔ ان صورتوں میں خراب نتائج عام ہیں: بہت چھوٹے fonts (8pt سے نیچے)، handwritten متن، decorative یا غیر معمولی fonts، پھیکی ink، یا 200 DPI سے کم low-quality scans۔ ان صورتوں میں، manual retyping ضروری ہو سکتی ہے - یا OCR دوبارہ چلانے سے پہلے زیادہ معیار پر original دستاویز کو دوبارہ اسکین کریں۔

اکثر پوچھے جانے والے سوالات

میری PDF میں متن کیوں منتخب نہیں ہوتا؟
آپ کی PDF ایک scanned image ہے، embedded text layer کے ساتھ document نہیں۔ جب paper document اسکین کی جاتی ہے اور PDF کے طور پر محفوظ کی جاتی ہے، تو نتیجہ بنیادی طور پر صفحے کی ایک photograph ہے - حروف کی شکل کے pixels، لیکن اصل text نہیں۔ اسے منتخب کرنے کے قابل بنانے کے لیے، text layer شامل کرنے کے لیے OCR (Optical Character Recognition) چلانا ضروری ہے۔
کیا اسکین شدہ PDF متن کو منتخب کرنے کے قابل بنانے کا کوئی free طریقہ ہے؟
ہاں - Google Drive free OCR فراہم کرتا ہے: PDF upload کریں، right-click کریں، اور Google Docs کے ساتھ کھولیں۔ Google خودبخود متن پہچانتا ہے۔ متبادل کے طور پر، ہمارا PDF to Word converter content کو editable document میں نکالتا ہے۔ مکمل طور پر free desktop solution کے لیے، Tesseract OCR open-source اور بہت طاقتور ہے۔
کیا OCR PDF کی ظاہری شکل بدل دیتا ہے؟
نہیں - OCR موجودہ image کے پیچھے ایک invisible text layer شامل کرتا ہے۔ PDF کی بصری ظاہری شکل بالکل وہی رہتی ہے۔ آپ کو صرف متن select، copy اور search کرنے کی صلاحیت ملتی ہے۔ واحد استثنا Word میں تبدیل کر کے re-export کرنا ہے، جہاں معمولی formatting تبدیلیاں ہو سکتی ہیں۔
اسکین شدہ دستاویزوں پر OCR کتنا درست ہے؟
جدید OCR 300 DPI یا اس سے زیادہ پر clean، well-scanned دستاویزوں پر 95-99% درست ہے۔ Low-resolution scans، handwriting، unusual fonts، یا جسمانی نقصان والے صفحات کے لیے accuracy نمایاں طور پر کم ہو جاتی ہے۔ اہم دستاویزوں کے لیے بھروسا کرنے سے پہلے ہمیشہ output proofread کریں۔
کیا میں OCR سے handwritten PDF متن کو منتخب کرنے کے قابل بنا سکتا ہوں؟
Standard OCR handwriting پر خراب کام کرتا ہے - یہ printed، typed text کے لیے ڈیزائن کیا گیا ہے۔ Specialized handwriting recognition tools موجود ہیں لیکن printed-text OCR سے کہیں کم درست ہیں۔ اگر document میں mixed print اور handwriting ہے، تو OCR printed حصوں کو صحیح پہچانے گا لیکن handwritten حصوں کو غلط پڑھنے کا امکان ہے۔

متعلقہ مضامین