اسکین شدہ PDF میں متن منتخب نہیں ہوتا - OCR سے اسے کیسے ٹھیک کریں

اسکین شدہ PDF میں متن کیوں منتخب نہیں کیا جا سکتا؟
جب کوئی دستاویز جسمانی طور پر اسکین کی جاتی ہے اور PDF کے طور پر محفوظ کی جاتی ہے، تو اسکینر صفحے کی ایک flat image کیپچر کرتا ہے - بالکل ایسے جیسے تصویر کھینچی جاتی ہے۔ نتیجے میں آنے والی فائل میں کوئی اصل متن characters نہیں ہوتے، صرف pixels ہوتے ہیں جو حروف جیسے دکھتے ہیں۔ اسی لیے دستاویز میں کہیں بھی کلک کرنے پر کچھ بھی منتخب نہیں ہوتا: آپ کے cursor کے لیے کوئی text layer نہیں ہے۔
یہ سب سے عام PDF مسائل میں سے ایک ہے۔ دستاویز اسکرین پر بالکل پڑھنے کے قابل دکھتی ہے، لیکن یہ بنیادی طور پر PDF wrapper میں ایمبیڈ کی گئی ایک تصویر ہے۔ آپ اسے تلاش نہیں کر سکتے، اس سے copy نہیں کر سکتے، یا screen reader کو اسے parse کرنے نہیں دے سکتے۔
OCR کیا ہے اور یہ اسے کیسے ٹھیک کرتا ہے؟
OCR (Optical Character Recognition) ایک ٹیکنالوجی ہے جو متن کی image کا تجزیہ کرتی ہے اور اسے حقیقی، machine-readable characters میں تبدیل کرتی ہے۔ سافٹ ویئر حروف کی اشکال دیکھتا ہے، انہیں معلوم patterns سے موازنہ کرتا ہے، اور ایک text layer output کرتا ہے جو PDF میں واپس embed ہو جاتی ہے۔
OCR processing کے بعد، آپ کو ایک searchable, selectable PDF ملتی ہے - بصری طور پر اصل جیسی ہی، لیکن اب آپ کا cursor الفاظ ہائی لائٹ کر سکتا ہے، Ctrl+F phrases تلاش کر سکتا ہے، اور copy-paste معمول کے مطابق کام کرتا ہے۔ Screen readers اور accessibility tools بھی اسے پڑھ سکتے ہیں۔
اسکین شدہ PDF پر OCR کیسے لگائیں
اسکین شدہ PDF میں OCR شامل کرنے کے کئی طریقے ہیں، free browser tools سے لے کر desktop software تک:
- Word میں تبدیل کریں، پھر PDF کے طور پر محفوظ کریں: ہمارا PDF to Word converter visual content نکالتا ہے اور اسے editable Word document میں تبدیل کرتا ہے۔ Word میں آنے کے بعد متن مکمل طور پر منتخب ہو جاتا ہے۔ پھر آپ proper text layer کے ساتھ PDF میں re-export کر سکتے ہیں۔
- Adobe Acrobat (paid): Industry-standard tool۔ PDF کھولیں، Tools → Scan & OCR → Recognize Text پر جائیں، اور Acrobat براہ راست text layer شامل کرتا ہے۔ مہنگا لیکن انتہائی درست۔
- Google Drive (free): اپنی اسکین شدہ PDF Google Drive پر upload کریں، right-click کریں، اور "Open with Google Docs" منتخب کریں۔ Google خودبخود OCR چلاتا ہے اور Docs document میں متن کھولتا ہے۔ صاف scans کے لیے حیرت انگیز طور پر اچھا کام کرتا ہے۔
- Tesseract OCR (free, open-source): بہت سی apps کے ذریعے استعمال ہونے والا ایک طاقتور command-line OCR engine۔ Developers یا technical users کے لیے بہترین جو free self-hosted solution چاہتے ہیں۔
- Adobe Acrobat online (limited free): Adobe بغیر subscription کے users کے لیے اپنے online tools کے ذریعے محدود free OCR processing پیش کرتا ہے۔
بہتر OCR accuracy کے لیے نکات
OCR کا معیار بہت حد تک اصل scan کے معیار پر منحصر ہے۔ accuracy زیادہ سے زیادہ کرنے کے لیے ان نکات پر عمل کریں:
- 300 DPI یا اس سے زیادہ پر اسکین کریں: کم resolution کے scans دھندلے characters پیدا کرتے ہیں جو OCR engines غلط پڑھتے ہیں۔ 300 DPI کم از کم ہے؛ 600 DPI چھوٹے متن یا تفصیلی دستاویزوں کے لیے مثالی ہے۔
- متن دستاویزوں کے لیے black-and-white استعمال کریں: Color scans plain text کے لیے OCR accuracy بہتر کیے بغیر file size بڑھاتے ہیں۔ زیادہ تر دستاویزوں کے لیے Black-and-white یا grayscale کافی ہے۔
- صفحات سیدھے رکھیں: Tilted یا skewed صفحات OCR software کو الجھاتے ہیں۔ زیادہ تر جدید tools auto-deskew کر سکتے ہیں، لیکن شروع سے سیدھا رکھنا مددگار ہے۔
- Coffee stains اور smudges سے بچیں: دستاویز پر جسمانی نشانات characters کے طور پر غلط پڑھے جاتے ہیں۔ اگر ممکن ہو تو original کو صاف کریں۔
- Output جانچیں: OCR 100% درست نہیں ہے۔ ہمیشہ نتیجہ proofread کریں، خاص طور پر numbers، punctuation اور handwritten حصوں کے لیے۔
OCR کے بعد: اگر ضرورت ہو تو file size کم کریں
OCR processing کبھی کبھی PDF file size بڑھا سکتی ہے کیونکہ یہ existing image layer کے اوپر ایک hidden text layer شامل کرتی ہے۔ اگر آپ کی نتیجے میں آنے والی فائل بہت بڑی ہے، تو visual quality کھوئے بغیر size کم کرنے کے لیے ہمارا PDF compressor استعمال کریں۔
اگر OCR متن کو صحیح طریقے سے نہ پہچانے تو؟
OCR accuracy اصل scan کے معیار پر منحصر ہے۔ ان صورتوں میں خراب نتائج عام ہیں: بہت چھوٹے fonts (8pt سے نیچے)، handwritten متن، decorative یا غیر معمولی fonts، پھیکی ink، یا 200 DPI سے کم low-quality scans۔ ان صورتوں میں، manual retyping ضروری ہو سکتی ہے - یا OCR دوبارہ چلانے سے پہلے زیادہ معیار پر original دستاویز کو دوبارہ اسکین کریں۔
اکثر پوچھے جانے والے سوالات
میری PDF میں متن کیوں منتخب نہیں ہوتا؟▾
کیا اسکین شدہ PDF متن کو منتخب کرنے کے قابل بنانے کا کوئی free طریقہ ہے؟▾
کیا OCR PDF کی ظاہری شکل بدل دیتا ہے؟▾
اسکین شدہ دستاویزوں پر OCR کتنا درست ہے؟▾
کیا میں OCR سے handwritten PDF متن کو منتخب کرنے کے قابل بنا سکتا ہوں؟▾
متعلقہ مضامین
پی ڈی ایف میں ایمبیڈڈ فونٹس غائب ہیں؟ غلط ٹیکسٹ ڈسپلے کو 7 مراحل میں درست کریں۔
اگر آپ کا پی ڈی ایف ٹیکسٹ کسی دوسرے ڈیوائس پر مختلف نظر آتا ہے، تو عام طور پر اس کی وجہ ایمبیڈڈ فونٹس کی کمی ہوتی ہے۔ اس کی تشخیص اور اسے تیزی سے ٹھیک کرنے کا طریقہ یہاں ہے۔ ✅
6 منٹ کی پڑھائیپی ڈی ایف کمپریشن کے بعد دھندلا ہو جاتا ہے؟ معیار برقرار رکھنے کے 7 طریقے (2026)
پی ڈی ایف کو کمپریس کیا اور اب متن یا تصاویر دھندلی نظر آتی ہیں؟ بالکل جانیں کہ معیار کیوں گرتا ہے اور پڑھنے کی اہلیت کو تباہ کیے بغیر فائل کا سائز کیسے کم کیا جائے۔ ✅
6 منٹ کی پڑھائیآئی فون یا اینڈرائیڈ پر پی ڈی ایف نہیں کھول سکتے؟ 6 فوری اصلاحات (2026)
اپنے آئی فون یا اینڈرائیڈ پر پی ڈی ایف فائل کھولنے کے لیے جدوجہد کر رہے ہیں؟ جانیں کہ آپ کو خالی اسکرین کیوں نظر آ سکتی ہے اور بھاری ایپس انسٹال کیے بغیر اپنے دستاویزات کو کیسے دیکھیں۔ ✅
5 منٹ کی پڑھائی