OpenPDFTools

ਸਕੈਨ ਕੀਤੀ PDF ਵਿੱਚ ਟੈਕਸਟ ਚੁਣਿਆ ਨਹੀਂ ਜਾਂਦਾ - OCR ਨਾਲ ਇਸਨੂੰ ਕਿਵੇਂ ਠੀਕ ਕਰੀਏ

Martin Pavlič8 ਅਪ੍ਰੈਲ 2026 ਨੂੰ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ6 ਮਿੰਟ ਪੜ੍ਹਨ ਦਾ ਸਮਾਂ
ਸਾਂਝਾ ਕਰੋ
ਸਕੈਨ ਕੀਤੀ PDF ਵਿੱਚ ਟੈਕਸਟ ਚੁਣਿਆ ਨਹੀਂ ਜਾਂਦਾ - OCR ਨਾਲ ਇਸਨੂੰ ਕਿਵੇਂ ਠੀਕ ਕਰੀਏ

ਸਕੈਨ ਕੀਤੀ PDF ਵਿੱਚ ਟੈਕਸਟ ਕਿਉਂ ਨਹੀਂ ਚੁਣਿਆ ਜਾ ਸਕਦਾ?

ਜਦੋਂ ਕੋਈ ਦਸਤਾਵੇਜ਼ ਭੌਤਿਕ ਤੌਰ ’ਤੇ ਸਕੈਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ PDF ਵਜੋਂ ਸੇਵ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸਕੈਨਰ ਪੰਨੇ ਦੀ flat image ਕੈਪਚਰ ਕਰਦਾ ਹੈ - ਜਿਵੇਂ ਫੋਟੋ ਲਈ। ਬਣੀ ਫ਼ਾਈਲ ਵਿੱਚ ਕੋਈ ਅਸਲ ਟੈਕਸਟ characters ਨਹੀਂ ਹੁੰਦੇ, ਸਿਰਫ਼ pixels ਹੁੰਦੇ ਹਨ ਜੋ ਅੱਖਰਾਂ ਵਰਗੇ ਦਿਖਦੇ ਹਨ। ਇਸੇ ਲਈ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਕਿਤੇ ਵੀ ਕਲਿੱਕ ਕਰਨ ’ਤੇ ਕੁਝ ਵੀ ਚੁਣਿਆ ਨਹੀਂ ਜਾਂਦਾ: ਤੁਹਾਡੇ cursor ਲਈ ਕੋਈ text layer ਨਹੀਂ ਹੈ।

ਇਹ ਸਭ ਤੋਂ ਆਮ PDF ਸਮੱਸਿਆਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਦਸਤਾਵੇਜ਼ ਸਕ੍ਰੀਨ ’ਤੇ ਬਿਲਕੁਲ ਪੜ੍ਹਨਯੋਗ ਦਿਖਦਾ ਹੈ, ਪਰ ਇਹ ਅਸਲ ਵਿੱਚ PDF wrapper ਵਿੱਚ embedded ਇੱਕ ਫੋਟੋਗ੍ਰਾਫ਼ ਹੈ। ਤੁਸੀਂ ਇਸਨੂੰ ਖੋਜ ਨਹੀਂ ਸਕਦੇ, ਇਸ ਤੋਂ copy ਨਹੀਂ ਕਰ ਸਕਦੇ, ਜਾਂ screen reader ਨੂੰ ਇਸਨੂੰ parse ਕਰਨ ਨਹੀਂ ਦੇ ਸਕਦੇ।

OCR ਕੀ ਹੈ ਅਤੇ ਇਹ ਕਿਵੇਂ ਠੀਕ ਕਰਦਾ ਹੈ?

OCR (Optical Character Recognition) ਇੱਕ ਤਕਨੀਕ ਹੈ ਜੋ ਟੈਕਸਟ ਦੀ image ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਅਸਲ, machine-readable characters ਵਿੱਚ ਬਦਲਦੀ ਹੈ। ਸੌਫਟਵੇਅਰ ਅੱਖਰਾਂ ਦੀ ਸ਼ਕਲ ਦੇਖਦਾ ਹੈ, ਜਾਣੇ-ਪਛਾਣੇ patterns ਨਾਲ ਤੁਲਨਾ ਕਰਦਾ ਹੈ, ਅਤੇ text layer output ਕਰਦਾ ਹੈ ਜੋ PDF ਵਿੱਚ ਵਾਪਸ embed ਹੋ ਜਾਂਦੀ ਹੈ।

OCR processing ਤੋਂ ਬਾਅਦ, ਤੁਹਾਨੂੰ searchable, selectable PDF ਮਿਲਦੀ ਹੈ - ਦ੍ਰਿਸ਼ਟੀ ਤੌਰ ’ਤੇ ਮੂਲ ਵਰਗੀ ਹੀ, ਪਰ ਹੁਣ ਤੁਹਾਡਾ cursor ਸ਼ਬਦਾਂ ਨੂੰ ਹਾਈਲਾਈਟ ਕਰ ਸਕਦਾ ਹੈ, Ctrl+F phrases ਲੱਭ ਸਕਦਾ ਹੈ, ਅਤੇ copy-paste ਆਮ ਵਾਂਗੂ ਕੰਮ ਕਰਦਾ ਹੈ। Screen readers ਅਤੇ accessibility tools ਵੀ ਇਸਨੂੰ ਪੜ੍ਹ ਸਕਦੇ ਹਨ।

ਸਕੈਨ ਕੀਤੀ PDF ’ਤੇ OCR ਕਿਵੇਂ ਲਗਾਈਏ

ਸਕੈਨ ਕੀਤੀ PDF ਵਿੱਚ OCR ਜੋੜਨ ਦੇ ਕਈ ਤਰੀਕੇ ਹਨ, free browser tools ਤੋਂ desktop software ਤੱਕ:

  • Word ਵਿੱਚ ਬਦਲੋ, ਫਿਰ PDF ਵਜੋਂ ਸੇਵ ਕਰੋ: ਸਾਡਾ PDF to Word converter visual content ਕੱਢਦਾ ਹੈ ਅਤੇ editable Word document ਵਿੱਚ ਬਦਲਦਾ ਹੈ। Word ਵਿੱਚ ਆਉਣ ’ਤੇ ਟੈਕਸਟ ਪੂਰੀ ਤਰ੍ਹਾਂ ਚੁਣਨਯੋਗ ਹੋ ਜਾਂਦਾ ਹੈ। ਫਿਰ ਤੁਸੀਂ proper text layer ਨਾਲ PDF ਵਿੱਚ re-export ਕਰ ਸਕਦੇ ਹੋ।
  • Adobe Acrobat (paid): Industry-standard tool. PDF ਖੋਲ੍ਹੋ, Tools → Scan & OCR → Recognize Text ’ਤੇ ਜਾਓ, ਅਤੇ Acrobat ਸਿੱਧੀ text layer ਜੋੜਦਾ ਹੈ। ਮਹਿੰਗਾ ਪਰ ਬਹੁਤ ਸਟੀਕ।
  • Google Drive (free): ਆਪਣੀ ਸਕੈਨ ਕੀਤੀ PDF Google Drive ’ਤੇ upload ਕਰੋ, right-click ਕਰੋ, ਅਤੇ "Open with Google Docs" ਚੁਣੋ। Google ਆਪਣੇ ਆਪ OCR ਚਲਾਉਂਦਾ ਹੈ ਅਤੇ Docs document ਵਿੱਚ ਟੈਕਸਟ ਖੋਲ੍ਹਦਾ ਹੈ। ਸਾਫ਼ scans ਲਈ ਹੈਰਾਨੀਜਨਕ ਤੌਰ ’ਤੇ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ।
  • Tesseract OCR (free, open-source): ਬਹੁਤ ਸਾਰੀਆਂ apps ਦੁਆਰਾ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਸ਼ਕਤੀਸ਼ਾਲੀ command-line OCR engine. Developers ਜਾਂ technical users ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਜੋ free self-hosted solution ਚਾਹੁੰਦੇ ਹਨ।
  • Adobe Acrobat online (limited free): Adobe ਬਿਨਾਂ subscription ਵਾਲੇ users ਲਈ ਆਪਣੇ online tools ਰਾਹੀਂ ਸੀਮਤ free OCR processing ਦਿੰਦਾ ਹੈ।

ਬਿਹਤਰ OCR accuracy ਲਈ ਸੁਝਾਅ

OCR ਦੀ ਗੁਣਵੱਤਾ ਬਹੁਤ ਹੱਦ ਤੱਕ ਅਸਲ scan ਦੀ ਗੁਣਵੱਤਾ ’ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। accuracy ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਇਹ ਸੁਝਾਅ ਅਪਣਾਓ:

  • 300 DPI ਜਾਂ ਵੱਧ ’ਤੇ ਸਕੈਨ ਕਰੋ: ਘੱਟ resolution ਦੇ scans ਧੁੰਦਲੇ characters ਪੈਦਾ ਕਰਦੇ ਹਨ ਜੋ OCR engines ਗਲਤ ਪੜ੍ਹਦੇ ਹਨ। 300 DPI ਘੱਟੋ-ਘੱਟ ਹੈ; 600 DPI ਛੋਟੇ ਟੈਕਸਟ ਜਾਂ ਵਿਸਤਾਰਤ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਆਦਰਸ਼ ਹੈ।
  • ਟੈਕਸਟ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ black-and-white ਵਰਤੋ: Color scans plain text ਲਈ OCR accuracy ਸੁਧਾਰੇ ਬਿਨਾਂ file size ਵਧਾਉਂਦੇ ਹਨ। ਜ਼ਿਆਦਾਤਰ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ Black-and-white ਜਾਂ grayscale ਕਾਫ਼ੀ ਹੈ।
  • ਪੰਨੇ ਸਿੱਧੇ ਰੱਖੋ: Tilted ਜਾਂ skewed ਪੰਨੇ OCR software ਨੂੰ ਉਲਝਾਉਂਦੇ ਹਨ। ਜ਼ਿਆਦਾਤਰ ਆਧੁਨਿਕ tools auto-deskew ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਸ਼ੁਰੂ ਤੋਂ ਸਿੱਧੇ ਰੱਖਣਾ ਮਦਦਗਾਰ ਹੈ।
  • Coffee stains ਅਤੇ smudges ਤੋਂ ਬਚੋ: ਦਸਤਾਵੇਜ਼ ’ਤੇ ਭੌਤਿਕ ਨਿਸ਼ਾਨ characters ਵਜੋਂ ਗਲਤ ਪੜ੍ਹੇ ਜਾਂਦੇ ਹਨ। ਜੇ ਸੰਭਵ ਹੋਵੇ ਤਾਂ original ਸਾਫ਼ ਕਰੋ।
  • Output ਜਾਂਚੋ: OCR 100% ਸਟੀਕ ਨਹੀਂ ਹੈ। ਹਮੇਸ਼ਾ ਨਤੀਜਾ proofread ਕਰੋ, ਖਾਸ ਕਰਕੇ numbers, punctuation ਅਤੇ handwritten ਭਾਗਾਂ ਲਈ।

OCR ਤੋਂ ਬਾਅਦ: ਜ਼ਰੂਰਤ ਪੈਣ ’ਤੇ file size ਘਟਾਓ

OCR processing ਕਦੇ-ਕਦੇ PDF file size ਵਧਾ ਸਕਦੀ ਹੈ ਕਿਉਂਕਿ ਇਹ existing image layer ਦੇ ਉੱਪਰ hidden text layer ਜੋੜਦੀ ਹੈ। ਜੇ ਤੁਹਾਡੀ ਬਣੀ ਫ਼ਾਈਲ ਬਹੁਤ ਵੱਡੀ ਹੈ, visual quality ਗੁਆਏ ਬਿਨਾਂ size ਘਟਾਉਣ ਲਈ ਸਾਡਾ PDF compressor ਵਰਤੋ।

ਜੇ OCR ਟੈਕਸਟ ਸਹੀ ਤਰ੍ਹਾਂ ਨਹੀਂ ਪਛਾਣਦਾ?

OCR accuracy ਅਸਲ scan ਦੀ ਗੁਣਵੱਤਾ ’ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਇਨ੍ਹਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ ਮਾੜੇ ਨਤੀਜੇ ਆਮ ਹਨ: ਬਹੁਤ ਛੋਟੇ fonts (8pt ਤੋਂ ਹੇਠਾਂ), handwritten text, decorative ਜਾਂ ਅਸਾਧਾਰਨ fonts, ਫਿੱਕੀ ink, ਜਾਂ 200 DPI ਤੋਂ ਘੱਟ low-quality scans. ਇਨ੍ਹਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ, manual retyping ਜ਼ਰੂਰੀ ਹੋ ਸਕਦੀ ਹੈ - ਜਾਂ OCR ਦੁਬਾਰਾ ਚਲਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਉੱਚ ਗੁਣਵੱਤਾ ’ਤੇ original ਦਸਤਾਵੇਜ਼ ਦੁਬਾਰਾ ਸਕੈਨ ਕਰੋ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ

ਮੇਰੀ PDF ਵਿੱਚ ਟੈਕਸਟ ਕਿਉਂ ਨਹੀਂ ਚੁਣਿਆ ਜਾਂਦਾ?
ਤੁਹਾਡੀ PDF ਇੱਕ scanned image ਹੈ, embedded text layer ਵਾਲਾ document ਨਹੀਂ। ਜਦੋਂ paper document ਸਕੈਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ PDF ਵਜੋਂ ਸੇਵ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਨਤੀਜਾ ਅਸਲ ਵਿੱਚ ਪੰਨੇ ਦੀ ਇੱਕ photograph ਹੈ - ਅੱਖਰਾਂ ਦੀ ਸ਼ਕਲ ਵਾਲੇ pixels, ਪਰ ਅਸਲ text ਨਹੀਂ। ਇਸਨੂੰ ਚੁਣਨਯੋਗ ਬਣਾਉਣ ਲਈ, text layer ਜੋੜਨ ਲਈ OCR (Optical Character Recognition) ਚਲਾਉਣਾ ਜ਼ਰੂਰੀ ਹੈ।
ਕੀ ਸਕੈਨ ਕੀਤੀ PDF ਟੈਕਸਟ ਨੂੰ ਚੁਣਨਯੋਗ ਬਣਾਉਣ ਦਾ ਕੋਈ free ਤਰੀਕਾ ਹੈ?
ਹਾਂ - Google Drive free OCR ਦਿੰਦਾ ਹੈ: PDF upload ਕਰੋ, right-click ਕਰੋ, ਅਤੇ Google Docs ਨਾਲ ਖੋਲ੍ਹੋ। Google ਆਪਣੇ ਆਪ ਟੈਕਸਟ ਪਛਾਣਦਾ ਹੈ। ਬਦਲਵੇਂ ਤੌਰ ’ਤੇ, ਸਾਡਾ PDF to Word converter content ਨੂੰ editable document ਵਿੱਚ ਕੱਢਦਾ ਹੈ। ਪੂਰੀ ਤਰ੍ਹਾਂ free desktop solution ਲਈ, Tesseract OCR open-source ਅਤੇ ਬਹੁਤ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੈ।
ਕੀ OCR PDF ਦਾ ਦਿੱਖ ਬਦਲਦਾ ਹੈ?
ਨਹੀਂ - OCR ਮੌਜੂਦਾ image ਦੇ ਪਿੱਛੇ invisible text layer ਜੋੜਦਾ ਹੈ। PDF ਦਾ ਦ੍ਰਿਸ਼ਟੀ ਰੂਪ ਬਿਲਕੁਲ ਉਹੀ ਰਹਿੰਦਾ ਹੈ। ਸਿਰਫ਼ text select, copy ਅਤੇ search ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਮਿਲਦੀ ਹੈ। ਇਕੋ ਅਪਵਾਦ Word ਵਿੱਚ ਬਦਲ ਕੇ re-export ਕਰਨਾ ਹੈ, ਜਿੱਥੇ ਮਾਮੂਲੀ formatting ਤਬਦੀਲੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ।
ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼ਾਂ 'ਤੇ OCR ਕਿੰਨਾ ਸਟੀਕ ਹੈ?
ਆਧੁਨਿਕ OCR 300 DPI ਜਾਂ ਵੱਧ ’ਤੇ clean, well-scanned ਦਸਤਾਵੇਜ਼ਾਂ ’ਤੇ 95-99% ਸਟੀਕ ਹੈ। Low-resolution scans, handwriting, unusual fonts, ਜਾਂ ਭੌਤਿਕ ਨੁਕਸਾਨ ਵਾਲੇ ਪੰਨਿਆਂ ਲਈ accuracy ਕਾਫ਼ੀ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਭਰੋਸਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹਮੇਸ਼ਾ output proofread ਕਰੋ।
ਕੀ ਮੈਂ OCR ਨਾਲ handwritten PDF ਟੈਕਸਟ ਚੁਣਨਯੋਗ ਬਣਾ ਸਕਦਾ ਹਾਂ?
Standard OCR handwriting ’ਤੇ ਮਾੜਾ ਕੰਮ ਕਰਦਾ ਹੈ - ਇਹ printed, typed text ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ। Specialized handwriting recognition tools ਮੌਜੂਦ ਹਨ ਪਰ printed-text OCR ਨਾਲੋਂ ਬਹੁਤ ਘੱਟ ਸਟੀਕ ਹਨ। ਜੇ document ਵਿੱਚ mixed print ਅਤੇ handwriting ਹੈ, OCR printed ਭਾਗਾਂ ਨੂੰ ਸਹੀ ਪਛਾਣੇਗਾ ਪਰ handwritten ਭਾਗਾਂ ਨੂੰ ਗਲਤ ਪੜ੍ਹਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।

ਸੰਬੰਧਿਤ ਲੇਖ

ਪੀਡੀਐਫ ਵਿੱਚ ਏਮਬੇਡ ਕੀਤੇ ਫੌਂਟ ਗੁੰਮ ਹਨ? 7 ਪੜਾਵਾਂ ਵਿੱਚ ਗਲਤ ਟੈਕਸਟ ਡਿਸਪਲੇ ਨੂੰ ਠੀਕ ਕਰੋ

ਜੇਕਰ ਤੁਹਾਡਾ PDF ਟੈਕਸਟ ਕਿਸੇ ਹੋਰ ਡਿਵਾਈਸ 'ਤੇ ਵੱਖਰਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਆਮ ਤੌਰ 'ਤੇ ਏਮਬੈੱਡ ਕੀਤੇ ਫੋਂਟ ਗੁੰਮ ਹੋਣ ਦਾ ਕਾਰਨ ਹੁੰਦਾ ਹੈ। ਇੱਥੇ ਇਸ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਨਿਦਾਨ ਅਤੇ ਠੀਕ ਕਰਨ ਦਾ ਤਰੀਕਾ ਹੈ। ✅

6 ਮਿੰਟ ਪੜ੍ਹਨ ਦਾ ਸਮਾਂ

ਪੀਡੀਐਫ ਕੰਪਰੈਸ਼ਨ ਤੋਂ ਬਾਅਦ ਧੁੰਦਲੀ ਹੋ ਜਾਂਦੀ ਹੈ? ਗੁਣਵੱਤਾ ਰੱਖਣ ਦੇ 7 ਤਰੀਕੇ (2026)

ਇੱਕ PDF ਸੰਕੁਚਿਤ ਅਤੇ ਹੁਣ ਟੈਕਸਟ ਜਾਂ ਚਿੱਤਰ ਧੁੰਦਲੇ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ? ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਾਣੋ ਕਿ ਗੁਣਵੱਤਾ ਕਿਉਂ ਘਟਦੀ ਹੈ ਅਤੇ ਪੜ੍ਹਨਯੋਗਤਾ ਨੂੰ ਨਸ਼ਟ ਕੀਤੇ ਬਿਨਾਂ ਫਾਈਲ ਦਾ ਆਕਾਰ ਕਿਵੇਂ ਘਟਾਉਣਾ ਹੈ। ✅

6 ਮਿੰਟ ਪੜ੍ਹਨ ਦਾ ਸਮਾਂ

ਆਈਫੋਨ ਜਾਂ ਐਂਡਰਾਇਡ 'ਤੇ ਪੀਡੀਐਫ ਨਹੀਂ ਖੋਲ੍ਹ ਸਕਦੇ? 6 ਤਤਕਾਲ ਸੁਧਾਰ (2026)

ਆਪਣੇ ਆਈਫੋਨ ਜਾਂ ਐਂਡਰੌਇਡ 'ਤੇ ਇੱਕ PDF ਫਾਈਲ ਖੋਲ੍ਹਣ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹੋ? ਜਾਣੋ ਕਿ ਤੁਸੀਂ ਖਾਲੀ ਸਕ੍ਰੀਨ ਕਿਉਂ ਦੇਖ ਸਕਦੇ ਹੋ ਅਤੇ ਭਾਰੀ ਐਪਾਂ ਨੂੰ ਸਥਾਪਤ ਕੀਤੇ ਬਿਨਾਂ ਆਪਣੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਕਿਵੇਂ ਦੇਖਣਾ ਹੈ। ✅

5 ਮਿੰਟ ਪੜ੍ਹਨ ਦਾ ਸਮਾਂ