OpenPDFTools

ஸ்கேன் செய்த PDF இல் உரை தேர்வு செய்ய முடியவில்லை - OCR மூலம் எவ்வாறு சரிசெய்வது

Martin Pavlič8 ஏப்ரல், 2026 அன்று புதுப்பிக்கப்பட்டது6 நிமிட வாசிப்பு
பகிர்
ஸ்கேன் செய்த PDF இல் உரை தேர்வு செய்ய முடியவில்லை - OCR மூலம் எவ்வாறு சரிசெய்வது

ஸ்கேன் செய்த PDF இல் உரை ஏன் தேர்வு செய்ய முடியவில்லை?

ஒரு ஆவணம் இயற்பியல் ரீதியாக ஸ்கேன் செய்யப்பட்டு PDF ஆக சேமிக்கப்படும்போது, ஸ்கேனர் பக்கத்தின் flat image ஐ கைப்பற்றுகிறது - ஒரு புகைப்படம் எடுப்பது போல். இதன் விளைவாக உருவாகும் கோப்பில் உண்மையான உரை characters இல்லை, எழுத்துக்களைப் போல் தோற்றமளிக்கும் pixels மட்டுமே உள்ளன. அதனால்தான் ஆவணத்தில் எங்கும் கிளிக் செய்தாலும் எதுவும் தேர்வாவதில்லை: உங்கள் cursor க்கு பிடிக்க text layer இல்லை.

இது மிகவும் பொதுவான PDF சிரமங்களில் ஒன்று. ஆவணம் திரையில் முழுமையாக படிக்கத்தக்கதாக தெரிகிறது, ஆனால் இது அடிப்படையில் PDF wrapper இல் உட்பொதிக்கப்பட்ட ஒரு புகைப்படம். நீங்கள் அதை தேட முடியாது, அதிலிருந்து நகலெடுக்க முடியாது, அல்லது screen reader அதை parse செய்ய அனுமதிக்க முடியாது.

OCR என்றால் என்ன, அது இதை எவ்வாறு சரிசெய்கிறது?

OCR (Optical Character Recognition) என்பது உரையின் படத்தை பகுப்பாய்வு செய்து அதை உண்மையான, machine-readable characters ஆக மாற்றும் தொழில்நுட்பம். மென்பொருள் எழுத்துக்களின் வடிவங்களை பார்த்து, தெரிந்த patterns உடன் ஒப்பிட்டு, PDF இல் திரும்ப உட்பொதிக்கப்படும் text layer ஐ வெளியிடுகிறது.

OCR processing க்கு பிறகு, நீங்கள் ஒரு searchable, selectable PDF பெறுவீர்கள் - காட்சி ரீதியாக மூலத்திற்கு சர்க்கரை சமம், ஆனால் இப்போது உங்கள் cursor வார்த்தைகளை ஹைலைட் செய்யலாம், Ctrl+F வாக்கியங்களை கண்டறியலாம், copy-paste சாதாரணமாக வேலை செய்கிறது. Screen readers மற்றும் accessibility tools இலும் அதை படிக்கலாம்.

ஸ்கேன் செய்த PDF இல் OCR எவ்வாறு பயன்படுத்துவது

ஸ்கேன் செய்த PDF இல் OCR சேர்க்க free browser tools முதல் desktop software வரை பல வழிகள் உள்ளன:

  • Word க்கு மாற்று, பிறகு PDF ஆக சேமி: எங்கள் PDF to Word converter காட்சி உள்ளடக்கத்தை எடுத்து திருத்தக்கூடிய Word ஆவணமாக மாற்றுகிறது. Word இல் வந்தவுடன் உரை முழுமையாக தேர்வு செய்யத்தக்கது. பிறகு proper text layer உடன் PDF ஆக re-export செய்யலாம்.
  • Adobe Acrobat (paid): Industry-standard tool. PDF திறந்து, Tools → Scan & OCR → Recognize Text க்கு சென்று, Acrobat நேரடியாக text layer சேர்க்கிறது. விலை அதிகம், ஆனால் மிகவும் துல்லியம்.
  • Google Drive (free): ஸ்கேன் செய்த PDF ஐ Google Drive இல் upload செய்து, right-click செய்து, "Open with Google Docs" தேர்வு செய்யுங்கள். Google தானாகவே OCR இயக்கி Docs ஆவணத்தில் உரையை திறக்கிறது. தெளிவான scans க்கு ஆச்சரியமாக நன்றாக வேலை செய்கிறது.
  • Tesseract OCR (free, open-source): பல apps பயன்படுத்தும் சக்திவாய்ந்த command-line OCR engine. free self-hosted solution விரும்பும் developers அல்லது technical users க்கு சிறந்தது.
  • Adobe Acrobat online (limited free): Adobe subscription இல்லாத users க்கு online tools மூலம் வரையறுக்கப்பட்ட free OCR processing வழங்குகிறது.

சிறந்த OCR accuracy க்கான குறிப்புகள்

OCR தரம் பெரிதும் அசல் scan தரத்தை சார்ந்துள்ளது. accuracy அதிகப்படுத்த இந்த குறிப்புகளை பின்பற்றுங்கள்:

  • 300 DPI அல்லது அதிகத்தில் ஸ்கேன் செய்யுங்கள்: குறைந்த resolution scans OCR engines தவறாக படிக்கும் மங்கலான characters உருவாக்குகின்றன. 300 DPI குறைந்தபட்சம்; 600 DPI சிறிய உரை அல்லது விரிவான ஆவணங்களுக்கு சிறந்தது.
  • உரை ஆவணங்களுக்கு black-and-white பயன்படுத்துங்கள்: Color scans plain text க்கு OCR accuracy மேம்படுத்தாமல் file size அதிகரிக்கின்றன. பெரும்பாலான ஆவணங்களுக்கு Black-and-white அல்லது grayscale போதும்.
  • பக்கங்களை நேராக வையுங்கள்: Tilted அல்லது skewed பக்கங்கள் OCR software ஐ குழப்புகின்றன. பெரும்பாலான நவீன tools auto-deskew செய்யலாம், ஆனால் தொடக்கத்திலேயே நேராக இருப்பது உதவுகிறது.
  • Coffee stains மற்றும் smudges தவிருங்கள்: ஆவணத்தில் உள்ள இயற்பியல் குறிகள் characters ஆக தவறாக படிக்கப்படுகின்றன. முடிந்தால் மூலத்தை சுத்தம் செய்யுங்கள்.
  • Output சரிபாருங்கள்: OCR 100% துல்லியமல்ல. எப்போதும் முடிவை proofread செய்யுங்கள், குறிப்பாக numbers, punctuation மற்றும் handwritten பகுதிகளுக்கு.

OCR க்கு பிறகு: தேவைப்பட்டால் file size குறைக்கவும்

OCR processing சில நேரங்களில் PDF file size அதிகரிக்கலாம், ஏனெனில் இது ஏற்கனவே உள்ள image layer மேல் hidden text layer சேர்க்கிறது. உங்கள் முடிவான கோப்பு மிகவும் பெரியதாக இருந்தால், காட்சி தரத்தை இழக்காமல் size குறைக்க எங்கள் PDF compressor பயன்படுத்துங்கள்.

OCR உரையை சரியாக அடையாளம் காணவில்லை என்றால் என்ன?

OCR accuracy அசல் scan தரத்தை சார்ந்துள்ளது. இவர்களுக்கு மோசமான முடிவுகள் பொதுவானவை: மிகவும் சிறிய fonts (8pt க்கும் குறைவான), handwritten உரை, decorative அல்லது அசாதாரண fonts, மங்கலான மை, அல்லது 200 DPI க்கும் குறைவான low-quality scans. இந்த சந்தர்ப்பங்களில், manual retyping அவசியமாகலாம் - அல்லது OCR மீண்டும் இயக்குவதற்கு முன் அதிக தரத்தில் மூல ஆவணத்தை மீண்டும் ஸ்கேன் செய்யுங்கள்.

அடிக்கடி கேட்கப்படும் கேள்விகள்

என் PDF இல் உரை ஏன் தேர்வு செய்ய முடியவில்லை?
உங்கள் PDF ஒரு scanned image, embedded text layer கொண்ட ஆவணம் அல்ல. paper ஆவணம் ஸ்கேன் செய்யப்பட்டு PDF ஆக சேமிக்கப்படும்போது, முடிவு அடிப்படையில் பக்கத்தின் ஒரு photograph - எழுத்துக்களாக வடிவமைக்கப்பட்ட pixels, ஆனால் உண்மையான text அல்ல. அதை தேர்வு செய்யக்கூடியதாக மாற்ற, text layer சேர்க்க OCR (Optical Character Recognition) இயக்க வேண்டும்.
ஸ்கேன் செய்த PDF உரையை தேர்வு செய்யக்கூடியதாக மாற்ற இலவச வழி ஏதாவது இருக்கிறதா?
ஆம் - Google Drive இலவச OCR வழங்குகிறது: PDF upload செய்யுங்கள், right-click செய்யுங்கள், Google Docs உடன் திறக்கவும். Google தானாகவே உரையை அடையாளம் காண்கிறது. மாற்றாக, எங்கள் PDF to Word converter உள்ளடக்கத்தை திருத்தக்கூடிய ஆவணத்தில் பிரிக்கிறது. முழுமையாக இலவச desktop solution க்கு, Tesseract OCR open-source மற்றும் மிகவும் சக்திவாய்ந்தது.
OCR PDF இன் தோற்றத்தை மாற்றுகிறதா?
இல்லை - OCR ஏற்கனவே உள்ள image பின்னால் invisible text layer சேர்க்கிறது. PDF இன் காட்சி தோற்றம் சரியாக அதே மாதிரி இருக்கும். நீங்கள் பெறுவது உரையை select, copy மற்றும் search செய்யும் திறன் மட்டுமே. ஒரே விதிவிலக்கு Word க்கு மாற்றி re-export செய்வது, அங்கு சிறிய formatting மாற்றங்கள் ஏற்படலாம்.
ஸ்கேன் செய்த ஆவணங்களில் OCR எவ்வளவு துல்லியமானது?
நவீன OCR 300 DPI அல்லது அதிகத்தில் clean, well-scanned ஆவணங்களில் 95-99% துல்லியமானது. Low-resolution scans, handwriting, unusual fonts, அல்லது இயற்பியல் சேதம் கொண்ட பக்கங்களுக்கு accuracy கணிசமாக குறைகிறது. முக்கியமான ஆவணங்களுக்கு நம்பும் முன் எப்போதும் output proofread செய்யுங்கள்.
OCR மூலம் handwritten PDF உரையை தேர்வு செய்யக்கூடியதாக மாற்ற முடியுமா?
Standard OCR handwriting இல் மோசமாக வேலை செய்கிறது - இது printed, typed உரைக்காக வடிவமைக்கப்பட்டது. Specialized handwriting recognition tools உள்ளன, ஆனால் printed-text OCR ஐ விட மிகவும் குறைவான துல்லியமானவை. ஆவணத்தில் mixed print மற்றும் handwriting இருந்தால், OCR printed பகுதிகளை சரியாக அடையாளம் கண்டுகொள்ளும், ஆனால் handwritten பகுதிகளை தவறாக படிக்கும் வாய்ப்புள்ளது.

தொடர்புடைய கட்டுரைகள்

உட்பொதிக்கப்பட்ட எழுத்துருக்கள் PDF இல் காணவில்லையா? 7 படிகளில் தவறான உரை காட்சியை சரிசெய்யவும்

உங்கள் PDF உரை வேறொரு சாதனத்தில் வித்தியாசமாகத் தோன்றினால், உட்பொதிக்கப்பட்ட எழுத்துருக்களைக் காணவில்லை என்றால் அதற்குக் காரணம். அதை விரைவாகக் கண்டறிந்து சரிசெய்வது எப்படி என்பது இங்கே. ✅

6 நிமிட வாசிப்பு

சுருக்கத்திற்குப் பிறகு PDF மங்கலா? தரத்தை பராமரிக்க 7 வழிகள் (2026)

PDFஐ சுருக்கி, இப்போது உரை அல்லது படங்கள் மங்கலாகத் தெரிகிறதா? தரம் ஏன் குறைகிறது மற்றும் வாசிப்புத்திறனை அழிக்காமல் கோப்பு அளவைக் குறைப்பது எப்படி என்பதைத் துல்லியமாக அறிக. ✅

6 நிமிட வாசிப்பு

iPhone அல்லது Android இல் PDF ஐ திறக்க முடியவில்லையா? 6 உடனடி திருத்தங்கள் (2026)

உங்கள் iPhone அல்லது Android இல் PDF கோப்பைத் திறக்க சிரமப்படுகிறீர்களா? நீங்கள் ஏன் வெற்றுத் திரையைக் காணலாம் மற்றும் கனமான பயன்பாடுகளை நிறுவாமல் உங்கள் ஆவணங்களை எவ்வாறு பார்ப்பது என்பதை அறியவும். ✅

5 நிமிட வாசிப்பு