ஸ்கேன் செய்த PDF இல் உரை தேர்வு செய்ய முடியவில்லை - OCR மூலம் எவ்வாறு சரிசெய்வது

ஸ்கேன் செய்த PDF இல் உரை ஏன் தேர்வு செய்ய முடியவில்லை?
ஒரு ஆவணம் இயற்பியல் ரீதியாக ஸ்கேன் செய்யப்பட்டு PDF ஆக சேமிக்கப்படும்போது, ஸ்கேனர் பக்கத்தின் flat image ஐ கைப்பற்றுகிறது - ஒரு புகைப்படம் எடுப்பது போல். இதன் விளைவாக உருவாகும் கோப்பில் உண்மையான உரை characters இல்லை, எழுத்துக்களைப் போல் தோற்றமளிக்கும் pixels மட்டுமே உள்ளன. அதனால்தான் ஆவணத்தில் எங்கும் கிளிக் செய்தாலும் எதுவும் தேர்வாவதில்லை: உங்கள் cursor க்கு பிடிக்க text layer இல்லை.
இது மிகவும் பொதுவான PDF சிரமங்களில் ஒன்று. ஆவணம் திரையில் முழுமையாக படிக்கத்தக்கதாக தெரிகிறது, ஆனால் இது அடிப்படையில் PDF wrapper இல் உட்பொதிக்கப்பட்ட ஒரு புகைப்படம். நீங்கள் அதை தேட முடியாது, அதிலிருந்து நகலெடுக்க முடியாது, அல்லது screen reader அதை parse செய்ய அனுமதிக்க முடியாது.
OCR என்றால் என்ன, அது இதை எவ்வாறு சரிசெய்கிறது?
OCR (Optical Character Recognition) என்பது உரையின் படத்தை பகுப்பாய்வு செய்து அதை உண்மையான, machine-readable characters ஆக மாற்றும் தொழில்நுட்பம். மென்பொருள் எழுத்துக்களின் வடிவங்களை பார்த்து, தெரிந்த patterns உடன் ஒப்பிட்டு, PDF இல் திரும்ப உட்பொதிக்கப்படும் text layer ஐ வெளியிடுகிறது.
OCR processing க்கு பிறகு, நீங்கள் ஒரு searchable, selectable PDF பெறுவீர்கள் - காட்சி ரீதியாக மூலத்திற்கு சர்க்கரை சமம், ஆனால் இப்போது உங்கள் cursor வார்த்தைகளை ஹைலைட் செய்யலாம், Ctrl+F வாக்கியங்களை கண்டறியலாம், copy-paste சாதாரணமாக வேலை செய்கிறது. Screen readers மற்றும் accessibility tools இலும் அதை படிக்கலாம்.
ஸ்கேன் செய்த PDF இல் OCR எவ்வாறு பயன்படுத்துவது
ஸ்கேன் செய்த PDF இல் OCR சேர்க்க free browser tools முதல் desktop software வரை பல வழிகள் உள்ளன:
- Word க்கு மாற்று, பிறகு PDF ஆக சேமி: எங்கள் PDF to Word converter காட்சி உள்ளடக்கத்தை எடுத்து திருத்தக்கூடிய Word ஆவணமாக மாற்றுகிறது. Word இல் வந்தவுடன் உரை முழுமையாக தேர்வு செய்யத்தக்கது. பிறகு proper text layer உடன் PDF ஆக re-export செய்யலாம்.
- Adobe Acrobat (paid): Industry-standard tool. PDF திறந்து, Tools → Scan & OCR → Recognize Text க்கு சென்று, Acrobat நேரடியாக text layer சேர்க்கிறது. விலை அதிகம், ஆனால் மிகவும் துல்லியம்.
- Google Drive (free): ஸ்கேன் செய்த PDF ஐ Google Drive இல் upload செய்து, right-click செய்து, "Open with Google Docs" தேர்வு செய்யுங்கள். Google தானாகவே OCR இயக்கி Docs ஆவணத்தில் உரையை திறக்கிறது. தெளிவான scans க்கு ஆச்சரியமாக நன்றாக வேலை செய்கிறது.
- Tesseract OCR (free, open-source): பல apps பயன்படுத்தும் சக்திவாய்ந்த command-line OCR engine. free self-hosted solution விரும்பும் developers அல்லது technical users க்கு சிறந்தது.
- Adobe Acrobat online (limited free): Adobe subscription இல்லாத users க்கு online tools மூலம் வரையறுக்கப்பட்ட free OCR processing வழங்குகிறது.
சிறந்த OCR accuracy க்கான குறிப்புகள்
OCR தரம் பெரிதும் அசல் scan தரத்தை சார்ந்துள்ளது. accuracy அதிகப்படுத்த இந்த குறிப்புகளை பின்பற்றுங்கள்:
- 300 DPI அல்லது அதிகத்தில் ஸ்கேன் செய்யுங்கள்: குறைந்த resolution scans OCR engines தவறாக படிக்கும் மங்கலான characters உருவாக்குகின்றன. 300 DPI குறைந்தபட்சம்; 600 DPI சிறிய உரை அல்லது விரிவான ஆவணங்களுக்கு சிறந்தது.
- உரை ஆவணங்களுக்கு black-and-white பயன்படுத்துங்கள்: Color scans plain text க்கு OCR accuracy மேம்படுத்தாமல் file size அதிகரிக்கின்றன. பெரும்பாலான ஆவணங்களுக்கு Black-and-white அல்லது grayscale போதும்.
- பக்கங்களை நேராக வையுங்கள்: Tilted அல்லது skewed பக்கங்கள் OCR software ஐ குழப்புகின்றன. பெரும்பாலான நவீன tools auto-deskew செய்யலாம், ஆனால் தொடக்கத்திலேயே நேராக இருப்பது உதவுகிறது.
- Coffee stains மற்றும் smudges தவிருங்கள்: ஆவணத்தில் உள்ள இயற்பியல் குறிகள் characters ஆக தவறாக படிக்கப்படுகின்றன. முடிந்தால் மூலத்தை சுத்தம் செய்யுங்கள்.
- Output சரிபாருங்கள்: OCR 100% துல்லியமல்ல. எப்போதும் முடிவை proofread செய்யுங்கள், குறிப்பாக numbers, punctuation மற்றும் handwritten பகுதிகளுக்கு.
OCR க்கு பிறகு: தேவைப்பட்டால் file size குறைக்கவும்
OCR processing சில நேரங்களில் PDF file size அதிகரிக்கலாம், ஏனெனில் இது ஏற்கனவே உள்ள image layer மேல் hidden text layer சேர்க்கிறது. உங்கள் முடிவான கோப்பு மிகவும் பெரியதாக இருந்தால், காட்சி தரத்தை இழக்காமல் size குறைக்க எங்கள் PDF compressor பயன்படுத்துங்கள்.
OCR உரையை சரியாக அடையாளம் காணவில்லை என்றால் என்ன?
OCR accuracy அசல் scan தரத்தை சார்ந்துள்ளது. இவர்களுக்கு மோசமான முடிவுகள் பொதுவானவை: மிகவும் சிறிய fonts (8pt க்கும் குறைவான), handwritten உரை, decorative அல்லது அசாதாரண fonts, மங்கலான மை, அல்லது 200 DPI க்கும் குறைவான low-quality scans. இந்த சந்தர்ப்பங்களில், manual retyping அவசியமாகலாம் - அல்லது OCR மீண்டும் இயக்குவதற்கு முன் அதிக தரத்தில் மூல ஆவணத்தை மீண்டும் ஸ்கேன் செய்யுங்கள்.
அடிக்கடி கேட்கப்படும் கேள்விகள்
என் PDF இல் உரை ஏன் தேர்வு செய்ய முடியவில்லை?▾
ஸ்கேன் செய்த PDF உரையை தேர்வு செய்யக்கூடியதாக மாற்ற இலவச வழி ஏதாவது இருக்கிறதா?▾
OCR PDF இன் தோற்றத்தை மாற்றுகிறதா?▾
ஸ்கேன் செய்த ஆவணங்களில் OCR எவ்வளவு துல்லியமானது?▾
OCR மூலம் handwritten PDF உரையை தேர்வு செய்யக்கூடியதாக மாற்ற முடியுமா?▾
தொடர்புடைய கட்டுரைகள்
உட்பொதிக்கப்பட்ட எழுத்துருக்கள் PDF இல் காணவில்லையா? 7 படிகளில் தவறான உரை காட்சியை சரிசெய்யவும்
உங்கள் PDF உரை வேறொரு சாதனத்தில் வித்தியாசமாகத் தோன்றினால், உட்பொதிக்கப்பட்ட எழுத்துருக்களைக் காணவில்லை என்றால் அதற்குக் காரணம். அதை விரைவாகக் கண்டறிந்து சரிசெய்வது எப்படி என்பது இங்கே. ✅
6 நிமிட வாசிப்புசுருக்கத்திற்குப் பிறகு PDF மங்கலா? தரத்தை பராமரிக்க 7 வழிகள் (2026)
PDFஐ சுருக்கி, இப்போது உரை அல்லது படங்கள் மங்கலாகத் தெரிகிறதா? தரம் ஏன் குறைகிறது மற்றும் வாசிப்புத்திறனை அழிக்காமல் கோப்பு அளவைக் குறைப்பது எப்படி என்பதைத் துல்லியமாக அறிக. ✅
6 நிமிட வாசிப்புiPhone அல்லது Android இல் PDF ஐ திறக்க முடியவில்லையா? 6 உடனடி திருத்தங்கள் (2026)
உங்கள் iPhone அல்லது Android இல் PDF கோப்பைத் திறக்க சிரமப்படுகிறீர்களா? நீங்கள் ஏன் வெற்றுத் திரையைக் காணலாம் மற்றும் கனமான பயன்பாடுகளை நிறுவாமல் உங்கள் ஆவணங்களை எவ்வாறு பார்ப்பது என்பதை அறியவும். ✅
5 நிமிட வாசிப்பு