स्कैन किए गए PDF में टेक्स्ट सेलेक्ट नहीं होता - OCR से इसे कैसे ठीक करें

Q: मेरे PDF में टेक्स्ट सेलेक्ट क्यों नहीं हो रहा?

आपका PDF एक scanned image है , embedded text layer वाला document नहीं। जब कोई paper document स्कैन किया जाता है और PDF के रूप में सहेजा जाता है, तो परिणाम अनिवार्य रूप से पेज की एक photograph होती है - pixels जो अक्षरों जैसे आकार के होते हैं, लेकिन वास्तविक text नहीं। इसे सेलेक्ट करने योग्य बनाने के लिए, आपको text layer जोड़ने के लिए OCR (Optical Character Recognition) चलाना होगा।

Q: क्या स्कैन किए गए PDF टेक्स्ट को सेलेक्ट करने योग्य बनाने का कोई free तरीका है?

हां - Google Drive free OCR प्रदान करता है : PDF अपलोड करें, right-click करें, और Google Docs के साथ खोलें। Google स्वचालित रूप से टेक्स्ट पहचानता है। वैकल्पिक रूप से, हमारा PDF to Word converter content को एक editable document में निकालता है। पूरी तरह free desktop solution के लिए, Tesseract OCR open-source है और बेहद शक्तिशाली है।

Q: स्कैन किए गए दस्तावेज़ों पर OCR कितना सटीक है?

Modern OCR 300 DPI या उससे अधिक पर clean, well-scanned documents पर 95-99% सटीक है। Low-resolution scans, handwriting, unusual fonts, या physical damage वाले pages के लिए accuracy काफी कम हो जाती है। महत्वपूर्ण दस्तावेज़ों के लिए इस पर निर्भर रहने से पहले output को हमेशा proofread करें।

Q: क्या मैं OCR से handwritten PDF टेक्स्ट को सेलेक्ट करने योग्य बना सकता हूं?

Standard OCR handwriting पर खराब काम करता है - यह printed, typed text के लिए designed है। Specialized handwriting recognition tools मौजूद हैं लेकिन printed-text OCR से कहीं कम सटीक हैं। यदि दस्तावेज़ में mixed print और handwriting है, तो OCR printed parts को सही पहचानेगा लेकिन handwritten sections को गलत पढ़ने की संभावना है।

Martin Pavličअपडेट किया गया 8 अप्रैल 20266 मिनट पढ़ें

शेयर करें

स्कैन किए गए PDF में टेक्स्ट सेलेक्ट नहीं होता - OCR से इसे कैसे ठीक करें

स्कैन किए गए PDF में टेक्स्ट सेलेक्ट क्यों नहीं होता?

जब कोई दस्तावेज़ भौतिक रूप से स्कैन किया जाता है और PDF के रूप में सहेजा जाता है, तो स्कैनर पेज की एक flat image कैप्चर करता है - जैसे कोई फोटो खींचता है। परिणामी फ़ाइल में कोई वास्तविक टेक्स्ट characters नहीं होते, केवल pixels होते हैं जो अक्षरों जैसे दिखते हैं। इसीलिए दस्तावेज़ में कहीं भी क्लिक करने पर कुछ सेलेक्ट नहीं होता: आपके cursor के लिए कोई text layer नहीं है।

यह सबसे आम PDF समस्याओं में से एक है। दस्तावेज़ स्क्रीन पर बिल्कुल पठनीय दिखता है, लेकिन यह अनिवार्य रूप से एक PDF wrapper में embedded photograph है। आप इसे खोज नहीं सकते, इससे copy नहीं कर सकते, या screen reader को इसे parse करने नहीं दे सकते।

OCR क्या है और यह इसे कैसे ठीक करता है?

OCR (Optical Character Recognition) एक ऐसी तकनीक है जो टेक्स्ट की image का विश्लेषण करती है और उसे वास्तविक, machine-readable characters में बदलती है। सॉफ़्टवेयर अक्षरों के आकार देखता है, उन्हें ज्ञात patterns से तुलना करता है, और एक text layer output करता है जो PDF में वापस embed हो जाती है।

OCR processing के बाद, आपको एक searchable, selectable PDF मिलती है - दृश्य रूप से मूल के समान, लेकिन अब आपका cursor शब्दों को हाइलाइट कर सकता है, Ctrl+F phrases खोज सकता है, और copy-paste सामान्य रूप से काम करता है। Screen readers और accessibility tools भी इसे पढ़ सकते हैं।

स्कैन किए गए PDF पर OCR कैसे लागू करें

स्कैन किए गए PDF में OCR जोड़ने के कई तरीके हैं, free browser tools से लेकर desktop software तक:

Word में कनवर्ट करें, फिर PDF के रूप में सहेजें: हमारा PDF to Word converter visual content निकालकर उसे एक editable Word document में बदलता है। Word में आने के बाद टेक्स्ट पूरी तरह सेलेक्ट हो जाता है। फिर आप proper text layer के साथ PDF में re-export कर सकते हैं।
Adobe Acrobat (paid): Industry-standard tool। PDF खोलें, Tools → Scan & OCR → Recognize Text पर जाएं, और Acrobat सीधे text layer जोड़ता है। महंगा लेकिन बेहद सटीक।
Google Drive (free): अपना स्कैन किया हुआ PDF Google Drive पर अपलोड करें, उस पर right-click करें, और "Open with Google Docs" चुनें। Google स्वचालित रूप से OCR चलाता है और Docs document में टेक्स्ट खोलता है। साफ़ scans के लिए काफी अच्छा काम करता है।
Tesseract OCR (free, open-source): एक शक्तिशाली command-line OCR engine जो कई apps द्वारा उपयोग किया जाता है। Developers या technical users के लिए जो free self-hosted solution चाहते हैं।
Adobe Acrobat online (limited free): Adobe बिना subscription वाले users के लिए अपने online tools के माध्यम से सीमित free OCR processing प्रदान करता है।

बेहतर OCR accuracy के लिए टिप्स

OCR की गुणवत्ता काफी हद तक मूल scan की गुणवत्ता पर निर्भर करती है। accuracy अधिकतम करने के लिए इन टिप्स का पालन करें:

300 DPI या उससे अधिक पर स्कैन करें: कम resolution के scans धुंधले characters उत्पन्न करते हैं जिन्हें OCR engines गलत पढ़ते हैं। 300 DPI न्यूनतम है; 600 DPI छोटे टेक्स्ट या विस्तृत दस्तावेज़ों के लिए आदर्श है।
टेक्स्ट दस्तावेज़ों के लिए black-and-white उपयोग करें: Color scans plain text के लिए OCR accuracy में सुधार किए बिना file size बढ़ाते हैं। अधिकांश दस्तावेज़ों के लिए Black-and-white या grayscale पर्याप्त है।
पेज सीधे रखें: Tilted या skewed pages OCR software को confuse करते हैं। अधिकांश modern tools auto-deskew कर सकते हैं, लेकिन शुरू से सीधा रखना बेहतर है।
Coffee stains और smudges से बचें: दस्तावेज़ पर भौतिक निशान characters के रूप में गलत पढ़े जाते हैं। संभव हो तो original को साफ़ करें।
Output जांचें: OCR 100% सटीक नहीं है। परिणाम को हमेशा proofread करें, विशेष रूप से numbers, punctuation और handwritten sections के लिए।

OCR के बाद: यदि आवश्यक हो तो file size कम करें

OCR processing कभी-कभी PDF file size बढ़ा सकती है क्योंकि यह existing image layer के ऊपर एक hidden text layer जोड़ती है। यदि आपकी परिणामी फ़ाइल बहुत बड़ी है, तो visual quality खोए बिना size कम करने के लिए हमारे PDF compressor का उपयोग करें।

क्या हो अगर OCR टेक्स्ट को सही से नहीं पहचानता?

OCR accuracy मूल scan की गुणवत्ता पर निर्भर करती है। इन परिस्थितियों में खराब परिणाम सामान्य हैं: बहुत छोटे fonts (8pt से नीचे), handwritten text, decorative या असामान्य fonts, फीकी ink, या 200 DPI से कम के low-quality scans। इन मामलों में, manual retyping आवश्यक हो सकती है - या फिर OCR दोबारा चलाने से पहले original document को उच्च गुणवत्ता पर दोबारा स्कैन करना।

अक्सर पूछे जाने वाले प्रश्न

मेरे PDF में टेक्स्ट सेलेक्ट क्यों नहीं हो रहा?▾

आपका PDF एक scanned image है, embedded text layer वाला document नहीं। जब कोई paper document स्कैन किया जाता है और PDF के रूप में सहेजा जाता है, तो परिणाम अनिवार्य रूप से पेज की एक photograph होती है - pixels जो अक्षरों जैसे आकार के होते हैं, लेकिन वास्तविक text नहीं। इसे सेलेक्ट करने योग्य बनाने के लिए, आपको text layer जोड़ने के लिए OCR (Optical Character Recognition) चलाना होगा।

क्या स्कैन किए गए PDF टेक्स्ट को सेलेक्ट करने योग्य बनाने का कोई free तरीका है?▾

हां - Google Drive free OCR प्रदान करता है: PDF अपलोड करें, right-click करें, और Google Docs के साथ खोलें। Google स्वचालित रूप से टेक्स्ट पहचानता है। वैकल्पिक रूप से, हमारा PDF to Word converter content को एक editable document में निकालता है। पूरी तरह free desktop solution के लिए, Tesseract OCR open-source है और बेहद शक्तिशाली है।

क्या OCR PDF का दिखावट बदल देता है?▾

नहीं - OCR existing image के पीछे एक invisible text layer जोड़ता है। PDF का दृश्य रूप बिल्कुल वैसा ही रहता है। आपको बस text को select, copy और search करने की क्षमता मिलती है। एकमात्र अपवाद यह है कि अगर आप Word में convert करके re-export करते हैं, जहां minor formatting changes हो सकती हैं।

स्कैन किए गए दस्तावेज़ों पर OCR कितना सटीक है?▾

Modern OCR 300 DPI या उससे अधिक पर clean, well-scanned documents पर 95-99% सटीक है। Low-resolution scans, handwriting, unusual fonts, या physical damage वाले pages के लिए accuracy काफी कम हो जाती है। महत्वपूर्ण दस्तावेज़ों के लिए इस पर निर्भर रहने से पहले output को हमेशा proofread करें।

क्या मैं OCR से handwritten PDF टेक्स्ट को सेलेक्ट करने योग्य बना सकता हूं?▾

Standard OCR handwriting पर खराब काम करता है - यह printed, typed text के लिए designed है। Specialized handwriting recognition tools मौजूद हैं लेकिन printed-text OCR से कहीं कम सटीक हैं। यदि दस्तावेज़ में mixed print और handwriting है, तो OCR printed parts को सही पहचानेगा लेकिन handwritten sections को गलत पढ़ने की संभावना है।

स्कैन किए गए PDF में टेक्स्ट सेलेक्ट नहीं होता - OCR से इसे कैसे ठीक करें

स्कैन किए गए PDF में टेक्स्ट सेलेक्ट क्यों नहीं होता?

OCR क्या है और यह इसे कैसे ठीक करता है?

स्कैन किए गए PDF पर OCR कैसे लागू करें

बेहतर OCR accuracy के लिए टिप्स

OCR के बाद: यदि आवश्यक हो तो file size कम करें

क्या हो अगर OCR टेक्स्ट को सही से नहीं पहचानता?

अक्सर पूछे जाने वाले प्रश्न

संबंधित लेख

पीडीएफ में एंबेडेड फॉन्ट गायब हैं? गलत टेक्स्ट डिस्प्ले को 7 चरणों में ठीक करें

संपीड़न के बाद पीडीएफ धुंधली हो जाती है? गुणवत्ता बनाए रखने के 7 तरीके (2026)

iPhone या Android पर PDF नहीं खुल सकता? 6 त्वरित सुधार (2026)