स्क्यान गरिएको PDF मा टेक्स्ट चयन हुँदैन - OCR बाट यो कसरी ठीक गर्ने

Q: मेरो PDF मा टेक्स्ट किन चयन हुँदैन?

तपाईंको PDF scanned image हो , embedded text layer सहित document होइन। जब paper document स्क्यान गरिन्छ र PDF को रूपमा बचत गरिन्छ, परिणाम अनिवार्य रूपमा पृष्ठको photograph हो - अक्षरहरूको आकारका pixels, तर वास्तविक text होइन। यसलाई चयनयोग्य बनाउन, text layer थप्न OCR (Optical Character Recognition) चलाउनु पर्छ।

Q: के स्क्यान गरिएको PDF टेक्स्टलाई चयनयोग्य बनाउने कुनै free तरिका छ?

हो - Google Drive ले free OCR प्रदान गर्छ : PDF upload गर्नुहोस्, right-click गर्नुहोस्, र Google Docs सँग खोल्नुहोस्। Google ले स्वचालित रूपमा टेक्स्ट पहिचान गर्छ। वैकल्पिक रूपमा, हाम्रो PDF to Word converter ले content लाई editable document मा निकाल्छ। पूर्ण रूपमा free desktop solution को लागि, Tesseract OCR open-source र अत्यन्त शक्तिशाली छ।

Q: स्क्यान गरिएका कागजातहरूमा OCR कति सटीक छ?

आधुनिक OCR 300 DPI वा माथि clean, well-scanned कागजातहरूमा 95-99% सटीक छ। Low-resolution scans, handwriting, unusual fonts, वा भौतिक क्षति भएका पृष्ठहरूको लागि accuracy उल्लेखनीय रूपमा घट्छ। महत्त्वपूर्ण कागजातहरूको लागि भरोसा गर्नु अघि सधैं output proofread गर्नुहोस्।

Q: के मैले OCR बाट handwritten PDF टेक्स्ट चयनयोग्य बनाउन सक्छु?

Standard OCR ले handwriting मा खराब काम गर्छ - यो printed, typed text को लागि डिजाइन गरिएको छ। Specialized handwriting recognition tools छन् तर printed-text OCR भन्दा धेरै कम सटीक छन्। document मा mixed print र handwriting छ भने, OCR ले printed भागहरू सही पहिचान गर्नेछ तर handwritten भागहरू गलत पढ्ने सम्भावना छ।

Martin Pavličअपडेट गरियो २०२६ अप्रिल ८6 मिनेट पढ्नुहोस्

साझा गर्नुहोस्

स्क्यान गरिएको PDF मा टेक्स्ट चयन हुँदैन - OCR बाट यो कसरी ठीक गर्ने

स्क्यान गरिएको PDF मा टेक्स्ट किन चयन गर्न सकिन्न?

जब कुनै कागजात भौतिक रूपमा स्क्यान गरिन्छ र PDF को रूपमा बचत गरिन्छ, स्क्यानरले पृष्ठको flat image कैप्चर गर्छ - ठ्याक्कै फोटो खिचे जस्तै। परिणामस्वरूप फाइलमा कुनै वास्तविक टेक्स्ट characters हुँदैनन्, केवल pixels हुन्छन् जुन अक्षरहरू जस्तो देखिन्छन्। त्यसैले कागजातमा कहीं पनि क्लिक गर्दा केही चयन हुँदैन: तपाईंको cursor को लागि कुनै text layer छैन।

यो सबैभन्दा सामान्य PDF समस्याहरू मध्ये एक हो। कागजात स्क्रिनमा राम्रोसँग पढ्न सकिने देखिन्छ, तर यो अनिवार्य रूपमा PDF wrapper मा embedded photograph हो। तपाईं यसलाई खोज्न, यसबाट copy गर्न, वा screen reader लाई यो parse गर्न दिन सक्नुहुन्न।

OCR के हो र यसले कसरी ठीक गर्छ?

OCR (Optical Character Recognition) एक प्रविधि हो जसले टेक्स्टको image विश्लेषण गर्छ र यसलाई वास्तविक, machine-readable characters मा रूपान्तरण गर्छ। सफ्टवेयरले अक्षरहरूको आकार हेर्छ, ज्ञात patterns सँग तुलना गर्छ, र text layer output गर्छ जुन PDF मा फिर्ता embed हुन्छ।

OCR processing पछि, तपाईंले searchable, selectable PDF पाउनुहुन्छ - दृश्य रूपमा मूलसँग एकदम समान, तर अब तपाईंको cursor शब्दहरू हाइलाइट गर्न सक्छ, Ctrl+F ले phrases खोज्न सक्छ, र copy-paste सामान्य रूपमा काम गर्छ। Screen readers र accessibility tools ले पनि यो पढ्न सक्छन्।

स्क्यान गरिएको PDF मा OCR कसरी लागू गर्ने

स्क्यान गरिएको PDF मा OCR थप्ने धेरै तरिकाहरू छन्, free browser tools देखि desktop software सम्म:

Word मा रूपान्तरण गर्नुहोस्, त्यसपछि PDF को रूपमा बचत गर्नुहोस्: हाम्रो PDF to Word converter ले visual content निकाल्छ र editable Word document मा रूपान्तरण गर्छ। Word मा आएपछि टेक्स्ट पूर्ण रूपमा चयनयोग्य हुन्छ। त्यसपछि तपाईं proper text layer सहित PDF मा re-export गर्न सक्नुहुन्छ।
Adobe Acrobat (paid): Industry-standard tool. PDF खोल्नुहोस्, Tools → Scan & OCR → Recognize Text मा जानुहोस्, र Acrobat ले सीधै text layer थप्छ। महँगो तर अत्यन्त सटीक।
Google Drive (free): तपाईंको स्क्यान गरिएको PDF Google Drive मा upload गर्नुहोस्, right-click गर्नुहोस्, र "Open with Google Docs" रोज्नुहोस्। Google ले स्वचालित रूपमा OCR चलाउँछ र Docs document मा टेक्स्ट खोल्छ। सफा scans को लागि अचम्मजनक रूपमा राम्रो काम गर्छ।
Tesseract OCR (free, open-source): धेरै apps ले प्रयोग गर्ने शक्तिशाली command-line OCR engine. Developers वा technical users को लागि उत्तम जो free self-hosted solution चाहन्छन्।
Adobe Acrobat online (limited free): Adobe ले subscription नभएका users को लागि आफ्ना online tools मार्फत सीमित free OCR processing प्रदान गर्छ।

राम्रो OCR accuracy को लागि सुझावहरू

OCR को गुणस्तर मूल स्क्यानको गुणस्तरमा धेरै निर्भर गर्छ। accuracy अधिकतम गर्न यी सुझावहरू पालना गर्नुहोस्:

300 DPI वा माथि स्क्यान गर्नुहोस्: कम resolution को scans धमिला characters उत्पन्न गर्छन् जुन OCR engines गलत पढ्छन्। 300 DPI न्यूनतम हो; 600 DPI साना टेक्स्ट वा विस्तृत कागजातहरूको लागि आदर्श हो।
टेक्स्ट कागजातहरूको लागि black-and-white प्रयोग गर्नुहोस्: Color scans ले plain text को लागि OCR accuracy नसुधारिकन file size बढाउँछ। अधिकांश कागजातहरूको लागि Black-and-white वा grayscale पर्याप्त छ।
पृष्ठहरू सिधा राख्नुहोस्: Tilted वा skewed पृष्ठहरूले OCR software लाई भ्रमित गर्छन्। अधिकांश आधुनिक tools ले auto-deskew गर्न सक्छन्, तर शुरुदेखि नै सिधा राख्नाले मद्दत गर्छ।
Coffee stains र smudges बाट बच्नुहोस्: कागजातमा भौतिक चिह्नहरू characters को रूपमा गलत पढिन्छन्। सम्भव भएमा original सफा गर्नुहोस्।
Output जाँच गर्नुहोस्: OCR 100% सटीक हुँदैन। सधैं परिणाम proofread गर्नुहोस्, विशेष गरी numbers, punctuation र handwritten भागहरूको लागि।

OCR पछि: आवश्यक भएमा file size घटाउनुहोस्

OCR processing ले कहिलेकाहीं PDF file size बढाउन सक्छ किनकि यसले existing image layer माथि hidden text layer थप्छ। तपाईंको परिणाम फाइल धेरै ठूलो भएमा, visual quality नगुमाइकन size घटाउन हाम्रो PDF compressor प्रयोग गर्नुहोस्।

OCR ले टेक्स्ट सही रूपमा नचिने भने के गर्ने?

OCR accuracy मूल स्क्यानको गुणस्तरमा निर्भर गर्छ। यी अवस्थाहरूमा खराब परिणामहरू सामान्य छन्: धेरै साना fonts (8pt भन्दा तल), handwritten text, decorative वा असामान्य fonts, फिका ink, वा 200 DPI भन्दा कम low-quality scans. यी अवस्थाहरूमा, manual retyping आवश्यक हुन सक्छ - वा OCR फेरि चलाउनु अघि उच्च गुणस्तरमा original कागजात पुनः स्क्यान गर्नुहोस्।

प्राय: सोधिने प्रश्नहरू

मेरो PDF मा टेक्स्ट किन चयन हुँदैन?▾

तपाईंको PDF scanned image हो, embedded text layer सहित document होइन। जब paper document स्क्यान गरिन्छ र PDF को रूपमा बचत गरिन्छ, परिणाम अनिवार्य रूपमा पृष्ठको photograph हो - अक्षरहरूको आकारका pixels, तर वास्तविक text होइन। यसलाई चयनयोग्य बनाउन, text layer थप्न OCR (Optical Character Recognition) चलाउनु पर्छ।

के स्क्यान गरिएको PDF टेक्स्टलाई चयनयोग्य बनाउने कुनै free तरिका छ?▾

हो - Google Drive ले free OCR प्रदान गर्छ: PDF upload गर्नुहोस्, right-click गर्नुहोस्, र Google Docs सँग खोल्नुहोस्। Google ले स्वचालित रूपमा टेक्स्ट पहिचान गर्छ। वैकल्पिक रूपमा, हाम्रो PDF to Word converter ले content लाई editable document मा निकाल्छ। पूर्ण रूपमा free desktop solution को लागि, Tesseract OCR open-source र अत्यन्त शक्तिशाली छ।

के OCR ले PDF को देखिने तरिका बदल्छ?▾

होइन - OCR ले existing image पछाडि invisible text layer थप्छ। PDF को दृश्य स्वरूप बिल्कुल उस्तै रहन्छ। केवल text select, copy र search गर्ने क्षमता प्राप्त हुन्छ। एकमात्र अपवाद Word मा रूपान्तरण गरेर re-export गर्नु हो, जहाँ minor formatting परिवर्तनहरू हुन सक्छन्।

स्क्यान गरिएका कागजातहरूमा OCR कति सटीक छ?▾

आधुनिक OCR 300 DPI वा माथि clean, well-scanned कागजातहरूमा 95-99% सटीक छ। Low-resolution scans, handwriting, unusual fonts, वा भौतिक क्षति भएका पृष्ठहरूको लागि accuracy उल्लेखनीय रूपमा घट्छ। महत्त्वपूर्ण कागजातहरूको लागि भरोसा गर्नु अघि सधैं output proofread गर्नुहोस्।

के मैले OCR बाट handwritten PDF टेक्स्ट चयनयोग्य बनाउन सक्छु?▾

Standard OCR ले handwriting मा खराब काम गर्छ - यो printed, typed text को लागि डिजाइन गरिएको छ। Specialized handwriting recognition tools छन् तर printed-text OCR भन्दा धेरै कम सटीक छन्। document मा mixed print र handwriting छ भने, OCR ले printed भागहरू सही पहिचान गर्नेछ तर handwritten भागहरू गलत पढ्ने सम्भावना छ।

स्क्यान गरिएको PDF मा टेक्स्ट चयन हुँदैन - OCR बाट यो कसरी ठीक गर्ने

स्क्यान गरिएको PDF मा टेक्स्ट किन चयन गर्न सकिन्न?

OCR के हो र यसले कसरी ठीक गर्छ?

स्क्यान गरिएको PDF मा OCR कसरी लागू गर्ने

राम्रो OCR accuracy को लागि सुझावहरू

OCR पछि: आवश्यक भएमा file size घटाउनुहोस्

OCR ले टेक्स्ट सही रूपमा नचिने भने के गर्ने?

प्राय: सोधिने प्रश्नहरू

सम्बन्धित लेख

इम्बेडेड फन्टहरू PDF मा हराइरहेको छ? 7 चरणहरूमा गलत पाठ प्रदर्शन ठीक गर्नुहोस्

पीडीएफ कम्प्रेसन पछि धमिलो हुन्छ? गुणस्तर कायम राख्ने ७ तरिका (२०२६)

iPhone वा Android मा PDF खोल्न सक्नुहुन्न? ६ तत्काल समाधान (२०२६)