OpenPDFTools

स्कॅन केलेल्या PDF मध्ये टेक्स्ट निवडता येत नाही - OCR ने हे कसे दुरुस्त करावे

Martin PavličAktualizované ८ एप्रिल, २०२६6 min čítania
Zdieľať
स्कॅन केलेल्या PDF मध्ये टेक्स्ट निवडता येत नाही - OCR ने हे कसे दुरुस्त करावे

स्कॅन केलेल्या PDF मध्ये टेक्स्ट का निवडता येत नाही?

जेव्हा एखादे दस्तऐवज शारीरिकरित्या स्कॅन केले जाते आणि PDF म्हणून जतन केले जाते, तेव्हा स्कॅनर पृष्ठाची एक flat image कॅप्चर करतो - जसे फोटो काढणे. परिणामी फाइलमध्ये कोणतेही वास्तविक टेक्स्ट characters नसतात, केवळ pixels असतात जे अक्षरांसारखे दिसतात. म्हणूनच दस्तऐवजाच्या कुठेही क्लिक केल्यावर काहीही निवडले जात नाही: आपल्या cursor साठी कोणताही text layer नाही.

हे सर्वात सामान्य PDF समस्यांपैकी एक आहे. दस्तऐवज स्क्रीनवर अगदी वाचनीय दिसतो, परंतु तो मूलतः PDF wrapper मध्ये embedded photograph आहे. आपण त्याला शोधू शकत नाही, त्यातून copy करू शकत नाही, किंवा screen reader ला ते parse करू देऊ शकत नाही.

OCR म्हणजे काय आणि ते हे कसे दुरुस्त करते?

OCR (Optical Character Recognition) ही एक तंत्रज्ञान आहे जी टेक्स्टच्या image चे विश्लेषण करते आणि ती वास्तविक, machine-readable characters मध्ये रूपांतरित करते. सॉफ्टवेअर अक्षरांचे आकार पाहतो, त्यांची ज्ञात patterns शी तुलना करतो, आणि एक text layer output करतो जो PDF मध्ये परत embed होतो.

OCR processing नंतर, आपल्याला एक searchable, selectable PDF मिळतो - दृश्यात्मकदृष्ट्या मूळाशी समान, परंतु आता आपला cursor शब्द हायलाइट करू शकतो, Ctrl+F phrases शोधू शकतो, आणि copy-paste सामान्यपणे काम करतो. Screen readers आणि accessibility tools देखील ते वाचू शकतात.

स्कॅन केलेल्या PDF वर OCR कसे लागू करावे

स्कॅन केलेल्या PDF मध्ये OCR जोडण्याचे अनेक मार्ग आहेत, free browser tools पासून desktop software पर्यंत:

  • Word मध्ये रूपांतरित करा, नंतर PDF म्हणून जतन करा: आमचा PDF to Word converter visual content काढतो आणि editable Word document मध्ये रूपांतरित करतो. Word मध्ये आल्यानंतर टेक्स्ट पूर्णपणे निवडण्यायोग्य होतो. नंतर आपण proper text layer सह PDF मध्ये re-export करू शकता.
  • Adobe Acrobat (paid): Industry-standard tool. PDF उघडा, Tools → Scan & OCR → Recognize Text वर जा, आणि Acrobat थेट text layer जोडतो. महाग परंतु अत्यंत अचूक.
  • Google Drive (free): आपला स्कॅन केलेला PDF Google Drive वर अपलोड करा, right-click करा, आणि "Open with Google Docs" निवडा. Google आपोआप OCR चालवतो आणि Docs document मध्ये टेक्स्ट उघडतो. स्वच्छ scans साठी आश्चर्यकारकरित्या चांगले काम करते.
  • Tesseract OCR (free, open-source): अनेक apps द्वारे वापरलेले एक शक्तिशाली command-line OCR engine. Developers किंवा technical users साठी सर्वोत्तम जे free self-hosted solution हवे आहे.
  • Adobe Acrobat online (limited free): Adobe सदस्यता नसलेल्या users साठी त्यांच्या online tools द्वारे मर्यादित free OCR processing देते.

चांगल्या OCR accuracy साठी टिप्स

OCR ची गुणवत्ता मूळ scan च्या गुणवत्तेवर मोठ्या प्रमाणावर अवलंबून असते. accuracy अधिकतम करण्यासाठी या टिप्स अनुसरा:

  • 300 DPI किंवा त्याहून अधिकवर स्कॅन करा: कमी resolution च्या scans अस्पष्ट characters तयार करतात ज्या OCR engines चुकीच्या वाचतात. 300 DPI किमान आहे; 600 DPI लहान टेक्स्ट किंवा तपशीलवार दस्तऐवजांसाठी आदर्श आहे.
  • टेक्स्ट दस्तऐवजांसाठी black-and-white वापरा: Color scans plain text साठी OCR accuracy न वाढवता file size वाढवतात. बहुतेक दस्तऐवजांसाठी Black-and-white किंवा grayscale पुरेसे आहे.
  • पृष्ठे सरळ ठेवा: Tilted किंवा skewed पृष्ठे OCR software ला गोंधळवतात. बहुतेक आधुनिक tools auto-deskew करू शकतात, परंतु सुरुवातीपासून सरळ ठेवणे मदत करते.
  • Coffee stains आणि smudges टाळा: दस्तऐवजावरील शारीरिक खुणा characters म्हणून चुकीच्या वाचल्या जातात. शक्य असल्यास original स्वच्छ करा.
  • Output तपासा: OCR 100% अचूक नाही. नेहमी निकाल proofread करा, विशेषतः numbers, punctuation आणि handwritten विभागांसाठी.

OCR नंतर: आवश्यक असल्यास file size कमी करा

OCR processing कधीकधी PDF file size वाढवू शकते कारण ती existing image layer वर एक hidden text layer जोडते. आपली परिणामी फाइल खूप मोठी असल्यास, visual quality न गमावता size कमी करण्यासाठी आमचा PDF compressor वापरा.

OCR टेक्स्ट योग्यरित्या ओळखत नसल्यास काय?

OCR accuracy मूळ scan च्या गुणवत्तेवर अवलंबून असते. यांच्यासाठी खराब परिणाम सामान्य आहेत: खूप लहान fonts (8pt खाली), handwritten text, decorative किंवा असामान्य fonts, फिकट ink, किंवा 200 DPI खाली low-quality scans. या प्रकरणांमध्ये, manual retyping आवश्यक असू शकते - किंवा OCR पुन्हा चालवण्यापूर्वी उच्च गुणवत्तेवर original document पुन्हा स्कॅन करा.

वारंवार विचारले जाणारे प्रश्न

माझ्या PDF मध्ये टेक्स्ट का निवडता येत नाही?
आपला PDF एक scanned image आहे, embedded text layer सह document नाही. जेव्हा paper document स्कॅन केले जाते आणि PDF म्हणून जतन केले जाते, तेव्हा परिणाम मूलतः पृष्ठाची photograph असतो - अक्षरांच्या आकाराचे pixels, परंतु वास्तविक text नाही. ते निवडण्यायोग्य करण्यासाठी, text layer जोडण्यासाठी OCR (Optical Character Recognition) चालवणे आवश्यक आहे.
स्कॅन केलेल्या PDF टेक्स्टला निवडण्यायोग्य बनवण्याचा कोणता free मार्ग आहे?
हो - Google Drive free OCR देते: PDF अपलोड करा, right-click करा, आणि Google Docs सह उघडा. Google आपोआप टेक्स्ट ओळखतो. पर्यायी म्हणून, आमचा PDF to Word converter content editable document मध्ये काढतो. पूर्णपणे free desktop solution साठी, Tesseract OCR open-source आणि अत्यंत शक्तिशाली आहे.
OCR PDF कसे दिसते ते बदलते का?
नाही - OCR existing image मागे एक invisible text layer जोडतो. PDF चे दृश्यात्मक स्वरूप अगदी तसेच राहते. फक्त text select, copy आणि search करण्याची क्षमता मिळते. एकमात्र अपवाद म्हणजे Word मध्ये रूपांतरित करून re-export करणे, जेथे किरकोळ formatting बदल होऊ शकतात.
स्कॅन केलेल्या दस्तऐवजांवर OCR किती अचूक आहे?
आधुनिक OCR 300 DPI किंवा त्याहून अधिकवर clean, well-scanned documents वर 95-99% अचूक आहे. Low-resolution scans, handwriting, unusual fonts, किंवा शारीरिक नुकसान असलेल्या पृष्ठांसाठी accuracy लक्षणीयपणे कमी होते. महत्त्वाच्या दस्तऐवजांसाठी त्यावर अवलंबून राहण्यापूर्वी नेहमी output proofread करा.
मी OCR ने handwritten PDF टेक्स्ट निवडण्यायोग्य बनवू शकतो का?
Standard OCR handwriting वर खराब काम करतो - तो printed, typed text साठी डिझाइन केलेला आहे. Specialized handwriting recognition tools अस्तित्वात आहेत परंतु printed-text OCR पेक्षा खूपच कमी अचूक आहेत. document मध्ये mixed print आणि handwriting असल्यास, OCR printed भाग योग्यरित्या ओळखेल परंतु handwritten विभाग चुकीचे वाचण्याची शक्यता आहे.

Súvisiace články

पीडीएफमध्ये एम्बेडेड फॉन्ट गहाळ आहेत? 7 चरणांमध्ये चुकीचा मजकूर प्रदर्शन दुरुस्त करा

तुमचा PDF मजकूर दुसऱ्या डिव्हाइसवर वेगळा दिसत असल्यास, एम्बेडेड फॉन्ट गहाळ होणे हे सहसा कारण असते. त्याचे निदान आणि जलद निराकरण कसे करावे ते येथे आहे. ✅

6 min čítania

पीडीएफ कॉम्प्रेशन नंतर अस्पष्ट होते? गुणवत्ता ठेवण्याचे ७ मार्ग (२०२६)

पीडीएफ संकुचित केले आणि आता मजकूर किंवा प्रतिमा अस्पष्ट दिसत आहेत? गुणवत्ता कमी का होते आणि वाचनीयता नष्ट न करता फाईलचा आकार कसा कमी करायचा ते जाणून घ्या. ✅

6 min čítania

iPhone किंवा Android वर PDF उघडू शकत नाही? 6 झटपट निराकरणे (2026)

तुमच्या iPhone किंवा Android वर PDF फाइल उघडण्यासाठी धडपडत आहात? तुम्हाला रिक्त स्क्रीन का दिसू शकते आणि हेवी ॲप्स स्थापित केल्याशिवाय तुमचे दस्तऐवज कसे पहावे ते जाणून घ्या. ✅

5 min čítania