স্ক্যান করা PDF-এ টেক্সট সিলেক্ট হচ্ছে না - OCR দিয়ে কীভাবে ঠিক করবেন

স্ক্যান করা PDF-এ টেক্সট সিলেক্ট করা যায় না কেন?
যখন একটি ডকুমেন্ট শারীরিকভাবে স্ক্যান করা হয় এবং PDF হিসেবে সংরক্ষণ করা হয়, স্ক্যানার পৃষ্ঠার একটি flat image ক্যাপচার করে - ঠিক যেন একটি ছবি তোলা হচ্ছে। তৈরি ফাইলে কোনো প্রকৃত টেক্সট character নেই, শুধু pixels আছে যা অক্ষরের মতো দেখায়। সেজন্যই ডকুমেন্টে যেকোনো জায়গায় ক্লিক করলে কিছু সিলেক্ট হয় না: আপনার cursor ধরার জন্য কোনো text layer নেই।
এটি সবচেয়ে সাধারণ PDF সমস্যাগুলির একটি। ডকুমেন্টটি স্ক্রিনে সম্পূর্ণ পাঠযোগ্য দেখায়, কিন্তু এটি মূলত একটি PDF wrapper-এ এমবেড করা একটি ফটোগ্রাফ। আপনি এটি সার্চ করতে পারবেন না, এ থেকে কপি করতে পারবেন না, বা screen reader দিয়ে এটি parse করাতে পারবেন না।
OCR কী এবং এটি কীভাবে সমস্যা সমাধান করে?
OCR (Optical Character Recognition) হল এমন একটি প্রযুক্তি যা টেক্সটের ছবি বিশ্লেষণ করে এবং তা প্রকৃত, machine-readable characters-এ রূপান্তরিত করে। সফটওয়্যার অক্ষরের আকৃতি দেখে, পরিচিত patterns-এর সাথে তুলনা করে, এবং একটি text layer আউটপুট করে যা PDF-এ ফিরে এমবেড হয়।
OCR processing-এর পরে, আপনি একটি searchable, selectable PDF পাবেন - দৃশ্যত মূলটির মতো অভিন্ন, কিন্তু এখন আপনার cursor শব্দ হাইলাইট করতে পারবে, Ctrl+F বাক্যাংশ খুঁজতে পারবে, এবং copy-paste স্বাভাবিকভাবে কাজ করবে। Screen reader এবং accessibility tools-ও এটি পড়তে পারবে।
স্ক্যান করা PDF-এ OCR কীভাবে প্রয়োগ করবেন
স্ক্যান করা PDF-এ OCR যোগ করার বেশ কয়েকটি উপায় আছে, free browser tools থেকে শুরু করে desktop software পর্যন্ত:
- Word-এ কনভার্ট করুন, তারপর PDF হিসেবে সেভ করুন: আমাদের PDF to Word converter visual content বের করে একটি editable Word document-এ রূপান্তরিত করে। Word-এ আসার পরে টেক্সট সম্পূর্ণ সিলেক্টযোগ্য। তারপর proper text layer সহ PDF-এ re-export করতে পারবেন।
- Adobe Acrobat (paid): Industry-standard tool। PDF খুলুন, Tools → Scan & OCR → Recognize Text-এ যান, এবং Acrobat সরাসরি text layer যোগ করে। ব্যয়বহুল কিন্তু অত্যন্ত নির্ভুল।
- Google Drive (free): আপনার স্ক্যান করা PDF Google Drive-এ আপলোড করুন, right-click করুন, এবং "Open with Google Docs" বেছে নিন। Google স্বয়ংক্রিয়ভাবে OCR চালায় এবং Docs document-এ টেক্সট খোলে। পরিষ্কার scans-এর জন্য চমৎকার কাজ করে।
- Tesseract OCR (free, open-source): অনেক apps দ্বারা ব্যবহৃত একটি শক্তিশালী command-line OCR engine। Developers বা technical users-দের জন্য সেরা যারা free self-hosted solution চান।
- Adobe Acrobat online (limited free): Adobe সাবস্ক্রিপশন ছাড়া users-দের জন্য তাদের online tools-এর মাধ্যমে সীমিত free OCR processing অফার করে।
ভালো OCR accuracy-র জন্য টিপস
OCR-এর মান মূল স্ক্যানের মানের উপর ব্যাপকভাবে নির্ভরশীল। accuracy সর্বাধিক করতে এই টিপসগুলো অনুসরণ করুন:
- 300 DPI বা তার বেশিতে স্ক্যান করুন: কম resolution-এর scans ঝাপসা characters তৈরি করে যা OCR engines ভুল পড়ে। 300 DPI হল ন্যূনতম; 600 DPI ছোট টেক্সট বা বিস্তারিত ডকুমেন্টের জন্য আদর্শ।
- টেক্সট ডকুমেন্টের জন্য black-and-white ব্যবহার করুন: Color scans plain text-এর জন্য OCR accuracy উন্নত না করেই file size বাড়ায়। বেশিরভাগ ডকুমেন্টের জন্য Black-and-white বা grayscale যথেষ্ট।
- পৃষ্ঠা সোজা রাখুন: Tilted বা skewed পৃষ্ঠা OCR software-কে বিভ্রান্ত করে। বেশিরভাগ আধুনিক tools auto-deskew করতে পারে, কিন্তু শুরু থেকে সোজা রাখা সাহায্য করে।
- Coffee stains এবং smudges এড়িয়ে চলুন: ডকুমেন্টের শারীরিক দাগগুলি characters হিসেবে ভুল পড়া হয়। সম্ভব হলে original পরিষ্কার করুন।
- Output যাচাই করুন: OCR ১০০% নির্ভুল নয়। সর্বদা ফলাফল proofread করুন, বিশেষ করে numbers, punctuation এবং handwritten অংশের জন্য।
OCR-এর পরে: প্রয়োজনে file size কমান
OCR processing কখনো কখনো PDF file size বাড়াতে পারে কারণ এটি বিদ্যমান image layer-এর উপরে একটি hidden text layer যোগ করে। যদি আপনার ফলাফল ফাইল অনেক বড় হয়, visual quality না হারিয়ে size কমাতে আমাদের PDF compressor ব্যবহার করুন।
OCR যদি টেক্সট সঠিকভাবে চিনতে না পারে?
OCR accuracy মূল স্ক্যানের মানের উপর নির্ভর করে। এই ক্ষেত্রে খারাপ ফলাফল সাধারণ: খুব ছোট fonts (8pt-এর নিচে), handwritten text, decorative বা অস্বাভাবিক fonts, বিবর্ণ ink, বা 200 DPI-এর নিচে low-quality scans। এই ক্ষেত্রে, manual retyping প্রয়োজন হতে পারে - অথবা OCR আবার চালানোর আগে উচ্চ মানে original ডকুমেন্টটি পুনরায় স্ক্যান করুন।
প্রায়শই জিজ্ঞাসিত প্রশ্ন
আমার PDF-এ টেক্সট সিলেক্ট হচ্ছে না কেন?▾
স্ক্যান করা PDF টেক্সট সিলেক্টযোগ্য করার কোনো free উপায় আছে?▾
OCR কি PDF-এর দেখতে পরিবর্তন করে?▾
স্ক্যান করা ডকুমেন্টে OCR কতটা নির্ভুল?▾
OCR দিয়ে কি handwritten PDF টেক্সট সিলেক্টযোগ্য করা যায়?▾
সংশ্লিষ্ট নিবন্ধ
পিডিএফ-এ এমবেডেড ফন্ট অনুপস্থিত? 7 ধাপে ভুল টেক্সট ডিসপ্লে ঠিক করুন
আপনার পিডিএফ টেক্সট অন্য ডিভাইসে ভিন্ন দেখায়, অনুপস্থিত এমবেডেড ফন্ট সাধারণত কারণ। এখানে কিভাবে নির্ণয় করা যায় এবং দ্রুত এটি ঠিক করা যায়। ✅
6 মিনিটের পড়াপিডিএফ কম্প্রেশন পরে ঝাপসা হয়ে যায়? গুণমান বজায় রাখার 7 উপায় (2026)
একটি পিডিএফ সংকুচিত এবং এখন পাঠ্য বা চিত্রগুলি অস্পষ্ট দেখায়? ঠিক কেন গুণমান কমে যায় এবং কীভাবে পঠনযোগ্যতা নষ্ট না করে ফাইলের আকার কমাতে হয় তা জানুন। ✅
6 মিনিটের পড়াআইফোন বা অ্যান্ড্রয়েডে পিডিএফ খুলতে পারবেন না? 6টি তাত্ক্ষণিক সমাধান (2026)
আপনার আইফোন বা অ্যান্ড্রয়েডে একটি পিডিএফ ফাইল খুলতে সংগ্রাম করছেন? আপনি কেন একটি ফাঁকা স্ক্রীন দেখতে পারেন এবং ভারী অ্যাপ ইনস্টল না করে কীভাবে আপনার নথিগুলি দেখতে পাবেন তা জানুন। ✅
5 মিনিটের পড়া