স্ক্যান করা PDF-এ টেক্সট সিলেক্ট হচ্ছে না - OCR দিয়ে কীভাবে ঠিক করবেন

Q: আমার PDF-এ টেক্সট সিলেক্ট হচ্ছে না কেন?

আপনার PDF একটি scanned image , embedded text layer সহ ডকুমেন্ট নয়। যখন কোনো paper ডকুমেন্ট স্ক্যান করা হয় এবং PDF হিসেবে সেভ করা হয়, ফলাফল হল মূলত পৃষ্ঠার একটি photograph - অক্ষরের আকৃতির pixels, কিন্তু প্রকৃত text নয়। এটি সিলেক্টযোগ্য করতে, text layer যোগ করতে OCR (Optical Character Recognition) চালাতে হবে।

Q: স্ক্যান করা PDF টেক্সট সিলেক্টযোগ্য করার কোনো free উপায় আছে?

হ্যাঁ - Google Drive free OCR অফার করে : PDF আপলোড করুন, right-click করুন, এবং Google Docs দিয়ে খুলুন। Google স্বয়ংক্রিয়ভাবে টেক্সট চেনে। বিকল্পভাবে, আমাদের PDF to Word converter বিষয়বস্তু একটি editable ডকুমেন্টে বের করে। সম্পূর্ণ free desktop solution-এর জন্য, Tesseract OCR open-source এবং অত্যন্ত শক্তিশালী।

Q: স্ক্যান করা ডকুমেন্টে OCR কতটা নির্ভুল?

আধুনিক OCR 300 DPI বা তার বেশিতে clean, well-scanned ডকুমেন্টে 95-99% নির্ভুল । Low-resolution scans, handwriting, unusual fonts, বা শারীরিক ক্ষতিসহ পৃষ্ঠার ক্ষেত্রে accuracy উল্লেখযোগ্যভাবে কমে যায়। গুরুত্বপূর্ণ ডকুমেন্টের জন্য নির্ভর করার আগে সর্বদা output proofread করুন।

Q: OCR দিয়ে কি handwritten PDF টেক্সট সিলেক্টযোগ্য করা যায়?

Standard OCR handwriting-এ দুর্বল কাজ করে - এটি printed, typed টেক্সটের জন্য ডিজাইন করা। Specialized handwriting recognition tools আছে কিন্তু printed-text OCR-এর চেয়ে অনেক কম নির্ভুল। ডকুমেন্টে mixed print এবং handwriting থাকলে, OCR printed অংশ সঠিকভাবে চিনবে কিন্তু সম্ভবত handwritten অংশ ভুল পড়বে।

Martin Pavlič৮ এপ্রিল, ২০২৬-এ আপডেট করা হয়েছে6 মিনিটের পড়া

শেয়ার করুন

স্ক্যান করা PDF-এ টেক্সট সিলেক্ট হচ্ছে না - OCR দিয়ে কীভাবে ঠিক করবেন

স্ক্যান করা PDF-এ টেক্সট সিলেক্ট করা যায় না কেন?

যখন একটি ডকুমেন্ট শারীরিকভাবে স্ক্যান করা হয় এবং PDF হিসেবে সংরক্ষণ করা হয়, স্ক্যানার পৃষ্ঠার একটি flat image ক্যাপচার করে - ঠিক যেন একটি ছবি তোলা হচ্ছে। তৈরি ফাইলে কোনো প্রকৃত টেক্সট character নেই, শুধু pixels আছে যা অক্ষরের মতো দেখায়। সেজন্যই ডকুমেন্টে যেকোনো জায়গায় ক্লিক করলে কিছু সিলেক্ট হয় না: আপনার cursor ধরার জন্য কোনো text layer নেই।

এটি সবচেয়ে সাধারণ PDF সমস্যাগুলির একটি। ডকুমেন্টটি স্ক্রিনে সম্পূর্ণ পাঠযোগ্য দেখায়, কিন্তু এটি মূলত একটি PDF wrapper-এ এমবেড করা একটি ফটোগ্রাফ। আপনি এটি সার্চ করতে পারবেন না, এ থেকে কপি করতে পারবেন না, বা screen reader দিয়ে এটি parse করাতে পারবেন না।

OCR কী এবং এটি কীভাবে সমস্যা সমাধান করে?

OCR (Optical Character Recognition) হল এমন একটি প্রযুক্তি যা টেক্সটের ছবি বিশ্লেষণ করে এবং তা প্রকৃত, machine-readable characters-এ রূপান্তরিত করে। সফটওয়্যার অক্ষরের আকৃতি দেখে, পরিচিত patterns-এর সাথে তুলনা করে, এবং একটি text layer আউটপুট করে যা PDF-এ ফিরে এমবেড হয়।

OCR processing-এর পরে, আপনি একটি searchable, selectable PDF পাবেন - দৃশ্যত মূলটির মতো অভিন্ন, কিন্তু এখন আপনার cursor শব্দ হাইলাইট করতে পারবে, Ctrl+F বাক্যাংশ খুঁজতে পারবে, এবং copy-paste স্বাভাবিকভাবে কাজ করবে। Screen reader এবং accessibility tools-ও এটি পড়তে পারবে।

স্ক্যান করা PDF-এ OCR কীভাবে প্রয়োগ করবেন

স্ক্যান করা PDF-এ OCR যোগ করার বেশ কয়েকটি উপায় আছে, free browser tools থেকে শুরু করে desktop software পর্যন্ত:

Word-এ কনভার্ট করুন, তারপর PDF হিসেবে সেভ করুন: আমাদের PDF to Word converter visual content বের করে একটি editable Word document-এ রূপান্তরিত করে। Word-এ আসার পরে টেক্সট সম্পূর্ণ সিলেক্টযোগ্য। তারপর proper text layer সহ PDF-এ re-export করতে পারবেন।
Adobe Acrobat (paid): Industry-standard tool। PDF খুলুন, Tools → Scan & OCR → Recognize Text-এ যান, এবং Acrobat সরাসরি text layer যোগ করে। ব্যয়বহুল কিন্তু অত্যন্ত নির্ভুল।
Google Drive (free): আপনার স্ক্যান করা PDF Google Drive-এ আপলোড করুন, right-click করুন, এবং "Open with Google Docs" বেছে নিন। Google স্বয়ংক্রিয়ভাবে OCR চালায় এবং Docs document-এ টেক্সট খোলে। পরিষ্কার scans-এর জন্য চমৎকার কাজ করে।
Tesseract OCR (free, open-source): অনেক apps দ্বারা ব্যবহৃত একটি শক্তিশালী command-line OCR engine। Developers বা technical users-দের জন্য সেরা যারা free self-hosted solution চান।
Adobe Acrobat online (limited free): Adobe সাবস্ক্রিপশন ছাড়া users-দের জন্য তাদের online tools-এর মাধ্যমে সীমিত free OCR processing অফার করে।

ভালো OCR accuracy-র জন্য টিপস

OCR-এর মান মূল স্ক্যানের মানের উপর ব্যাপকভাবে নির্ভরশীল। accuracy সর্বাধিক করতে এই টিপসগুলো অনুসরণ করুন:

300 DPI বা তার বেশিতে স্ক্যান করুন: কম resolution-এর scans ঝাপসা characters তৈরি করে যা OCR engines ভুল পড়ে। 300 DPI হল ন্যূনতম; 600 DPI ছোট টেক্সট বা বিস্তারিত ডকুমেন্টের জন্য আদর্শ।
টেক্সট ডকুমেন্টের জন্য black-and-white ব্যবহার করুন: Color scans plain text-এর জন্য OCR accuracy উন্নত না করেই file size বাড়ায়। বেশিরভাগ ডকুমেন্টের জন্য Black-and-white বা grayscale যথেষ্ট।
পৃষ্ঠা সোজা রাখুন: Tilted বা skewed পৃষ্ঠা OCR software-কে বিভ্রান্ত করে। বেশিরভাগ আধুনিক tools auto-deskew করতে পারে, কিন্তু শুরু থেকে সোজা রাখা সাহায্য করে।
Coffee stains এবং smudges এড়িয়ে চলুন: ডকুমেন্টের শারীরিক দাগগুলি characters হিসেবে ভুল পড়া হয়। সম্ভব হলে original পরিষ্কার করুন।
Output যাচাই করুন: OCR ১০০% নির্ভুল নয়। সর্বদা ফলাফল proofread করুন, বিশেষ করে numbers, punctuation এবং handwritten অংশের জন্য।

OCR-এর পরে: প্রয়োজনে file size কমান

OCR processing কখনো কখনো PDF file size বাড়াতে পারে কারণ এটি বিদ্যমান image layer-এর উপরে একটি hidden text layer যোগ করে। যদি আপনার ফলাফল ফাইল অনেক বড় হয়, visual quality না হারিয়ে size কমাতে আমাদের PDF compressor ব্যবহার করুন।

OCR যদি টেক্সট সঠিকভাবে চিনতে না পারে?

OCR accuracy মূল স্ক্যানের মানের উপর নির্ভর করে। এই ক্ষেত্রে খারাপ ফলাফল সাধারণ: খুব ছোট fonts (8pt-এর নিচে), handwritten text, decorative বা অস্বাভাবিক fonts, বিবর্ণ ink, বা 200 DPI-এর নিচে low-quality scans। এই ক্ষেত্রে, manual retyping প্রয়োজন হতে পারে - অথবা OCR আবার চালানোর আগে উচ্চ মানে original ডকুমেন্টটি পুনরায় স্ক্যান করুন।

প্রায়শই জিজ্ঞাসিত প্রশ্ন

আমার PDF-এ টেক্সট সিলেক্ট হচ্ছে না কেন?▾

আপনার PDF একটি scanned image, embedded text layer সহ ডকুমেন্ট নয়। যখন কোনো paper ডকুমেন্ট স্ক্যান করা হয় এবং PDF হিসেবে সেভ করা হয়, ফলাফল হল মূলত পৃষ্ঠার একটি photograph - অক্ষরের আকৃতির pixels, কিন্তু প্রকৃত text নয়। এটি সিলেক্টযোগ্য করতে, text layer যোগ করতে OCR (Optical Character Recognition) চালাতে হবে।

স্ক্যান করা PDF টেক্সট সিলেক্টযোগ্য করার কোনো free উপায় আছে?▾

হ্যাঁ - Google Drive free OCR অফার করে: PDF আপলোড করুন, right-click করুন, এবং Google Docs দিয়ে খুলুন। Google স্বয়ংক্রিয়ভাবে টেক্সট চেনে। বিকল্পভাবে, আমাদের PDF to Word converter বিষয়বস্তু একটি editable ডকুমেন্টে বের করে। সম্পূর্ণ free desktop solution-এর জন্য, Tesseract OCR open-source এবং অত্যন্ত শক্তিশালী।

OCR কি PDF-এর দেখতে পরিবর্তন করে?▾

না - OCR বিদ্যমান image-এর পেছনে একটি invisible text layer যোগ করে। PDF-এর দৃশ্যমান চেহারা ঠিক একই থাকে। শুধু টেক্সট select, copy এবং search করার ক্ষমতা পাবেন। একমাত্র ব্যতিক্রম হল Word-এ convert করে re-export করা, যেখানে সামান্য formatting পরিবর্তন হতে পারে।

স্ক্যান করা ডকুমেন্টে OCR কতটা নির্ভুল?▾

আধুনিক OCR 300 DPI বা তার বেশিতে clean, well-scanned ডকুমেন্টে 95-99% নির্ভুল। Low-resolution scans, handwriting, unusual fonts, বা শারীরিক ক্ষতিসহ পৃষ্ঠার ক্ষেত্রে accuracy উল্লেখযোগ্যভাবে কমে যায়। গুরুত্বপূর্ণ ডকুমেন্টের জন্য নির্ভর করার আগে সর্বদা output proofread করুন।

OCR দিয়ে কি handwritten PDF টেক্সট সিলেক্টযোগ্য করা যায়?▾

Standard OCR handwriting-এ দুর্বল কাজ করে - এটি printed, typed টেক্সটের জন্য ডিজাইন করা। Specialized handwriting recognition tools আছে কিন্তু printed-text OCR-এর চেয়ে অনেক কম নির্ভুল। ডকুমেন্টে mixed print এবং handwriting থাকলে, OCR printed অংশ সঠিকভাবে চিনবে কিন্তু সম্ভবত handwritten অংশ ভুল পড়বে।

স্ক্যান করা PDF-এ টেক্সট সিলেক্ট হচ্ছে না - OCR দিয়ে কীভাবে ঠিক করবেন

স্ক্যান করা PDF-এ টেক্সট সিলেক্ট করা যায় না কেন?

OCR কী এবং এটি কীভাবে সমস্যা সমাধান করে?

স্ক্যান করা PDF-এ OCR কীভাবে প্রয়োগ করবেন

ভালো OCR accuracy-র জন্য টিপস

OCR-এর পরে: প্রয়োজনে file size কমান

OCR যদি টেক্সট সঠিকভাবে চিনতে না পারে?

প্রায়শই জিজ্ঞাসিত প্রশ্ন

সংশ্লিষ্ট নিবন্ধ

পিডিএফ-এ এমবেডেড ফন্ট অনুপস্থিত? 7 ধাপে ভুল টেক্সট ডিসপ্লে ঠিক করুন

পিডিএফ কম্প্রেশন পরে ঝাপসা হয়ে যায়? গুণমান বজায় রাখার 7 উপায় (2026)

আইফোন বা অ্যান্ড্রয়েডে পিডিএফ খুলতে পারবেন না? 6টি তাত্ক্ষণিক সমাধান (2026)