OpenPDFTools

የተቃኘ PDF ጽሑፍ ሊመረጥ አይቻልም - OCR ን በመጠቀም እንዴት እናስተካክለው

Martin PavličAktualizované 8 ኤፕሪል 20266 min čítania
Zdieľať
የተቃኘ PDF ጽሑፍ ሊመረጥ አይቻልም - OCR ን በመጠቀም እንዴት እናስተካክለው

ለምን በተቃኘ PDF ውስጥ ጽሑፍ መምረጥ አይቻልም?

ሰነድ በአካል ሲቃኝ እንደ PDF ሆኖ ሲቀመጥ፣ ስካነሩ የገጹን ጠፍጣፋ ምስል ይይዛል - ፎቶ እንደ መነሳት ነው። የተገኘው ፋይል ምንም ትክክለኛ የጽሑፍ ቁምፊዎች የለውም፣ ፊደሎችን የሚመስሉ ፒክሰሎች ብቻ ናቸው። ለዚህ ነው ሰነዱ ላይ ማንኛውም ቦታ ጠቅ ማድረግ ምንም የማይመርጠው፡ ጠቋሚዎ የሚያዝ ምንም የጽሑፍ ንብርብር የለም።

ይህ ከምረት ጋር ከተለመዱ PDF ቅሬቶች አንዱ ነው። ሰነዱ በስክሪን ላይ ሙሉ በሙሉ ሊነበብ እንደሚችል ይመስላል፣ ነገር ግን በመሠረቱ በ PDF ሸፈት ውስጥ የተቀበረ ፎቶ ነው። ሊፈለግ፣ ሊተዳደር ወይም ማያ ገጽ አንባቢ ሊሰናዳ አይቻልም።

OCR ምንድን ነው እና እንዴት ያስተካክለዋል?

OCR (Optical Character Recognition) የጽሑፍ ምስልን ተንትኖ ወደ ትክክለኛ፣ በማሽን ሊነበቡ ወደሚችሉ ቁምፊዎች የሚቀይር ቴክኖሎጂ ነው። ሶፍትዌሩ የፊደሎቹን ቅርጾች ይመለከታል፣ ከሚታወቁ አምሳያዎች ጋር ያወዳድራቸዋል፣ ወደ PDF ውስጥ ሊካተት የሚችል የጽሑፍ ንብርብር ያወጣል።

OCR ካስሰናዳ በኋላ፣ ሊፈለግ እና ሊመረጥ የሚችል PDF ያገኛሉ - ዓይናዊ ሁኔታ ከዋናው ጋር ተመሳሳይ ነው፣ ነገር ግን አሁን ጠቋሚዎ ቃሎችን ሊያድምቅ፣ Ctrl+F ሐረጎችን ሊያፈላልግ እና ቅዳ-ለጥፍ ተራ ሁኔታ ላይ ይሠራል። ማያ ገጽ አንባቢዎና ተደራሽነት ሰጪ መሣሪያዎችም ሊያነቡት ይችላሉ።

ለተቃኘ PDF OCR እንዴት ይተገበርናል

ከሙሉ ለሙሉ ወደ ዴስክቶፕ ሶፍትዌር እስከ ነጻ አሳሽ መሣሪያዎች፣ ለተቃኘ PDF OCR ለመጨመር ብዙ መንገዶች አሉ፡

  • ወደ Word ቀይሩ፣ ከዚያ እንደ PDF አስቀምጡ፡ የእኛ PDF ወደ Word ቀያሪ ዓይናዊ ይዘቱን ያወጣና ሊስተካከል ወደሚችል Word ሰነድ ይቀይረዋል። Word ውስጥ ሲገባ ጽሑፉ ሙሉ በሙሉ ሊመረጥ ይችላል። ከዚያ ተገቢ የጽሑፍ ንብርብር ያለው PDF ሆኖ ሊላክ ይችላል።
  • Adobe Acrobat (ሊከፈልበት የሚችል): ደረጃ-ሰጪ ኢንዱስትሪ መሣሪያ ነው። PDF ን ክፈቱ፣ Tools → Scan & OCR → Recognize Text ሂዱ፣ Acrobat ቀጥታ የጽሑፍ ንብርብር ይጨምራል። ዋጋው ቢኖርም ትክክለኛነቱ ከፍ ያለ ነው።
  • Google Drive (ነጻ): የተቃኘ PDF ዎን ወደ Google Drive ይጫኑ፣ ቀኝ-ጠቅ ያድርጉ፣ "Open with Google Docs" ይምረጡ። Google ራስ-ሰር OCR ያሠናዳና ጽሑፉን ባለ Docs ሰነድ ውስጥ ይከፍተዋል። ለጽዱ ቃኝቶች በሚያስደንቅ ሁኔታ ጥሩ ይሠራል።
  • Tesseract OCR (ነጻ፣ ክፍት-ምንጭ): ብዙ ትግበሮች የሚጠቀሙበት ኃይለኛ ትዕዛዝ-ስርዓት OCR ሞተር ነው። ነጻ ራስ-ተኮር መፍትሄ ለሚፈልጉ ገንቢዎች ወይም ቴክኒካዊ ተጠቃሚዎች ተሻለ ነው።
  • Adobe Acrobat በመስመር ላይ (ውሱን ነጻ): Adobe ለደንበኛ-ቅፅ ሌሉ ተጠቃሚዎቻቸው በመስመር ላይ መሣሪያዎቻቸው ውሱን ነጻ OCR ሂደት ያቀርባሉ።

የ OCR ትክክለኛነትን ለማሻሻል ምክሮች

የ OCR ጥራት በዋናው ቃኝት ጥራት ላይ ከፍ ያለ ጥገና አለው። ትክክለኛነትን ለማሳደግ እነዚህን ምክሮች ይከተሉ:

  • ከ300 DPI ወይም ከዚያ በላይ ቃኙ: ዝቅ ያለ ትክክለኛ ቃኝቶች OCR ሞተሮች የሚያሳሳቱ ደብዛዛ ቁምፊዎችን ያፈልቃሉ። 300 DPI ዝቅተኛ ቁጥር ነው፤ 600 DPI ለትንሽ ጽሑፍ ወይም ዝርዝር ሰነዶች ሃሳቡ ነው።
  • ለጽሑፍ ሰነዶች ጥቁርና ነጭ ይጠቀሙ: ቀለም ያላቸው ቃኝቶች ለቀላል ጽሑፍ OCR ትክክለኛነትን ሳያሻሻሉ ፋይል መጠን ይጨምራሉ። ጥቁርና ነጭ ወይም ግራጫ ለአብዛኛዎቹ ሰነዶች በቂ ነው።
  • ገጾቹ ቀጥ ብለው እንዲቆሙ ያድርጉ: ዘንበልና ዘለል ያሉ ገጾች OCR ሶፍትዌርን ያደናግሩታል። ዘመናዊ አብዛኛ መሣሪያዎች ራስ-ሰር ሊያቃኑ ይችላሉ፣ ነገር ግን ቀጥ ብሎ መጀመር ይጠቅማል።
  • የቡና ነጠብጣቦችና ቆሻሻዎችን ያስወግዱ: በሰነዱ ላይ ያሉ አካላዊ ምልክቶች እንደ ቁምፊ ተሳስቶ ሊነበቡ ይችላሉ። ቢቻል ዋናውን ያጽዱ።
  • ውጤቱን ያረጋግጡ: OCR 100% ትክክለኛ አይደለም። ውጤቱን ሁሌ ቃኙ፣ በተለይ ለቁጥሮች፣ ሥርዓተ-ነጥቦች እና በእጅ ለተጻፉ ክፍሎች።

ከ OCR በኋላ: ያስፈልጋዘንድ ፋይሉን ይቀንሱ

OCR ሂደት ያሁን ያለ ምስል ንብርብር ላይ የተደበቀ የጽሑፍ ንብርብር ስለሚጨምር አንዳንዴ PDF ፋይሉን ሊያሳምረው ይችላል። የተገኘ ፋይልዎ ትልቅ ከሆነ፣ ዓይናዊ ጥራት ሳይቀንስ መጠን ለመቀነስ የእኛ PDF ፍቺ ይጠቀሙ።

OCR ጽሑፉን በትክክል ካላወቀ ምን ይደረጋል?

የ OCR ትክክለኛነት በዋናው ቃኝት ጥራት ላይ ጥገና አለው። ደካማ ውጤቶች ከ: ብዙ ትንሽ ቅርጸ-ቁምፊዎች (ከ8pt ያነሰ)፣ የእጅ ጽሑፍ፣ ማስዋቢያ ወይም ያልተለመዱ ቅርጸ-ቁምፊዎች፣ ደብዛዛ ቀለም ወይም ከ200 DPI ያነሱ ዝቅ-ጥራት ቃኝቶች ጋር የተለመዱ ናቸው። በእነዚህ ሁኔታዎች፣ ጽሑፉን እጅ ሊፃፍ ሊያስፈልግ ይችላል - ወይም ዳግመኛ OCR ሳይሠናዳ ዋናው ሰነድ በከፍ ጥራት ቃኝት ሊደረግ ይችላል።

በተደጋጋሚ የሚጠየቁ ጥያቄዎች

ለምን ጽሑፉ ሊመረጥ አይቻልም?
PDF ዎ ያቃኘ ምስል ነው፣ ሊካተት የሚችል የጽሑፍ ንብርብር ያለው ሰነድ አይደለም። ወረቀት ሰነድ ቃኝቶ እንደ PDF ሲቀምጥ፣ ውጤቱ በመሠረቱ የገጽ ፎቶ ነው - ፊደሎችን የሚመስሉ ፒክሰሎች፣ ነገር ግን ትክክለኛ ጽሑፍ አይደሉም። ሊምረጥ ለማድረግ፣ የጽሑፍ ንብርብር ለመጨምር OCR (Optical Character Recognition) ማሠናዳት ያስፈልጋል።
ያቃኘ PDF ጽሑፍ ሊምረጥ ለማድረግ ነጻ መንገድ አለ?
አዎ - Google Drive ነጻ OCR ይሰጣል: PDF ን ጫኑ፣ ቀኝ-ጠቅ ያድርጉ፣ Google Docs ን ይክፈቱ። Google ጽሑፉን ራስ-ሰር ይለያዋል። አማራጭ ሁኔታ፣ PDF ወደ Word ቀያሪያችን ይዘቱን ወደ ሊስተካከል ወደሚችል ሰነድ ያወጣዋል። ሙሉ ነጻ ዴስክቶፕ መፍትሄ ለሚፈልጉ፣ Tesseract OCR ክፍት-ምንጭ ሲሆን ኃይለኛ ነው።
OCR PDF እንዴት እንደሚታይ ይቀይራል?
አይ - OCR ያሁን ያለ ምስል ጀርባ የማይታይ የጽሑፍ ንብርብር ይጨምራል። የ PDF ዓይናዊ መልክ ሙሉ ለሙሉ ሲምሳቀቁ ቀርቶ ነው። ጽሑፉን ለመምረጥ፣ ለመቅዳት እና ለመፈለግ ብቻ ዕድሉን ያገኛሉ። ልዩ ሁኔታ ወደ Word ቀይሮ ዳግም ሲላክ ሲሆን ያኔ ዝቅ ያሉ የቅርጸት ለውጦች ሊኖሩ ይችላሉ።
ባቃኙ ሰነዶች ላይ OCR ምን ያህል ትክክለኛ ነው?
ዘመናዊ OCR ከ300 DPI ወይም ከዚያ በላይ ባቃኙ ጽዱ ሰነዶች ላይ 95-99% ትክክለኛ ነው። ትክክለኛነቱ ዝቅ ለሆኑ-ትክክለኛ ቃኝቶች፣ የእጅ ጽሑፍ፣ ያልተለመዱ ቅርጸ-ቁምፊዎች ወይም አካላዊ ጉዳት ላላቸው ገጾች ጉልህ ሁኔታ ይቀንሳል። ለጠቃሚ ሰነዶች ሳትጠቀምበት ሁሌ ውጤቱን ቃኙ።
OCR ን ተጠቅሜ የእጅ ጽሑፍ PDF ሊምረጥ ማድረግ ይቻላል?
ደረጃ-ሰጪ OCR ለእጅ ጽሑፍ ደካማ ሆኖ ይሠራል - ለታተሙ፣ ለፈሰሱ ጽሑፎች ተዘጋጅቷል። ልዩ የእጅ ጽሑፍ ማወቂያ መሣሪያዎች አሉ ነገር ግን ከታተሙ-ጽሑፍ OCR ያነሰ ትክክለኛ ናቸው። ሰነዱ ቅልቅል ታተሙ እና የእጅ ጽሑፍ ካለው፣ OCR የታተሙ ክፍሎቹን ትክክለኛ ሁኔታ ላይ ይለያቸዋል ነገር ግን የእጅ ጽሑፍ ክፍሎቹን አሳሳቶ ሊነበብ ይችላል።

Súvisiace články