OpenPDFTools

Skan edilmiş PDF Mətni Seçilmir - OCR ilə Bunu Necə Düzəltmək Olar

Martin PavličAktualizované 8 aprel 20266 min čítania
Zdieľať
Skan edilmiş PDF Mətni Seçilmir - OCR ilə Bunu Necə Düzəltmək Olar

Nə üçün skan edilmiş PDF-də mətn seçmək mümkün deyil?

Sənəd fiziki olaraq skan edildikdə və PDF kimi yadda saxlandıqda, skaner səhifənin düz şəklini çəkir - sadəcə foto çəkmək kimidir. Yaranan faylda heç bir real mətn simvolu yoxdur, yalnız hərflər kimi görünmək üçün düzülmüş piksellər var. Buna görə sənədin hər hansı yerinə kliklədikdə heç nə seçilmir: kursorunuzun tutacağı mətn qatı yoxdur.

Bu, PDF-in ən çox rast gəlinən problemlərindən biridir. Sənəd ekranda mükəmməl oxuna bilən görünür, lakin əsasən PDF örtüyündə yerləşdirilmiş fotoşəkildir. Onu axtarmaq, ondan kopyalamaq və ya ekran oxuyucusunun onu emal etməsinə icazə vermək olmaz.

OCR nədir və onu necə düzəldir?

OCR (Optical Character Recognition) mətn şəklini analiz edib onu həqiqi, maşın tərəfindən oxuna bilən simvollara çevirən bir texnologiyadır. Proqram hərflərin formalarına baxır, onları məlum nümunələrlə müqayisə edir və PDF-ə qaytarılan mətn qatı çıxarır.

OCR emalından sonra axtarıla bilən, seçilə bilən PDF əldə edirsiniz - vizual olaraq orijinalla eynidir, lakin indi kursorunuz sözləri vurğulaya bilir, Ctrl+F ifadələri tapa bilir, kopyalama-yapışdırma normal işləyir. Ekran oxuyucuları və əlçatımlılıq alətləri də onu oxuya bilir.

Skan edilmiş PDF-ə OCR necə tətbiq edilir

Skan edilmiş PDF-ə OCR əlavə etməyin bir neçə yolu var, pulsuz brauzer alətlərindən masaüstü proqram təminatına qədər:

  • Word-a çevirin, sonra PDF kimi saxlayın: Bizim PDF-i Word-a çevirən alətimiz vizual məzmunu çıxarır və redaktə edilə bilən Word sənədinə çevirir. Word-a daxil olduqdan sonra mətn tamamilə seçilə bilər. Daha sonra düzgün mətn qatı ilə PDF kimi yenidən ixrac edilə bilər.
  • Adobe Acrobat (pullu): Sənayenin standart aləti. PDF açın, Tools → Scan & OCR → Recognize Text bölməsinə keçin, Acrobat birbaşa mətn qatı əlavə edir. Bahalıdır, lakin son dərəcə dəqiqdir.
  • Google Drive (pulsuz): Skan edilmiş PDF-inizi Google Drive-a yükləyin, üzərinə sağ klikləyin və "Open with Google Docs" seçin. Google avtomatik olaraq OCR işlədib mətni Docs sənədində açır. Təmiz skanlər üçün şaşırtıcı dərəcədə yaxşı işləyir.
  • Tesseract OCR (pulsuz, açıq mənbəli): Bir çox tətbiq tərəfindən istifadə edilən güclü komanda xətti OCR mühərriki. Pulsuz özü-özünə-yerləşdirilmiş həll istəyən tərtibatçılar və ya texniki istifadəçilər üçün ən yaxşısıdır.
  • Adobe Acrobat online (məhdud pulsuz): Adobe abunəlik olmayan istifadəçilər üçün öz onlayn alətlər vasitəsilə məhdud pulsuz OCR emalı təklif edir.

Daha yaxşı OCR dəqiqliyi üçün məsləhətlər

OCR keyfiyyəti orijinal skanın keyfiyyətindən çox asılıdır. Dəqiqliyi artırmaq üçün bu məsləhətlərə əməl edin:

  • 300 DPI və ya daha yüksəkdə skanlayın: Aşağı həlledici qabiliyyətli skanlər OCR mühərrikinin səhv oxuduğu bulanıq simvollar yaradır. 300 DPI minimaldır; 600 DPI kiçik mətn və ya ətraflı sənədlər üçün idealdır.
  • Mətn sənədləri üçün qara-ağdan istifadə edin: Rəngli skanlər sadə mətn üçün OCR dəqiqliyini artırmadan fayl ölçüsünü artırır. Qara-ağ və ya boz tündlük əksər sənədlər üçün kifayətdir.
  • Səhifələri düz saxlayın: Əyilmiş və ya çarpaz vəziyyətdəki səhifələr OCR proqramını çaşdırır. Müasir alətlərin əksəriyyəti avtomatik düzəldə bilər, lakin düz başlamaq kömək edir.
  • Qəhvə ləkələri və çirkdən qaçının: Sənəddəki fiziki işarələr simvol kimi səhv oxunur. Mümkünsə orijinalı təmizləyin.
  • Çıxışı yoxlayın: OCR 100% dəqiq deyil. Nəticəni həmişə nəzərdən keçirin, xüsusilə rəqəmlər, durğu işarələri və əllə yazılmış bölmələr üçün.

OCR-dan sonra: lazım olduqda fayl ölçüsünü azaldın

OCR emalı bəzən mövcud şəkil qatının üstünə gizli mətn qatı əlavə etdiyi üçün PDF faylının ölçüsünü artıra bilər. Yaranan faylınız çox böyükdürsə, vizual keyfiyyəti itirmədən ölçüsünü azaltmaq üçün bizim PDF kompressorumuzu istifadə edin.

Əgər OCR mətni düzgün tanımırsa nə etməli?

OCR dəqiqliyi orijinal skanın keyfiyyətindən asılıdır. Zəif nəticələr ilə tez-tez rast gəlinir: çox kiçik şriftlər (8pt-dən aşağı), əl yazısı, dekorativ və ya qeyri-adi şriftlər, solğun mürəkkəb və ya 200 DPI-dən aşağı keyfiyyətsiz skanlər. Bu hallarda əllə yenidən yazmaq lazım gələ bilər - ya da OCR-u yenidən işlətməzdən əvvəl orijinal sənədi daha yüksək keyfiyyətdə yenidən skan etmək.

Tez-tez verilən suallar

Niyə PDF-imdəki mətn seçilmir?
PDF-iniz skanlanmış şəkildir, yerləşdirilmiş mətn qatı olan sənəd deyil. Kağız sənəd skanlənib PDF kimi saxlandıqda nəticə əsasən bir səhifənin fotoşəklidir - hərflər formasındakı piksellər, lakin real mətn deyil. Seçilə bilən etmək üçün mətn qatı əlavə etmək üçün OCR (Optical Character Recognition) işlətmək lazımdır.
Skan edilmiş PDF mətni seçilə bilən etmənin pulsuz yolu varmı?
Bəli - Google Drive pulsuz OCR təklif edir: PDF-i yükləyin, üzərinə sağ klikləyin, Google Docs ilə açın. Google mətni avtomatik tanıyır. Alternativ olaraq, PDF-i Word-a çevirən alətimiz məzmunu redaktə edilə bilən sənədə çıxarır. Tamamilə pulsuz masaüstü həll üçün Tesseract OCR açıq mənbəlidir və çox güclüdür.
OCR PDF-in görünüşünü dəyişirmi?
Xeyr - OCR mövcud şəklin arxasına görünməz mətn qatı əlavə edir. PDF-in vizual görünüşü tamamilə eyniqalır. Yalnız mətni seçmək, kopyalamaq və axtarmaq imkanı qazanırsınız. Yeganə istisna Word-a çevirib yenidən ixrac etməkdir, burada kiçik formatlaşdırma dəyişiklikləri ola bilər.
OCR skan edilmiş sənədlər üzərində nə qədər dəqiqdir?
Müasir OCR 300 DPI və ya daha yüksəkdə təmiz, yaxşı skan edilmiş sənədlər üzərində 95-99% dəqiqdir. Dəqiqlik aşağı həlledici qabiliyyətli skanlər, əl yazısı, qeyri-adi şriftlər və ya fiziki zədəli səhifələr üçün əhəmiyyətli dərəcədə azalır. Mühüm sənədlər üçün istifadə etməzdən əvvəl nəticəni həmişə nəzərdən keçirin.
OCR ilə əllə yazılmış PDF mətni seçilə bilən edə bilərəmmi?
Standart OCR əl yazısı üzərində zəif işləyir - çap edilmiş, yazılı mətn üçün nəzərdə tutulub. Xüsusiləşdirilmiş əl yazısını tanıma alətləri mövcuddur, lakin çap edilmiş mətn OCR-dan daha az dəqiqdir. Sənəddə çap edilmiş və əl yazısının qarışığı varsa, OCR çap edilmiş hissələri düzgün tanıyacaq, lakin əl yazısı hissələrini səhv oxuya bilər.

Súvisiace články