OpenPDFTools

Tekst zeskanowanego PDF nie jest zaznaczalny - jak to naprawić za pomocą OCR

Martin PavličZaktualizowano 8 kwietnia 20266 min czytania
Udostepnij
Tekst zeskanowanego PDF nie jest zaznaczalny - jak to naprawić za pomocą OCR

Dlaczego nie można zaznaczyć tekstu w zeskanowanym PDF?

Gdy dokument jest fizycznie skanowany i zapisywany jako PDF, skaner przechwytuje płaski obraz strony - podobnie jak robienie zdjęcia. Wynikowy plik nie zawiera żadnych rzeczywistych znaków tekstowych, tylko piksele ułożone tak, aby wyglądały jak litery. Dlatego kliknięcie w dowolnym miejscu dokumentu nic nie zaznacza: kursor nie ma żadnej warstwy tekstowej do uchwycenia.

To jeden z najczęstszych problemów z PDF. Dokument wygląda na ekranie doskonale czytelnie, ale jest to w zasadzie fotografia osadzona w opakowaniu PDF. Nie można go przeszukiwać, kopiować z niego ani pozwolić czytnikowi ekranu go przetworzyć.

Czym jest OCR i jak to naprawia?

OCR (Optical Character Recognition) to technologia analizująca obraz tekstu i przekształcająca go w rzeczywiste, maszynowo czytelne znaki. Oprogramowanie analizuje kształty liter, porównuje je ze znanymi wzorcami i tworzy warstwę tekstową osadzaną z powrotem w PDF.

Po przetworzeniu za pomocą OCR otrzymujesz przeszukiwalny, zaznaczalny PDF - wizualnie identyczny z oryginałem, ale teraz kursor może wyróżniać słowa, Ctrl+F może znajdować frazy, a kopiowanie i wklejanie działa normalnie. Czytniki ekranu i narzędzia dostępności również mogą go odczytywać.

Jak zastosować OCR do zeskanowanego PDF

Istnieje kilka sposobów dodania OCR do zeskanowanego PDF, od bezpłatnych narzędzi przeglądarkowych po oprogramowanie desktopowe:

  • Konwersja do Worda, a następnie zapis jako PDF: Nasz konwerter PDF do Worda wyodrębnia zawartość wizualną i przekształca ją w edytowalny dokument Word. Po otwarciu w Wordzie tekst jest w pełni zaznaczalny. Następnie możesz ponownie wyeksportować do PDF z odpowiednią warstwą tekstową.
  • Adobe Acrobat (płatny): Branżowy standard. Otwórz PDF, przejdź do Narzędzia → Skanuj & OCR → Rozpoznaj tekst, a Acrobat doda warstwę tekstową bezpośrednio. Drogi, ale bardzo dokładny.
  • Google Drive (bezpłatny): Prześlij zeskanowany PDF do Google Drive, kliknij go prawym przyciskiem myszy i wybierz "Otwórz w Google Docs." Google automatycznie uruchamia OCR i otwiera tekst w dokumencie Docs. Działa zaskakująco dobrze w przypadku czystych skanów.
  • Tesseract OCR (bezpłatny, open-source): Wydajny silnik OCR wiersza poleceń używany przez wiele aplikacji. Najlepszy dla deweloperów lub użytkowników technicznych, którzy chcą bezpłatnego rozwiązania hostowanego samodzielnie.
  • Adobe Acrobat online (ograniczona bezpłatna wersja): Adobe oferuje ograniczone bezpłatne przetwarzanie OCR przez swoje narzędzia online dla użytkowników bez subskrypcji.

Wskazówki dla lepszej dokładności OCR

Jakość OCR w dużej mierze zależy od jakości oryginalnego skanu. Postępuj zgodnie z tymi wskazówkami, aby zmaksymalizować dokładność:

  • Skanuj przy 300 DPI lub wyżej: Skany o niższej rozdzielczości produkują rozmazane znaki, które silniki OCR błędnie odczytują. 300 DPI to minimum; 600 DPI jest idealne dla małego tekstu lub szczegółowych dokumentów.
  • Używaj czarno-białego dla dokumentów tekstowych: Kolorowe skany zwiększają rozmiar pliku bez poprawy dokładności OCR dla zwykłego tekstu. Czarno-białe lub skala szarości wystarczy dla większości dokumentów.
  • Utrzymuj strony prosto: Pochylone lub przekrzywione strony mylą oprogramowanie OCR. Większość nowoczesnych narzędzi może automatycznie wyrównać, ale zaczynanie od prostej strony pomaga.
  • Unikaj plam po kawie i smug: Fizyczne ślady na dokumencie są błędnie odczytywane jako znaki. Jeśli to możliwe, wyczyść oryginał.
  • Sprawdź wynik: OCR nie jest w 100% dokładne. Zawsze sprawdzaj wynik, szczególnie w przypadku cyfr, interpunkcji i odręcznie pisanych sekcji.

Po OCR: zmniejsz rozmiar pliku, jeśli to konieczne

Przetwarzanie OCR może czasem zwiększyć rozmiar pliku PDF, ponieważ dodaje ukrytą warstwę tekstową na istniejącą warstwę obrazu. Jeśli wynikowy plik jest zbyt duży, użyj naszego kompresora PDF, aby zmniejszyć rozmiar bez utraty jakości wizualnej.

Co zrobić, gdy OCR nie rozpoznaje tekstu poprawnie?

Dokładność OCR zależy od jakości oryginalnego skanu. Słabe wyniki są powszechne przy: bardzo małych czcionkach (poniżej 8 pt), tekście odręcznym, dekoracyjnych lub nietypowych czcionkach, wyblakłym atramencie lub skanach niskiej jakości poniżej 200 DPI. W takich przypadkach może być konieczne ręczne przepisanie - lub ponowne skanowanie oryginalnego dokumentu w wyższej jakości przed ponownym uruchomieniem OCR.

Czesto zadawane pytania

Dlaczego tekst w moim PDF nie jest zaznaczalny?
Twój PDF to zeskanowany obraz, a nie dokument z osadzoną warstwą tekstową. Gdy papierowy dokument jest skanowany i zapisywany jako PDF, wynik to w zasadzie fotografia strony - piksele w kształcie liter, ale nie rzeczywisty tekst. Aby go zaznaczyć, musisz uruchomić OCR (Optical Character Recognition), aby dodać warstwę tekstową.
Czy istnieje bezpłatny sposób na uczynienie tekstu zeskanowanego PDF zaznaczalnym?
Tak - Google Drive oferuje bezpłatne OCR: prześlij PDF, kliknij go prawym przyciskiem myszy i otwórz w Google Docs. Google automatycznie rozpozna tekst. Alternatywnie możesz użyć naszego konwertera PDF do Worda, który wyodrębnia zawartość do edytowalnego dokumentu. Dla w pełni bezpłatnego rozwiązania desktopowego Tesseract OCR jest open-source i bardzo wydajny.
Czy OCR zmienia wygląd PDF?
Nie - OCR dodaje niewidoczną warstwę tekstową za istniejącym obrazem. Wygląd wizualny PDF pozostaje dokładnie taki sam. Zyskujesz jedynie możliwość zaznaczania, kopiowania i wyszukiwania tekstu. Jedynym wyjątkiem jest konwersja do Worda i ponowny eksport, gdzie mogą wystąpić drobne zmiany formatowania.
Jak dokładne jest OCR na zeskanowanych dokumentach?
Nowoczesne OCR jest dokładne w 95–99% dla czystych, dobrze zeskanowanych dokumentów przy 300 DPI lub wyżej. Dokładność znacznie spada w przypadku skanów niskiej rozdzielczości, pisma odręcznego, nietypowych czcionek lub stron z fizycznymi uszkodzeniami. Zawsze sprawdzaj wynik przed poleganiem na nim w przypadku ważnych dokumentów.
Czy mogę użyć OCR, aby uczynić tekst odręcznego PDF zaznaczalnym?
Standardowe OCR słabo radzi sobie z pismem odręcznym - jest zaprojektowane dla tekstu drukowanego, maszynowego. Istnieją specjalistyczne narzędzia do rozpoznawania pisma odręcznego, ale są znacznie mniej dokładne niż OCR dla tekstu drukowanego. Jeśli dokument zawiera zarówno tekst drukowany, jak i odręczny, OCR poprawnie rozpozna drukowane części, ale prawdopodobnie błędnie odczyta odręczne sekcje.

Powiazane artykuly