OpenPDFTools

Текстът в сканирания PDF не се маркира - как да го поправите с OCR

Martin PavličАктуализирано 8 април 2026 г.6 минути четене
Споделете
Текстът в сканирания PDF не се маркира - как да го поправите с OCR

Защо не можете да маркирате текст в сканиран PDF?

Когато документ се физически сканира и се запазва като PDF, скенерът заснема плоско изображение на страницата - точно като снимка. Полученият файл не съдържа реални текстови символи, само пиксели наредени да изглеждат като букви. Затова при кликване навсякъде в документа нищо не се маркира: няма текстов слой, за който курсорът да може да се захване.

Това е един от най-честите проблеми с PDF. Документът изглежда напълно четим на екрана, но по същество е снимка, вградена в PDF обвивка. Не можете да го търсите, да копирате от него или да позволите на програма за четене на екрана да го обработи.

Какво е OCR и как решава проблема?

OCR (оптично разпознаване на символи) е технология, която анализира изображението на текст и го преобразува в реални, машиночетими символи. Програмата изучава формата на буквите, сравнява ги с познати шаблони и създава текстов слой, който се вгражда обратно в PDF.

След обработка с OCR получавате PDF с възможност за търсене и маркиране - визуално идентичен с оригинала, но сега курсорът може да маркира думи, Ctrl+F може да намира фрази, а копирането и поставянето работят нормално. Програмите за четене на екрана и инструментите за достъпност също могат да го четат.

Как да приложите OCR към сканиран PDF

Има няколко начина да добавите OCR към сканиран PDF - от безплатни браузърни инструменти до настолен софтуер:

  • Конвертиране в Word и запазване като PDF: Нашият конвертор PDF към Word извлича визуалното съдържание и го преобразува в редактируем документ Word. В Word текстът е напълно маркируем. След това можете да го експортирате обратно в PDF с правилен текстов слой.
  • Adobe Acrobat (платен): Индустриалният стандарт. Отворете PDF, отидете на Инструменти → Сканиране и OCR → Разпознаване на текст и Acrobat добавя текстов слой директно. Скъп, но с висока точност.
  • Google Drive (безплатен): Качете сканирания PDF в Google Drive, кликнете с десния бутон и изберете "Отваряне с Google Docs". Google автоматично стартира OCR и отваря текста в документ Docs. Работи изненадващо добре за чисти сканирания.
  • Tesseract OCR (безплатен, с отворен код): Мощен OCR двигател с команден ред, използван от много приложения. Най-добър за разработчици или технически потребители, които искат безплатно самостоятелно хоствано решение.
  • Adobe Acrobat online (ограничено безплатен): Adobe предлага ограничена безплатна OCR обработка чрез своите онлайн инструменти за потребители без абонамент.

Съвети за по-добра точност на OCR

Качеството на OCR зависи силно от качеството на оригиналното сканиране. Следвайте тези съвети за максимална точност:

  • Сканирайте при 300 DPI или повече: Сканирания с ниска разделителна способност дават размити символи, които OCR двигателите четат неправилно. 300 DPI е минимумът; 600 DPI е идеален за дребен текст или подробни документи.
  • Използвайте черно-бяло за текстови документи: Цветните сканирания увеличават размера на файла, без да подобряват точността на OCR за обикновен текст. Черно-бялото или нюансите на сивото са достатъчни за повечето документи.
  • Дръжте страниците прави: Наклонените или изкривените страници объркват OCR програмите. Повечето съвременни инструменти могат автоматично да изправят, но да се започне право е по-добре.
  • Избягвайте петна от кафе и мазнини: Физическите маркировки върху документа се разчитат погрешно като символи. Почистете оригинала, ако е възможно.
  • Проверявайте резултата: OCR не е 100% точен. Винаги проверявайте резултата, особено за числа, пунктуация и ръкописни секции.

След OCR: намалете размера на файла, ако е необходимо

Обработката с OCR понякога може да увеличи размера на PDF файла, тъй като добавя скрит текстов слой върху съществуващия слой с изображение. Ако полученият файл е твърде голям, използвайте нашия компресор на PDF, за да намалите размера, без да губите визуалното качество.

Какво да правите, ако OCR не разпознава текста правилно?

Точността на OCR зависи от качеството на оригиналното сканиране. Лошите резултати са чести при: много дребни шрифтове (под 8pt), ръкописен текст, декоративни или необичайни шрифтове, избледнало мастило или нискокачествени сканирания под 200 DPI. В тези случаи може да се наложи ръчно въвеждане - или повторно сканиране на оригиналния документ с по-висококачествено преди повторно стартиране на OCR.

Често задавани въпроси

Защо текстът в моя PDF не се маркира?
Вашият PDF е сканирано изображение, а не документ с вграден текстов слой. Когато хартиен документ се сканира и запазва като PDF, резултатът е по същество снимка на страницата - пиксели с форма на букви, но не реален текст. За да го направите маркируем, трябва да стартирате OCR, за да добавите текстов слой.
Има ли безплатен начин да направя текста в сканиран PDF маркируем?
Да - Google Drive предлага безплатен OCR: качете PDF, кликнете с десния бутон и отворете с Google Docs. Google автоматично разпознава текста. Алтернативно, нашият конвертор PDF към Word извлича съдържанието в редактируем документ. За напълно безплатно настолно решение Tesseract OCR е с отворен код и много мощен.
Променя ли OCR изгледа на PDF?
Не - OCR добавя невидим текстов слой зад съществуващото изображение. Визуалният вид на PDF остава точно същият. Просто получавате възможността да маркирате, копирате и търсите текст. Единственото изключение е, ако конвертирате в Word и повторно експортирате, при което могат да се получат незначителни промени в форматирането.
Колко точен е OCR при сканирани документи?
Съвременният OCR е 95-99% точен при чисти, добре сканирани документи при 300 DPI или повече. Точността значително спада при сканирания с ниска разделителна способност, ръкописен текст, необичайни шрифтове или страници с физически повреди. Винаги проверявайте резултата, преди да го използвате за важни документи.
Мога ли да направя ръкописен текст в PDF маркируем с OCR?
Стандартният OCR работи лошо с ръкописен текст - той е предназначен за печатан, машинописен текст. Съществуват специализирани инструменти за разпознаване на ръкопис, но те са много по-малко точни от OCR за печатан текст. Ако документът съдържа смесен печатан и ръкописен текст, OCR ще разпознае правилно печатаните части, но вероятно ще прочете неправилно ръкописните секции.

Свързани статии