OpenPDFTools

Текст в отсканированном PDF не выделяется - как исправить с помощью OCR

Martin PavličОбновлено 8 апреля 2026 г.6 мин чтения
Поделиться
Текст в отсканированном PDF не выделяется - как исправить с помощью OCR

Почему нельзя выделить текст в отсканированном PDF?

Когда документ физически сканируется и сохраняется как PDF, сканер захватывает плоское изображение страницы - как фотографию. Полученный файл не содержит реальных текстовых символов, только пиксели, расположенные так, чтобы напоминать буквы. Поэтому при клике в любом месте документа ничего не выделяется: нет текстового слоя, за который мог бы зацепиться курсор.

Это одна из самых распространённых проблем с PDF. Документ выглядит совершенно читаемым на экране, но по сути является фотографией, встроенной в PDF-оболочку. Вы не можете его искать, копировать из него или позволить программе чтения с экрана его обработать.

Что такое OCR и как это исправляет проблему?

OCR (оптическое распознавание символов) - это технология, которая анализирует изображение текста и преобразует его в настоящие, машиночитаемые символы. Программа изучает форму букв, сравнивает их с известными образцами и создаёт текстовый слой, который встраивается обратно в PDF.

После обработки OCR вы получаете PDF с возможностью поиска и выделения текста - визуально идентичный оригиналу, но теперь курсор может выделять слова, Ctrl+F может находить фразы, а копирование и вставка работают нормально. Программы чтения с экрана и инструменты доступности также могут его читать.

Как применить OCR к отсканированному PDF

Существует несколько способов добавить OCR к отсканированному PDF - от бесплатных браузерных инструментов до настольных программ:

  • Конвертировать в Word, затем сохранить как PDF: Наш конвертер PDF в Word извлекает визуальное содержимое и преобразует его в редактируемый документ Word. В Word текст становится полностью выделяемым. Затем можно экспортировать обратно в PDF с правильным текстовым слоем.
  • Adobe Acrobat (платный): Отраслевой стандарт. Откройте PDF, перейдите в Инструменты → Сканирование и OCR → Распознать текст, и Acrobat добавит текстовый слой напрямую. Дорого, но высокая точность.
  • Google Drive (бесплатно): Загрузите отсканированный PDF на Google Drive, нажмите правой кнопкой и выберите "Открыть в Google Docs". Google автоматически запустит OCR и откроет текст в документе Docs. Работает удивительно хорошо для чистых сканов.
  • Tesseract OCR (бесплатный, с открытым исходным кодом): Мощный OCR-движок с командной строкой, используемый многими приложениями. Лучший выбор для разработчиков или технических пользователей, которым нужно бесплатное самостоятельно размещаемое решение.
  • Adobe Acrobat online (ограниченно бесплатный): Adobe предлагает ограниченную бесплатную обработку OCR через свои онлайн-инструменты для пользователей без подписки.

Советы для повышения точности OCR

Качество OCR сильно зависит от качества исходного скана. Следуйте этим советам для максимальной точности:

  • Сканируйте при 300 DPI или выше: Сканы с низким разрешением дают размытые символы, которые OCR-движки читают неправильно. 300 DPI - минимум; 600 DPI - идеально для мелкого текста или подробных документов.
  • Используйте чёрно-белый режим для текстовых документов: Цветные сканы увеличивают размер файла, не улучшая точность OCR для простого текста. Чёрно-белый или оттенки серого вполне достаточны для большинства документов.
  • Держите страницы ровно: Наклонённые или скошенные страницы сбивают с толку программы OCR. Большинство современных инструментов могут автоматически выравнивать, но начинать ровно - лучше.
  • Избегайте пятен кофе и размазываний: Физические метки на документе распознаются как символы. По возможности очистите оригинал.
  • Проверяйте результат: OCR не даёт 100% точности. Всегда проверяйте результат, особенно числа, знаки препинания и рукописные разделы.

После OCR: уменьшите размер файла, если нужно

Обработка OCR иногда может увеличивать размер PDF-файла, поскольку добавляет скрытый текстовый слой поверх существующего слоя изображения. Если полученный файл слишком большой, используйте наш компрессор PDF, чтобы уменьшить размер без потери визуального качества.

Что делать, если OCR неправильно распознаёт текст?

Точность OCR зависит от качества исходного скана. Плохие результаты типичны при: очень мелких шрифтах (ниже 8pt), рукописном тексте, декоративных или нестандартных шрифтах, выцветших чернилах или некачественных сканах ниже 200 DPI. В таких случаях может потребоваться ручной ввод - или повторное сканирование оригинального документа с более высоким качеством перед повторным запуском OCR.

Часто задаваемые вопросы

Почему текст в моём PDF не выделяется?
Ваш PDF является отсканированным изображением, а не документом со встроенным текстовым слоем. Когда бумажный документ сканируется и сохраняется как PDF, результат - это по сути фотография страницы: пиксели в форме букв, но не настоящий текст. Чтобы сделать текст выделяемым, нужно запустить OCR для добавления текстового слоя.
Есть ли бесплатный способ сделать текст в отсканированном PDF выделяемым?
Да - Google Drive предлагает бесплатный OCR: загрузите PDF, нажмите правой кнопкой и откройте в Google Docs. Google автоматически распознает текст. Кроме того, наш конвертер PDF в Word извлекает содержимое в редактируемый документ. Для полностью бесплатного настольного решения Tesseract OCR является открытым исходным кодом и очень мощным.
Изменяет ли OCR внешний вид PDF?
Нет - OCR добавляет невидимый текстовый слой за существующим изображением. Визуальный вид PDF остаётся точно таким же. Вы просто получаете возможность выделять, копировать и искать текст. Единственное исключение - если вы конвертируете в Word и экспортируете обратно, где могут возникнуть незначительные изменения форматирования.
Насколько точен OCR для отсканированных документов?
Современный OCR точен на 95-99% для чистых, хорошо отсканированных документов при 300 DPI или выше. Точность значительно падает для сканов с низким разрешением, рукописного текста, нестандартных шрифтов или страниц с физическими повреждениями. Всегда проверяйте вывод перед использованием в важных документах.
Можно ли сделать рукописный текст в PDF выделяемым с помощью OCR?
Стандартный OCR плохо работает с рукописным текстом - он предназначен для печатного, набранного текста. Существуют специализированные инструменты распознавания рукописного текста, но они значительно менее точны, чем OCR для печатного текста. Если в документе смешаны печатный и рукописный текст, OCR правильно распознает печатные части, но, скорее всего, неправильно прочитает рукописные разделы.

Похожие статьи