OpenPDFTools

스캔한 PDF 텍스트가 선택되지 않는 경우 - OCR로 수정하는 방법

Martin Pavlič2026년 4월 8일 업데이트됨6분 읽기
공유
스캔한 PDF 텍스트가 선택되지 않는 경우 - OCR로 수정하는 방법

스캔한 PDF에서 텍스트를 선택할 수 없는 이유는 무엇인가요?

문서가 물리적으로 스캔되어 PDF로 저장되면, 스캐너는 마치 사진을 찍는 것처럼 페이지의 평면 이미지를 캡처합니다. 생성된 파일에는 실제 텍스트 문자가 포함되지 않으며, 글자처럼 보이도록 배열된 픽셀만 있습니다. 그래서 문서의 어디를 클릭해도 아무것도 선택되지 않습니다. 커서가 잡을 텍스트 레이어가 없기 때문입니다.

이것은 PDF와 관련된 가장 일반적인 불만 중 하나입니다. 문서는 화면에서 완벽하게 읽을 수 있는 것처럼 보이지만, 본질적으로 PDF 래퍼에 삽입된 사진입니다. 검색하거나, 복사하거나, 스크린 리더로 파싱할 수 없습니다.

OCR이란 무엇이며 어떻게 이 문제를 해결하나요?

OCR(광학 문자 인식)은 텍스트 이미지를 분석하여 실제 기계 판독 가능한 문자로 변환하는 기술입니다. 소프트웨어는 글자의 모양을 살펴보고, 알려진 패턴과 비교하며, PDF에 다시 삽입되는 텍스트 레이어를 출력합니다.

OCR 처리 후에는 검색 및 선택 가능한 PDF를 얻을 수 있습니다. 시각적으로는 원본과 동일하지만, 이제 커서로 단어를 강조 표시하고, Ctrl+F로 구문을 찾고, 복사 붙여넣기가 정상적으로 작동합니다. 스크린 리더와 접근성 도구도 이를 읽을 수 있습니다.

스캔한 PDF에 OCR 적용하는 방법

스캔한 PDF에 OCR을 추가하는 방법에는 무료 브라우저 도구부터 데스크탑 소프트웨어까지 여러 가지가 있습니다:

  • Word로 변환 후 PDF로 저장: 저희 PDF to Word 변환기는 시각적 콘텐츠를 추출하여 편집 가능한 Word 문서로 변환합니다. Word에서 텍스트는 완전히 선택 가능합니다. 그런 다음 적절한 텍스트 레이어가 있는 PDF로 다시 내보낼 수 있습니다.
  • Adobe Acrobat(유료): 업계 표준 도구입니다. PDF를 열고, 도구 → 스캔 & OCR → 텍스트 인식으로 이동하면 Acrobat이 텍스트 레이어를 직접 추가합니다. 비싸지만 정확도가 높습니다.
  • Google Drive(무료): 스캔한 PDF를 Google Drive에 업로드하고, 마우스 오른쪽 버튼을 클릭하여 "Google 문서로 열기"를 선택합니다. Google이 자동으로 OCR을 실행하고 텍스트를 Docs 문서로 엽니다. 깨끗한 스캔에는 놀랍도록 잘 작동합니다.
  • Tesseract OCR(무료, 오픈소스): 많은 앱에서 사용하는 강력한 명령줄 OCR 엔진입니다. 무료 셀프 호스팅 솔루션을 원하는 개발자나 기술 사용자에게 최적입니다.
  • Adobe Acrobat 온라인(제한적 무료): Adobe는 구독 없는 사용자를 위해 온라인 도구를 통해 제한적인 무료 OCR 처리를 제공합니다.

더 나은 OCR 정확도를 위한 팁

OCR 품질은 원본 스캔의 품질에 크게 의존합니다. 정확도를 극대화하려면 다음 팁을 따르세요:

  • 300 DPI 이상으로 스캔: 저해상도 스캔은 OCR 엔진이 잘못 읽는 흐릿한 문자를 생성합니다. 300 DPI가 최소이며, 작은 텍스트나 상세한 문서에는 600 DPI가 이상적입니다.
  • 텍스트 문서에는 흑백 사용: 컬러 스캔은 일반 텍스트의 OCR 정확도를 개선하지 않고 파일 크기만 늘립니다. 대부분의 문서에는 흑백 또는 그레이스케일로 충분합니다.
  • 페이지를 똑바로 유지: 기울어진 페이지는 OCR 소프트웨어를 혼란시킵니다. 최신 도구는 대부분 자동 기울기 보정이 가능하지만, 처음부터 똑바로 스캔하는 것이 도움이 됩니다.
  • 커피 얼룩과 지저분한 자국 방지: 문서의 물리적 흔적은 문자로 잘못 읽힙니다. 가능하면 원본을 깨끗이 하세요.
  • 출력 확인: OCR은 100% 정확하지 않습니다. 특히 숫자, 구두점, 손으로 쓴 부분에 대해 항상 결과를 교정하세요.

OCR 후: 필요한 경우 파일 크기 줄이기

OCR 처리는 기존 이미지 레이어 위에 숨겨진 텍스트 레이어를 추가하기 때문에 PDF 파일 크기가 증가할 수 있습니다. 결과 파일이 너무 크다면, 저희 PDF 압축기를 사용하여 시각적 품질을 잃지 않고 크기를 줄이세요.

OCR이 텍스트를 올바르게 인식하지 못하는 경우는?

OCR 정확도는 원본 스캔 품질에 달려 있습니다. 결과가 좋지 않은 경우는: 매우 작은 폰트(8pt 이하), 손으로 쓴 텍스트, 장식적이거나 특이한 폰트, 색이 바랜 잉크, 또는 200 DPI 이하의 저품질 스캔입니다. 이런 경우에는 수동으로 다시 입력하거나, OCR을 다시 실행하기 전에 원본 문서를 더 높은 품질로 재스캔해야 할 수 있습니다.

자주 묻는 질문

PDF에서 텍스트가 선택되지 않는 이유는 무엇인가요?
PDF가 스캔된 이미지이며, 삽입된 텍스트 레이어가 있는 문서가 아닙니다. 종이 문서가 스캔되어 PDF로 저장되면, 결과는 본질적으로 페이지의 사진입니다 - 글자처럼 생긴 픽셀이지만 실제 텍스트가 아닙니다. 선택 가능하게 만들려면 텍스트 레이어를 추가하는 OCR(광학 문자 인식)을 실행해야 합니다.
스캔한 PDF 텍스트를 무료로 선택 가능하게 만드는 방법이 있나요?
네 - Google Drive는 무료 OCR을 제공합니다: PDF를 업로드하고, 마우스 오른쪽 버튼을 클릭한 후 Google 문서로 엽니다. Google이 자동으로 텍스트를 인식합니다. 또는 저희 PDF to Word 변환기로 내용을 편집 가능한 문서로 추출할 수 있습니다. 완전히 무료인 데스크탑 솔루션으로는 Tesseract OCR이 오픈소스이며 매우 강력합니다.
OCR은 PDF의 외관을 변경하나요?
아니요 - OCR은 기존 이미지 뒤에 보이지 않는 텍스트 레이어를 추가합니다. PDF의 시각적 외관은 정확히 동일하게 유지됩니다. 텍스트를 선택하고, 복사하고, 검색할 수 있는 기능만 추가됩니다. 유일한 예외는 Word로 변환 후 다시 내보내는 경우로, 사소한 서식 변경이 발생할 수 있습니다.
스캔 문서에서 OCR의 정확도는 어느 정도인가요?
최신 OCR은 300 DPI 이상의 깨끗하게 스캔된 문서에서 95~99%의 정확도를 가집니다. 저해상도 스캔, 손글씨, 특이한 폰트, 물리적 손상이 있는 페이지에서는 정확도가 크게 떨어집니다. 중요한 문서에 사용하기 전에 항상 출력을 교정하세요.
OCR로 손으로 쓴 PDF 텍스트를 선택 가능하게 만들 수 있나요?
표준 OCR은 손글씨에서 성능이 좋지 않습니다 - 인쇄된 타이핑 텍스트를 위해 설계되었습니다. 특화된 손글씨 인식 도구가 존재하지만, 인쇄 텍스트 OCR보다 훨씬 정확도가 낮습니다. 문서에 인쇄와 손글씨가 혼합되어 있으면, OCR은 인쇄된 부분은 올바르게 인식하지만 손으로 쓴 부분은 잘못 읽을 가능성이 높습니다.

관련 기사