OpenPDFTools

Văn bản PDF đã quét không thể chọn - Cách khắc phục bằng OCR

Martin PavličĐã cập nhật 8 tháng 4, 20266 phút đọc
Chia sẻ
Văn bản PDF đã quét không thể chọn - Cách khắc phục bằng OCR

Tại sao không thể chọn văn bản trong PDF đã quét?

Khi tài liệu được quét vật lý và lưu dưới dạng PDF, máy quét chụp một hình ảnh phẳng của trang - giống như chụp ảnh. File kết quả không chứa ký tự văn bản thực, chỉ là các pixel được sắp xếp trông giống như chữ cái. Đó là lý do tại sao nhấp vào bất kỳ đâu trong tài liệu đều không chọn được gì: không có lớp văn bản nào để con trỏ bắt được.

Đây là một trong những vấn đề phổ biến nhất với PDF. Tài liệu trông hoàn toàn có thể đọc được trên màn hình, nhưng về bản chất là một bức ảnh được nhúng trong vỏ bọc PDF. Bạn không thể tìm kiếm, sao chép hoặc cho trình đọc màn hình phân tích nó.

OCR là gì và cách nó khắc phục vấn đề này?

OCR (Nhận dạng ký tự quang học) là công nghệ phân tích hình ảnh văn bản và chuyển đổi thành các ký tự thực sự có thể đọc được bằng máy. Phần mềm nhìn vào hình dạng của các chữ cái, so sánh với các mẫu đã biết và xuất ra lớp văn bản được nhúng trở lại vào PDF.

Sau khi xử lý OCR, bạn sẽ có một PDF có thể tìm kiếm và chọn văn bản - trông giống hệt bản gốc nhưng giờ đây con trỏ có thể đánh dấu các từ, Ctrl+F có thể tìm kiếm cụm từ và sao chép-dán hoạt động bình thường. Trình đọc màn hình và các công cụ trợ năng cũng có thể đọc được.

Cách áp dụng OCR cho PDF đã quét

Có nhiều cách để thêm OCR vào PDF đã quét, từ công cụ trình duyệt miễn phí đến phần mềm máy tính để bàn:

  • Chuyển đổi sang Word, sau đó lưu dưới dạng PDF: Công cụ chuyển đổi PDF sang Word của chúng tôi trích xuất nội dung trực quan và chuyển đổi thành tài liệu Word có thể chỉnh sửa. Khi đã ở trong Word, văn bản hoàn toàn có thể chọn được. Sau đó bạn có thể xuất lại thành PDF với lớp văn bản đúng cách.
  • Adobe Acrobat (có phí): Công cụ tiêu chuẩn trong ngành. Mở PDF, đến Công cụ → Quét & OCR → Nhận dạng văn bản, và Acrobat thêm lớp văn bản trực tiếp. Đắt tiền nhưng độ chính xác cao.
  • Google Drive (miễn phí): Tải PDF đã quét lên Google Drive, nhấp chuột phải và chọn "Mở bằng Google Tài liệu." Google tự động chạy OCR và mở văn bản trong tài liệu Docs. Hoạt động khá tốt cho các bản quét rõ ràng.
  • Tesseract OCR (miễn phí, mã nguồn mở): Công cụ OCR dòng lệnh mạnh mẽ được nhiều ứng dụng sử dụng. Phù hợp nhất cho các nhà phát triển hoặc người dùng kỹ thuật muốn giải pháp tự lưu trữ miễn phí.
  • Adobe Acrobat trực tuyến (miễn phí có giới hạn): Adobe cung cấp xử lý OCR miễn phí có giới hạn thông qua các công cụ trực tuyến của họ cho người dùng không có đăng ký.

Mẹo để có độ chính xác OCR tốt hơn

Chất lượng OCR phụ thuộc rất nhiều vào chất lượng của bản quét gốc. Hãy làm theo các mẹo sau để tối đa hóa độ chính xác:

  • Quét ở 300 DPI hoặc cao hơn: Bản quét độ phân giải thấp tạo ra các ký tự mờ mà công cụ OCR đọc sai. 300 DPI là mức tối thiểu; 600 DPI là lý tưởng cho văn bản nhỏ hoặc tài liệu chi tiết.
  • Dùng đen trắng cho tài liệu văn bản: Bản quét màu làm tăng kích thước file mà không cải thiện độ chính xác OCR cho văn bản thuần túy. Đen trắng hoặc thang xám là đủ cho hầu hết tài liệu.
  • Giữ trang thẳng: Trang bị nghiêng hoặc lệch gây nhầm lẫn cho phần mềm OCR. Hầu hết các công cụ hiện đại có thể tự động chỉnh thẳng, nhưng bắt đầu thẳng sẽ giúp ích.
  • Tránh vết cà phê và ố bẩn: Các vết bẩn vật lý trên tài liệu bị đọc nhầm thành ký tự. Hãy vệ sinh bản gốc nếu có thể.
  • Kiểm tra kết quả đầu ra: OCR không chính xác 100%. Luôn kiểm tra lại kết quả, đặc biệt là số, dấu câu và các phần viết tay.

Sau OCR: giảm kích thước file nếu cần

Xử lý OCR đôi khi có thể làm tăng kích thước file PDF vì nó thêm lớp văn bản ẩn lên trên lớp hình ảnh hiện có. Nếu file kết quả quá lớn, hãy sử dụng công cụ nén PDF của chúng tôi để giảm kích thước mà không mất chất lượng hình ảnh.

Nếu OCR không nhận dạng văn bản đúng?

Độ chính xác OCR phụ thuộc vào chất lượng quét gốc. Kết quả kém thường gặp với: font chữ rất nhỏ (dưới 8pt), văn bản viết tay, font trang trí hoặc không phổ biến, mực bị mờ, hoặc bản quét chất lượng thấp dưới 200 DPI. Trong những trường hợp này, có thể cần gõ lại thủ công - hoặc quét lại tài liệu gốc ở chất lượng cao hơn trước khi chạy OCR lại.

Câu hỏi thường gặp

Tại sao văn bản trong PDF của tôi không thể chọn?
PDF của bạn là hình ảnh đã quét, không phải tài liệu có lớp văn bản nhúng. Khi tài liệu giấy được quét và lưu dưới dạng PDF, kết quả về bản chất là một bức ảnh của trang - các pixel có hình dạng như chữ cái, nhưng không phải văn bản thực. Để có thể chọn văn bản, bạn cần chạy OCR (Nhận dạng ký tự quang học) để thêm lớp văn bản.
Có cách miễn phí để làm cho văn bản PDF đã quét có thể chọn không?
Có - Google Drive cung cấp OCR miễn phí: tải PDF lên, nhấp chuột phải và mở bằng Google Tài liệu. Google tự động nhận dạng văn bản. Ngoài ra, công cụ chuyển đổi PDF sang Word của chúng tôi trích xuất nội dung thành tài liệu có thể chỉnh sửa. Đối với giải pháp máy tính để bàn hoàn toàn miễn phí, Tesseract OCR là mã nguồn mở và rất mạnh mẽ.
OCR có thay đổi giao diện PDF không?
Không - OCR thêm lớp văn bản vô hình phía sau hình ảnh hiện có. Giao diện trực quan của PDF vẫn hoàn toàn giống nhau. Bạn chỉ có thêm khả năng chọn, sao chép và tìm kiếm văn bản. Ngoại lệ duy nhất là khi bạn chuyển đổi sang Word và xuất lại, có thể xảy ra thay đổi định dạng nhỏ.
OCR trên tài liệu đã quét chính xác đến mức nào?
OCR hiện đại có độ chính xác 95-99% trên tài liệu quét sạch, rõ ràng ở 300 DPI hoặc cao hơn. Độ chính xác giảm đáng kể đối với bản quét độ phân giải thấp, chữ viết tay, font không phổ biến hoặc trang bị hư hỏng vật lý. Luôn kiểm tra lại kết quả trước khi dùng cho tài liệu quan trọng.
Có thể dùng OCR để làm cho văn bản viết tay trong PDF có thể chọn không?
OCR tiêu chuẩn hoạt động kém với chữ viết tay - nó được thiết kế cho văn bản in, đánh máy. Các công cụ nhận dạng chữ viết tay chuyên dụng tồn tại nhưng kém chính xác hơn nhiều so với OCR văn bản in. Nếu tài liệu có cả in và viết tay, OCR sẽ nhận dạng đúng phần in nhưng có khả năng đọc sai các phần viết tay.

bài viết liên quan