OpenPDFTools

ข้อความใน PDF ที่สแกนไม่สามารถเลือกได้ - วิธีแก้ไขด้วย OCR

Martin Pavličอัปเดต 8 เมษายน 25696 นาทีที่อ่าน
แบ่งปัน
ข้อความใน PDF ที่สแกนไม่สามารถเลือกได้ - วิธีแก้ไขด้วย OCR

ทำไมจึงไม่สามารถเลือกข้อความใน PDF ที่สแกนได้?

เมื่อเอกสารถูกสแกนทางกายภาพและบันทึกเป็น PDF เครื่องสแกนจะจับภาพแบนราบของหน้า - เหมือนกับการถ่ายรูป ไฟล์ที่ได้ไม่มีอักขระข้อความจริง มีเพียงพิกเซลที่จัดเรียงให้ดูเหมือนตัวอักษร นั่นคือเหตุผลว่าทำไมการคลิกที่ใดก็ตามในเอกสารจึงไม่เลือกสิ่งใด: ไม่มีชั้นข้อความให้เคอร์เซอร์จับ

นี่เป็นหนึ่งในความหงุดหงิดที่พบบ่อยที่สุดเกี่ยวกับ PDF เอกสารดูเหมือนอ่านได้อย่างสมบูรณ์แบบบนหน้าจอ แต่โดยพื้นฐานแล้วเป็นรูปถ่ายที่ฝังอยู่ใน PDF wrapper คุณไม่สามารถค้นหา คัดลอก หรือให้โปรแกรมอ่านหน้าจอวิเคราะห์ได้

OCR คืออะไรและแก้ไขปัญหานี้อย่างไร?

OCR (การรู้จำอักขระด้วยแสง) คือเทคโนโลยีที่วิเคราะห์ภาพของข้อความและแปลงเป็นอักขระจริงที่เครื่องอ่านได้ ซอฟต์แวร์จะดูที่รูปร่างของตัวอักษร เปรียบเทียบกับรูปแบบที่รู้จัก และส่งออกชั้นข้อความที่ฝังกลับเข้าไปใน PDF

หลังการประมวลผล OCR คุณจะได้ PDF ที่ค้นหาและเลือกได้ - มีลักษณะเหมือนต้นฉบับทุกประการ แต่ตอนนี้เคอร์เซอร์สามารถไฮไลต์คำ Ctrl+F สามารถค้นหาวลี และการคัดลอก-วางทำงานปกติ โปรแกรมอ่านหน้าจอและเครื่องมือการเข้าถึงก็อ่านได้เช่นกัน

วิธีใช้ OCR กับ PDF ที่สแกน

มีหลายวิธีในการเพิ่ม OCR ให้กับ PDF ที่สแกน ตั้งแต่เครื่องมือเบราว์เซอร์ฟรีไปจนถึงซอฟต์แวร์เดสก์ท็อป:

  • แปลงเป็น Word แล้วบันทึกเป็น PDF: ตัวแปลง PDF เป็น Word ของเราจะดึงเนื้อหาภาพและแปลงเป็นเอกสาร Word ที่แก้ไขได้ ใน Word ข้อความจะเลือกได้อย่างสมบูรณ์ จากนั้นคุณสามารถส่งออกกลับเป็น PDF ที่มีชั้นข้อความที่เหมาะสม
  • Adobe Acrobat (มีค่าใช้จ่าย): เครื่องมือมาตรฐานของอุตสาหกรรม เปิด PDF ไปที่ Tools → Scan & OCR → Recognize Text และ Acrobat จะเพิ่มชั้นข้อความโดยตรง ราคาแพงแต่มีความแม่นยำสูง
  • Google Drive (ฟรี): อัปโหลด PDF ที่สแกนไปยัง Google Drive คลิกขวา และเลือก "เปิดด้วย Google Docs" Google จะรัน OCR โดยอัตโนมัติและเปิดข้อความในเอกสาร Docs ทำงานได้ดีสำหรับการสแกนที่ชัดเจน
  • Tesseract OCR (ฟรี โอเพนซอร์ส): เครื่องมือ OCR แบบบรรทัดคำสั่งที่ทรงพลังซึ่งใช้โดยหลายแอป เหมาะสมที่สุดสำหรับนักพัฒนาหรือผู้ใช้ทางเทคนิคที่ต้องการโซลูชันแบบ self-hosted ฟรี
  • Adobe Acrobat ออนไลน์ (ฟรีจำกัด): Adobe เสนอการประมวลผล OCR ฟรีจำกัดผ่านเครื่องมือออนไลน์สำหรับผู้ใช้ที่ไม่มีการสมัครสมาชิก

เคล็ดลับเพื่อความแม่นยำ OCR ที่ดีขึ้น

คุณภาพ OCR ขึ้นอยู่กับคุณภาพของการสแกนต้นฉบับเป็นอย่างมาก ทำตามเคล็ดลับเหล่านี้เพื่อเพิ่มความแม่นยำสูงสุด:

  • สแกนที่ 300 DPI หรือสูงกว่า: การสแกนความละเอียดต่ำจะสร้างอักขระที่เบลอซึ่ง OCR engine อ่านผิด 300 DPI คือขั้นต่ำ; 600 DPI เหมาะสำหรับข้อความขนาดเล็กหรือเอกสารที่มีรายละเอียด
  • ใช้ขาวดำสำหรับเอกสารข้อความ: การสแกนสีจะเพิ่มขนาดไฟล์โดยไม่ปรับปรุงความแม่นยำ OCR สำหรับข้อความธรรมดา ขาวดำหรือระดับสีเทาเพียงพอสำหรับเอกสารส่วนใหญ่
  • รักษาหน้าให้ตรง: หน้าที่เอียงหรือบิดจะทำให้ซอฟต์แวร์ OCR สับสน เครื่องมือสมัยใหม่ส่วนใหญ่สามารถปรับให้ตรงอัตโนมัติ แต่การเริ่มต้นให้ตรงจะช่วยได้
  • หลีกเลี่ยงรอยกาแฟและคราบสกปรก: รอยทางกายภาพบนเอกสารจะถูกอ่านเป็นอักขระ ทำความสะอาดต้นฉบับหากเป็นไปได้
  • ตรวจสอบผลลัพธ์: OCR ไม่แม่นยำ 100% ตรวจสอบผลลัพธ์เสมอ โดยเฉพาะสำหรับตัวเลข เครื่องหมายวรรคตอน และส่วนที่เขียนด้วยมือ

หลังจาก OCR: ลดขนาดไฟล์หากจำเป็น

การประมวลผล OCR บางครั้งอาจเพิ่มขนาดไฟล์ PDF เพราะเพิ่มชั้นข้อความที่ซ่อนอยู่ด้านบนของชั้นรูปภาพที่มีอยู่ หากไฟล์ที่ได้มีขนาดใหญ่เกินไป ให้ใช้ ตัวบีบอัด PDF ของเราเพื่อลดขนาดโดยไม่สูญเสียคุณภาพภาพ

ถ้า OCR ไม่รู้จำข้อความอย่างถูกต้องจะทำอย่างไร?

ความแม่นยำของ OCR ขึ้นอยู่กับคุณภาพของการสแกนต้นฉบับ ผลลัพธ์ที่ไม่ดีพบบ่อยใน: แบบอักษรที่เล็กมาก (ต่ำกว่า 8pt) ข้อความลายมือเขียน แบบอักษรตกแต่งหรือผิดปกติ หมึกที่เลือนราง หรือการสแกนคุณภาพต่ำต่ำกว่า 200 DPI ในกรณีเหล่านี้ อาจจำเป็นต้องพิมพ์ใหม่ด้วยตนเอง - หรือสแกนต้นฉบับใหม่ด้วยคุณภาพที่สูงกว่าก่อนที่จะรัน OCR อีกครั้ง

คำถามที่พบบ่อย

ทำไมข้อความใน PDF ของฉันจึงไม่สามารถเลือกได้?
PDF ของคุณเป็นรูปภาพที่สแกน ไม่ใช่เอกสารที่มีชั้นข้อความฝังอยู่ เมื่อเอกสารกระดาษถูกสแกนและบันทึกเป็น PDF ผลลัพธ์โดยพื้นฐานคือรูปถ่ายของหน้า - พิกเซลที่มีรูปร่างเหมือนตัวอักษร แต่ไม่ใช่ข้อความจริง เพื่อให้เลือกได้ คุณต้องรัน OCR (การรู้จำอักขระด้วยแสง) เพื่อเพิ่มชั้นข้อความ
มีวิธีฟรีในการทำให้ข้อความ PDF ที่สแกนเลือกได้ไหม?
ใช่ - Google Drive เสนอ OCR ฟรี: อัปโหลด PDF คลิกขวาและเปิดด้วย Google Docs Google รู้จำข้อความโดยอัตโนมัติ หรือตัวแปลง PDF เป็น Word ของเราจะดึงเนื้อหาออกเป็นเอกสารที่แก้ไขได้ สำหรับโซลูชันเดสก์ท็อปฟรีอย่างสมบูรณ์ Tesseract OCR คือโอเพนซอร์สและทรงพลังมาก
OCR เปลี่ยนลักษณะของ PDF ไหม?
ไม่ - OCR เพิ่มชั้นข้อความที่มองไม่เห็นด้านหลังรูปภาพที่มีอยู่ ลักษณะภาพของ PDF ยังคงเหมือนเดิมทุกประการ คุณเพียงได้รับความสามารถในการเลือก คัดลอก และค้นหาข้อความ ข้อยกเว้นเดียวคือหากคุณแปลงเป็น Word และส่งออกใหม่ ซึ่งอาจเกิดการเปลี่ยนแปลงการจัดรูปแบบเล็กน้อย
OCR แม่นยำแค่ไหนสำหรับเอกสารที่สแกน?
OCR สมัยใหม่มีความแม่นยำ 95-99% สำหรับเอกสารที่สแกนสะอาดและชัดเจนที่ 300 DPI หรือสูงกว่า ความแม่นยำลดลงอย่างมีนัยสำคัญสำหรับการสแกนความละเอียดต่ำ ลายมือเขียน แบบอักษรผิดปกติ หรือหน้าที่มีความเสียหายทางกายภาพ ตรวจสอบผลลัพธ์เสมอก่อนใช้งานกับเอกสารสำคัญ
ฉันสามารถทำให้ข้อความลายมือเขียนใน PDF เลือกได้ด้วย OCR ไหม?
OCR มาตรฐานทำงานได้ไม่ดีกับลายมือเขียน - มันออกแบบมาสำหรับข้อความที่พิมพ์และดีดพิมพ์ เครื่องมือการรู้จำลายมือเขียนเฉพาะทางมีอยู่แต่มีความแม่นยำต่ำกว่า OCR ข้อความที่พิมพ์มาก หากเอกสารมีทั้งสิ่งพิมพ์และลายมือเขียน OCR จะรู้จำส่วนที่พิมพ์ได้อย่างถูกต้อง แต่มีแนวโน้มที่จะอ่านผิดในส่วนลายมือเขียน

บทความที่เกี่ยวข้อง

แบบอักษรที่ฝังหายไปใน PDF? แก้ไขการแสดงข้อความที่ไม่ถูกต้องใน 7 ขั้นตอน

หากข้อความ PDF ของคุณดูแตกต่างไปจากอุปกรณ์อื่น มักจะเป็นสาเหตุว่าทำไมแบบอักษรที่ฝังหายไป ต่อไปนี้เป็นวิธีการวินิจฉัยและแก้ไขอย่างรวดเร็ว ✅

6 นาทีที่อ่าน

PDF เกิดภาพพร่ามัวหลังจากการบีบอัด? 7 วิธีในการรักษาคุณภาพ (2026)

บีบอัด PDF แล้วตอนนี้ข้อความหรือรูปภาพดูพร่ามัวใช่ไหม เรียนรู้ว่าทำไมคุณภาพถึงลดลง และวิธีลดขนาดไฟล์โดยไม่ทำลายความสามารถในการอ่าน ✅

6 นาทีที่อ่าน

ไม่สามารถเปิด PDF บน iPhone หรือ Android ได้ใช่ไหม 6 การแก้ไขทันที (2026)

กำลังดิ้นรนเพื่อเปิดไฟล์ PDF บน iPhone หรือ Android ของคุณใช่ไหม? เรียนรู้ว่าเหตุใดคุณจึงอาจเห็นหน้าจอว่างเปล่า และวิธีดูเอกสารโดยไม่ต้องติดตั้งแอพจำนวนมาก ✅

5 นาทีที่อ่าน