OpenPDFTools

טקסט ב-PDF סרוק אינו ניתן לבחירה - כיצד לתקן זאת עם OCR

Martin Pavličעודכן 8 באפריל 20266 דקות קריאה
שתף
טקסט ב-PDF סרוק אינו ניתן לבחירה - כיצד לתקן זאת עם OCR

מדוע לא ניתן לבחור טקסט ב-PDF סרוק?

כאשר מסמך נסרק פיזית ונשמר כ-PDF, הסורק מצלם תמונה שטוחה של הדף - בדיוק כמו צילום תמונה. הקובץ המתקבל אינו מכיל תווי טקסט ממשיים, רק פיקסלים המסודרים כך שייראו כמו אותיות. לכן לחיצה בכל מקום במסמך לא בוחרת דבר: אין שכבת טקסט שהסמן יכול לאחוז בה.

זו אחת הבעיות הנפוצות ביותר עם PDF. המסמך נראה קריא לחלוטין על המסך, אך הוא למעשה תצלום המוטמע בתוך עטיפת PDF. לא ניתן לחפש בו, להעתיק ממנו, ואף קורא מסך לא יכול לפענח אותו.

מהו OCR וכיצד הוא מתקן זאת?

OCR (Optical Character Recognition) היא טכנולוגיה שמנתחת את תמונת הטקסט וממירה אותה לתווים ממשיים הניתנים לקריאה על ידי מחשב. התוכנה בוחנת את צורות האותיות, משווה אותן לתבניות ידועות, ומייצרת שכבת טקסט המוטמעת בחזרה ב-PDF.

לאחר עיבוד OCR, תקבלו PDF ניתן לחיפוש ולבחירה - זהה ויזואלית למקור, אך כעת הסמן יכול לסמן מילים, Ctrl+F יכול למצוא ביטויים, והעתקה-הדבקה פועלת כרגיל. קוראי מסך וכלי נגישות יכולים לקרוא אותו גם כן.

כיצד להחיל OCR על PDF סרוק

ישנן מספר דרכים להוסיף OCR ל-PDF סרוק, מכלי דפדפן חינמיים ועד תוכנות שולחן עבודה:

  • המירו ל-Word, ולאחר מכן שמרו כ-PDF: ממיר ה-PDF ל-Word שלנו מחלץ את התוכן הוויזואלי וממיר אותו למסמך Word הניתן לעריכה. ב-Word הטקסט ניתן לבחירה מלאה. לאחר מכן ניתן לייצא מחדש ל-PDF עם שכבת טקסט מתאימה.
  • Adobe Acrobat (בתשלום): הכלי התעשייתי הסטנדרטי. פתחו את ה-PDF, עברו לכלים → סריקה & OCR → זהה טקסט, ו-Acrobat מוסיף שכבת טקסט ישירות. יקר אך מדויק מאוד.
  • Google Drive (חינם): העלו את ה-PDF הסרוק ל-Google Drive, לחצו עליו לחיצה ימנית, ובחרו "פתח עם Google Docs." Google מריץ OCR אוטומטית ופותח את הטקסט במסמך Docs. פועל באופן מפתיע טוב עבור סריקות נקיות.
  • Tesseract OCR (חינם, קוד פתוח): מנוע OCR חזק של שורת פקודה המשמש יישומים רבים. המתאים ביותר למפתחים או למשתמשים טכניים שרוצים פתרון חינמי מתארח עצמאית.
  • Adobe Acrobat online (חינם מוגבל): Adobe מציעה עיבוד OCR חינמי מוגבל דרך כלי המקוונים שלה עבור משתמשים ללא מנוי.

טיפים לדיוק OCR טוב יותר

איכות OCR תלויה מאוד באיכות הסריקה המקורית. פעלו לפי הטיפים האלו כדי למקסם את הדיוק:

  • סרקו ב-300 DPI ומעלה: סריקות ברזולוציה נמוכה יותר מייצרות תווים מטושטשים שמנועי OCR קוראים שגוי. 300 DPI הוא המינימום; 600 DPI אידיאלי לטקסט קטן או מסמכים מפורטים.
  • השתמשו בשחור-לבן עבור מסמכי טקסט: סריקות צבעוניות מגדילות את גודל הקובץ מבלי לשפר את דיוק OCR לטקסט רגיל. שחור-לבן או גוני אפור מספיקים לרוב המסמכים.
  • שמרו על עמודים ישרים: עמודים מוטים או עקומים מבלבלים תוכנות OCR. רוב הכלים המודרניים יכולים לישר אוטומטית, אך התחלה ישרה מסייעת.
  • הימנעו מכתמי קפה ומריחות: סימנים פיזיים על המסמך נקראים שגוי כתווים. נקו את המקור אם אפשרי.
  • בדקו את הפלט: OCR אינו מדויק ב-100%. תמיד בדקו את התוצאה, במיוחד עבור מספרים, פיסוק וחלקים כתובים ביד.

לאחר OCR: צמצמו את גודל הקובץ במידת הצורך

עיבוד OCR יכול לפעמים להגדיל את גודל קובץ ה-PDF מכיוון שהוא מוסיף שכבת טקסט נסתרת מעל שכבת התמונה הקיימת. אם הקובץ המתקבל גדול מדי, השתמשו בדחסן ה-PDF שלנו כדי להפחית את הגודל מבלי לאבד איכות ויזואלית.

מה לעשות אם OCR לא מזהה את הטקסט כראוי?

דיוק OCR תלוי באיכות הסריקה המקורית. תוצאות ירודות נפוצות עם: גופנים קטנים מאוד (מתחת ל-8 נקודות), טקסט כתוב ביד, גופנים דקורטיביים או חריגים, דיו דהוי, או סריקות באיכות נמוכה מתחת ל-200 DPI. במקרים אלו, הקלדה מחדש ידנית עשויה להיות הכרחית - או סריקה מחדש של המסמך המקורי באיכות גבוהה יותר לפני הפעלת OCR שוב.

שאלות נפוצות

מדוע הטקסט ב-PDF שלי אינו ניתן לבחירה?
ה-PDF שלכם הוא תמונה סרוקה, לא מסמך עם שכבת טקסט מוטמעת. כאשר מסמך נייר נסרק ונשמר כ-PDF, התוצאה היא למעשה צילום של הדף - פיקסלים בצורת אותיות, אך לא טקסט ממשי. כדי להפוך אותו לניתן לבחירה, עליכם להריץ OCR (Optical Character Recognition) כדי להוסיף שכבת טקסט.
האם יש דרך חינמית להפוך טקסט PDF סרוק לניתן לבחירה?
כן - Google Drive מציע OCR חינמי: העלו את ה-PDF, לחצו עליו לחיצה ימנית ופתחו עם Google Docs. Google מזהה את הטקסט אוטומטית. לחלופין, ממיר ה-PDF ל-Word שלנו מחלץ את התוכן למסמך הניתן לעריכה. לפתרון שולחן עבודה חינמי לחלוטין, Tesseract OCR הוא קוד פתוח וחזק מאוד.
האם OCR משנה את מראה ה-PDF?
לא - OCR מוסיף שכבת טקסט בלתי נראית מאחורי התמונה הקיימת. המראה הוויזואלי של ה-PDF נשאר בדיוק זהה. רק מרוויחים את היכולת לבחור, להעתיק ולחפש טקסט. החריג היחיד הוא אם ממירים ל-Word ומייצאים מחדש, שם עלולים להתרחש שינויי עיצוב קלים.
כמה מדויק OCR במסמכים סרוקים?
OCR מודרני הוא מדויק ב-95-99% במסמכים נקיים הסרוקים היטב ב-300 DPI ומעלה. הדיוק יורד משמעותית עבור סריקות ברזולוציה נמוכה, כתב יד, גופנים חריגים, או עמודים עם נזק פיזי. תמיד בדקו את הפלט לפני שסומכים עליו למסמכים חשובים.
האם ניתן להפוך טקסט כתוב ביד ב-PDF לניתן לבחירה עם OCR?
OCR סטנדרטי פועל בצורה ירודה על כתב יד - הוא מיועד לטקסט מודפס ומוקלד. קיימים כלי זיהוי כתב יד מיוחדים, אך הם הרבה פחות מדויקים מ-OCR לטקסט מודפס. אם במסמך יש שילוב של הדפסה וכתב יד, OCR יזהה נכון את החלקים המודפסים אך ככל הנראה יקרא שגוי את החלקים הכתובים ביד.

מאמרים קשורים