OpenPDFTools

Skanerlangan PDF Matni Tanlanmaydi - OCR yordamida Qanday Tuzatish Mumkin

Martin Pavlič8-aprel, 2026 da yangilangan6 daqiqa o'qish
Ulashish
Skanerlangan PDF Matni Tanlanmaydi - OCR yordamida Qanday Tuzatish Mumkin

Nima uchun skanerlangan PDF-da matnni tanlash mumkin emas?

Hujjat jismoniy ravishda skanerlanganda va PDF sifatida saqlanganda, skaner sahifaning tekis rasmini oladi - xuddi fotosurat olishga o’xshaydi. Olingan fayl hech qanday haqiqiy matn belgilarini o’z ichiga olmaydi, faqat harflarga o’xshab joylashtirilgan piksellar mavjud. Shuning uchun hujjatning istalgan joyini bosish hech narsani tanlamaydi: kursoringiz ushlay oladigan matn qatlami yo’q.

Bu PDF-ning eng keng tarqalgan muammolaridan biri. Hujjat ekranda mukammal o’qiladigan ko’rinadi, lekin aslida PDF qobig’iga o’rnatilgan fotosuratdir. Uni qidirish, undan nusxa olish yoki ekran o’quvchisiga tahlil qilishiga ruxsat berish mumkin emas.

OCR nima va u qanday tuzatadi?

OCR (Optical Character Recognition) matn rasmini tahlil qilib, uni haqiqiy, mashina tomonidan o’qilishi mumkin bo’lgan belgilarga aylantiruvchi texnologiya. Dastur harflarning shakllarini ko’rib chiqadi, ularni ma’lum naqshlar bilan solishtiradi va PDF-ga qayta kiritiladigan matn qatlamini chiqaradi.

OCR ishlov berishdan so’ng, qidiriladigan va tanlanadigan PDF olasiz - vizual jihatdan asl nusxa bilan bir xil, lekin endi kursoringiz so’zlarni belgilay oladi, Ctrl+F iboralarni qidira oladi va nusxa olish-joylashtirish odatdagidek ishlaydi. Ekran o’quvchilari va qulaylik vositalari ham uni o’qiy oladi.

Skanerlangan PDF-ga OCR qanday qo’llaniladi

Skanerlangan PDF-ga OCR qo’shishning bir nechta yo’li mavjud, bepul brauzer vositalaridan tortib ish stoli dasturiy ta’minotiga qadar:

  • Word-ga aylantiring, so’ng PDF sifatida saqlang: Bizning PDF-ni Word-ga aylantiruvchi vositamiz vizual tarkibni chiqarib olib, tahrir qilinadigan Word hujjatiga aylantiradi. Word-ga kirgach, matn to’liq tanlanishi mumkin. Keyin to’g’ri matn qatlami bilan PDF sifatida qayta eksport qilish mumkin.
  • Adobe Acrobat (pullik): Sohaning standart vositasi. PDF-ni oching, Tools → Scan & OCR → Recognize Text-ga o’ting, Acrobat to’g’ridan-to’g’ri matn qatlamini qo’shadi. Qimmat, lekin juda aniq.
  • Google Drive (bepul): Skanerlangan PDF-ingizni Google Drive-ga yuklang, ustiga o’ng tugma bilan bosing va "Open with Google Docs"-ni tanlang. Google avtomatik ravishda OCR ishlatib, matnni Docs hujjatida ochadi. Toza skanerlar uchun ajoyib darajada yaxshi ishlaydi.
  • Tesseract OCR (bepul, ochiq manbali): Ko’p ilovalar tomonidan ishlatiladigan kuchli buyruq qatori OCR mexanizmi. Bepul o’z-o’ziga joylashtirilgan yechim istayotgan dasturchilar yoki texnik foydalanuvchilar uchun eng yaxshisi.
  • Adobe Acrobat onlayn (cheklangan bepul): Adobe obuna bo’lmagan foydalanuvchilar uchun o’z onlayn vositalari orqali cheklangan bepul OCR ishlovini taklif etadi.

Yaxshiroq OCR aniqligi uchun maslahatlar

OCR sifati asosiy skanerning sifatiga kuchli bog’liq. Aniqlikni maksimal darajada oshirish uchun ushbu maslahatlaringizga amal qiling:

  • 300 DPI yoki undan yuqorida skanlang: Past o’lchamli skanerlar OCR mexanizmlari noto’g’ri o’qiydigan xira belgilar hosil qiladi. 300 DPI - minimum; 600 DPI - kichik matn yoki batafsil hujjatlar uchun ideal.
  • Matn hujjatlari uchun qora-oq rangdan foydalaning: Rangli skanerlar oddiy matn uchun OCR aniqligini oshirmasdan fayl hajmini oshiradi. Qora-oq yoki kulrang aksariyat hujjatlar uchun yetarli.
  • Sahifalarni to’g’ri tuting: Qiyshiq yoki qiyshang’iq sahifalar OCR dasturini chalg’itadi. Zamonaviy vositalarning ko’pchiligi avtomatik to’g’irlay oladi, lekin to’g’ri boshlash yordam beradi.
  • Qahva dog’lari va iflosliklardan saqlaning: Hujjatdagi jismoniy belgilar belgi sifatida noto’g’ri o’qiladi. Iloji bo’lsa asl nusxani tozalang.
  • Natijani tekshiring: OCR 100% aniq emas. Natijani doimo ko’rib chiqing, ayniqsa raqamlar, tinish belgilari va qo’lda yozilgan bo’limlar uchun.

OCR-dan so’ng: kerak bo’lsa fayl hajmini kamaytiring

OCR ishlov berish ba’zida mavjud rasm qatlamining ustiga yashirin matn qatlamini qo’shganligi sababli PDF fayl hajmini oshirishi mumkin. Natijada olingan faylingiz juda katta bo’lsa, vizual sifatni yo’qotmasdan hajmni kamaytirish uchun bizning PDF kompressorimizdan foydalaning.

Agar OCR matnni to’g’ri tanisa-chi?

OCR aniqligi asosiy skanerning sifatiga bog’liq. Yomon natijalar bilan ko’p uchrasiladi: juda kichik shriftlar (8pt dan past), qo’l yozuvi, bezak yoki g’ayrioddiy shriftlar, o’chgan siyoh yoki 200 DPI dan past sifatsiz skanerlar. Bu holatlarda qo’lda qayta yozish zarur bo’lishi mumkin - yoki OCR-ni qayta ishlatishdan oldin asl hujjatni yuqori sifatda qayta skanlash.

Ko'p beriladigan savollar

Nima uchun PDF-imdagi matn tanlanmaydi?
PDF-ingiz skanerlangan rasm, o’rnatilgan matn qatlamiga ega hujjat emas. Qog’oz hujjat skanerlanganda va PDF sifatida saqlanganda, natija asosan sahifaning fotosuratidir - harflar shaklida piksellar, lekin haqiqiy matn emas. Tanlanadigan qilish uchun matn qatlamini qo’shish uchun OCR (Optical Character Recognition) ishlatish kerak.
Skanerlangan PDF matnini tanlanadigan qilishning bepul yo'li bormi?
Ha - Google Drive bepul OCR taklif etadi: PDF yuklang, ustiga o’ng tugma bilan bosing, Google Docs bilan oching. Google matnni avtomatik ravishda taniydi. Muqobil sifatida, PDF-ni Word-ga aylantiruvchi vositamiz tarkibni tahrir qilinadigan hujjatga chiqarib oladi. To’liq bepul ish stoli yechimi uchun Tesseract OCR ochiq manbali va juda kuchli.
OCR PDF ko'rinishini o'zgartiradi-mi?
Yo’q - OCR mavjud rasmning orqasiga ko’rinmas matn qatlamini qo’shadi. PDF-ning vizual ko’rinishi aynan shunday qoladi. Faqat matnni tanlash, nusxa olish va qidirish imkoniyatiga ega bo’lasiz. Yagona istisna Word-ga aylantirish va qayta eksport qilish, bu erda kichik formatlash o’zgarishlari yuz berishi mumkin.
OCR skanerlangan hujjatlarda qanchalik aniq?
Zamonaviy OCR 300 DPI yoki undan yuqorida toza, yaxshi skanerlangan hujjatlarda 95-99% aniq. Aniqlik past o’lchamli skanerlar, qo’l yozuvi, g’ayrioddiy shriftlar yoki jismoniy zarar ko’rgan sahifalar uchun sezilarli darajada kamayadi. Muhim hujjatlar uchun foydalanishdan oldin natijani doimo ko’rib chiqing.
OCR yordamida qo'lda yozilgan PDF matnini tanlanadigan qila olamanmi?
Standart OCR qo’l yozuvi ustida yomon ishlaydi - u chop etilgan, terilgan matn uchun mo’ljallangan. Ixtisoslashgan qo’l yozuvini tanish vositalari mavjud, lekin chop etilgan matn OCR-ga qaraganda ancha kam aniq. Agar hujjatda chop etilgan va qo’l yozuvi aralash bo’lsa, OCR chop etilgan qismlarni to’g’ri taniydi, lekin qo’l yozuvi bo’limlarini noto’g’ri o’qishi mumkin.

Tegishli maqolalar