OpenPDFTools

Taranan PDF'de Metin Seçilemiyor - OCR ile Nasıl Düzeltilir

Martin PavličGüncellendi 8 Nisan 20266 dk okuma
Paylaş
Taranan PDF'de Metin Seçilemiyor - OCR ile Nasıl Düzeltilir

Taranan bir PDF’de neden metin seçemiyorsunuz?

Bir belge fiziksel olarak tarandığında ve PDF olarak kaydedildiğinde, tarayıcı sayfanın düz bir görüntüsünü yakalar - tıpkı fotoğraf çekmek gibi. Ortaya çıkan dosya, gerçek metin karakterleri içermez; yalnızca harf gibi görünen piksellerden oluşur. Bu nedenle belgede herhangi bir yere tıklamak hiçbir şey seçmez: imlecinizin tutunabileceği bir metin katmanı yoktur.

Bu, en yaygın PDF sorunlarından biridir. Belge ekranda mükemmel okunabilir görünür, ancak aslında bir PDF sarmalayıcı içine gömülü bir fotoğraftır. Onu arayamazsınız, kopyalayamazsınız veya bir ekran okuyucusunun onu ayrıştırmasına izin veremezsiniz.

OCR nedir ve bunu nasıl düzeltir?

OCR (Optical Character Recognition), metin görüntüsünü analiz eden ve gerçek, makine tarafından okunabilir karakterlere dönüştüren bir teknolojidir. Yazılım, harflerin şekillerine bakar, bunları bilinen kalıplarla karşılaştırır ve PDF’e geri gömülen bir metin katmanı oluşturur.

OCR işleminden sonra, aranabilir, seçilebilir bir PDF elde edersiniz - görsel olarak orijinaliyle aynı, ancak artık imleciniz kelimeleri vurgulayabilir, Ctrl+F ifadeleri bulabilir ve kopyala-yapıştır normal çalışır. Ekran okuyucuları ve erişilebilirlik araçları da bunu okuyabilir.

Taranan bir PDF’e OCR nasıl uygulanır

Taranan bir PDF’e OCR eklemenin, ücretsiz tarayıcı araçlarından masaüstü yazılımlara kadar çeşitli yolları vardır:

  • Word’e dönüştürün, ardından PDF olarak kaydedin: PDF’den Word’e dönüştürücümüz, görsel içeriği çıkarır ve düzenlenebilir bir Word belgesine dönüştürür. Word’de metin tamamen seçilebilir hale gelir. Ardından, uygun bir metin katmanıyla PDF’e yeniden aktarabilirsiniz.
  • Adobe Acrobat (ücretli): Sektörün standart aracı. PDF’i açın, Araçlar → Tara & OCR → Metni Tanı’ya gidin ve Acrobat doğrudan bir metin katmanı ekler. Pahalı ama oldukça doğru.
  • Google Drive (ücretsiz): Taranan PDF’nizi Google Drive’a yükleyin, üzerine sağ tıklayın ve "Google Dokümanlar ile aç" seçeneğini belirleyin. Google otomatik olarak OCR çalıştırır ve metni Dokümanlar belgesinde açar. Temiz taramalar için şaşırtıcı derecede iyi çalışır.
  • Tesseract OCR (ücretsiz, açık kaynaklı): Birçok uygulama tarafından kullanılan güçlü bir komut satırı OCR motoru. Ücretsiz, kendi barındırmalı bir çözüm isteyen geliştiriciler veya teknik kullanıcılar için en iyisi.
  • Adobe Acrobat online (sınırlı ücretsiz): Adobe, aboneliği olmayan kullanıcılar için çevrimiçi araçları aracılığıyla sınırlı ücretsiz OCR işleme sunar.

Daha iyi OCR doğruluğu için ipuçları

OCR kalitesi büyük ölçüde orijinal taramanın kalitesine bağlıdır. Doğruluğu en üst düzeye çıkarmak için bu ipuçlarını izleyin:

  • 300 DPI veya daha yüksek çözünürlükte tarayın: Düşük çözünürlüklü taramalar, OCR motorlarının yanlış okuduğu bulanık karakterler üretir. 300 DPI minimumdur; 600 DPI küçük metin veya ayrıntılı belgeler için idealdir.
  • Metin belgeler için siyah-beyaz kullanın: Renkli taramalar, düz metin için OCR doğruluğunu iyileştirmeden dosya boyutunu artırır. Siyah-beyaz veya gri tonlamalı çoğu belge için yeterlidir.
  • Sayfaları düz tutun: Eğimli veya çarpık sayfalar OCR yazılımını yanıltır. Çoğu modern araç otomatik olarak eğimi düzeltebilir, ancak düz başlamak yardımcı olur.
  • Kahve lekelerinden ve izlerden kaçının: Belgedeki fiziksel işaretler karakter olarak yanlış okunur. Mümkünse orijinali temizleyin.
  • Çıktıyı kontrol edin: OCR %100 doğru değildir. Özellikle sayılar, noktalama işaretleri ve el yazısıyla yazılmış bölümler için sonucu her zaman kontrol edin.

OCR sonrası: gerekirse dosya boyutunu küçültün

OCR işlemi, mevcut görüntü katmanının üzerine gizli bir metin katmanı eklediğinden PDF dosya boyutunu bazen artırabilir. Ortaya çıkan dosya çok büyükse, görsel kaliteyi kaybetmeden boyutu küçültmek için PDF sıkıştırıcımızı kullanın.

OCR metni doğru tanımıyorsa ne yapmalı?

OCR doğruluğu, orijinal tarama kalitesine bağlıdır. Kötü sonuçlar şunlarla yaygındır: çok küçük yazı tipleri (8 pt altı), el yazısı metin, dekoratif veya alışılmadık yazı tipleri, soluk mürekkep veya 200 DPI altında düşük kaliteli taramalar. Bu durumlarda, manuel yeniden yazma gerekebilir - veya OCR’yi tekrar çalıştırmadan önce orijinal belgeyi daha yüksek kalitede yeniden taramak gerekebilir.

Sık Sorulan Sorular

PDF'imdeki metin neden seçilemiyor?
PDF’iniz taranan bir görüntüdür, gömülü metin katmanı olan bir belge değil. Kağıt bir belge taranıp PDF olarak kaydedildiğinde, sonuç aslında sayfanın fotoğrafıdır - harf şeklinde piksellerdir, gerçek metin değil. Seçilebilir hale getirmek için bir metin katmanı eklemek üzere OCR (Optical Character Recognition) çalıştırmanız gerekir.
Taranan PDF metnini seçilebilir yapmanın ücretsiz bir yolu var mı?
Evet - Google Drive ücretsiz OCR sunar: PDF’i yükleyin, üzerine sağ tıklayın ve Google Dokümanlar ile açın. Google metni otomatik olarak tanır. Alternatif olarak, PDF’den Word’e dönüştürücümüz içeriği düzenlenebilir bir belgeye çıkarır. Tamamen ücretsiz bir masaüstü çözümü için Tesseract OCR açık kaynaklıdır ve çok güçlüdür.
OCR PDF'in görünümünü değiştirir mi?
Hayır - OCR mevcut görüntünün arkasına görünmez bir metin katmanı ekler. PDF’in görsel görünümü tamamen aynı kalır. Sadece metni seçme, kopyalama ve arama yeteneği kazanırsınız. Tek istisna, Word’e dönüştürüp yeniden dışa aktarmanızdır; bu durumda küçük biçimlendirme değişiklikleri meydana gelebilir.
Taranan belgelerde OCR ne kadar doğrudur?
Modern OCR, 300 DPI veya daha yüksek çözünürlükte temiz, iyi taranmış belgelerde %95-99 doğrudur. Düşük çözünürlüklü taramalar, el yazısı, alışılmadık yazı tipleri veya fiziksel hasarı olan sayfalar için doğruluk önemli ölçüde düşer. Önemli belgeler için kullanmadan önce çıktıyı her zaman kontrol edin.
El yazısıyla yazılmış PDF metnini OCR ile seçilebilir yapabilir miyim?
Standart OCR el yazısında kötü performans gösterir - baskılı, yazılı metin için tasarlanmıştır. Özel el yazısı tanıma araçları mevcuttur ancak baskılı metin OCR’ye kıyasla çok daha az doğrudur. Belge baskı ve el yazısı karışımı içeriyorsa, OCR baskılı kısımları doğru tanır ancak büyük ihtimalle el yazısı bölümleri yanlış okur.

İlgili Makaleler