Bölüm 17: OCR Filters¶
Genel Bakış¶
OCR Filter Rules, dosya içeriklerini OCR (Optical Character Recognition) ile tarayarak, çıkarılan metindeki kalıplara göre yükleme işlemlerini engelleyen veya denetleyen gelişmiş bir güvenlik katmanıdır. MIME Filters yalnızca dosya türüne bakarken, OCR Filters dosyanın gerçek içeriğindeki metne bakarak karar verir.
Bu filtre özellikle görsel (PNG, JPEG) veya PDF içeriklerde, dosyaya gömülü hassas verilerin (ör. TCKN, IBAN, kredi kartı numarası) dışarı sızdırılmasını önlemek için kullanılır.
Kurallar reusable kütüphane mantığıyla çalışır ve Access Management üzerinden hedeflere bağlanarak etkinleşir.
Kural Tablosu Sütunları:
- Name: Kuralın görünen adı.
- Action: Eşleşme bulunduğunda uygulanacak eylem.
- Fail Behavior: OCR taramasının başarısız olması durumundaki davranış.
- MIME Types: Taranacak dosya türleri.
- Max Size: Taranabilecek maksimum dosya boyutu.
- Timeout: OCR tarama zaman aşımı.
- Status:
enabledveyadisabled. - Actions: Edit ve Delete butonları.
Kural Oluşturma (Add Rule):
- Name: Kuralın görünen adı. Örnek: "Block ID cards in images".
- Action: OCR taramasında eşleşme bulunduğunda uygulanacak eylem:
- block: Dosya yüklemesini engeller.
- allow: Dosya yüklemesine izin verir (denetim amaçlı).
- Fail Behavior: OCR taramasının başarısız olması (ör. dosya hasarlı, desteklenmeyen format, zaman aşımı) durumundaki davranış:
- open: İşleme izin verir (fail-open). Kullanıcı deneyimini kesintiye uğratmamak için tercih edilir, ancak koruma boşluğu yaratabilir.
- closed: İşlemi engeller (fail-closed). Güvenlik öncelikli ortamlarda tercih edilir, ancak geçerli dosyalar da etkilenebilir.
- MIME Types: Taranacak dosya türleri, her satıra bir tane. Varsayılan:
image/*veapplication/pdf. Joker karakter desteklenir. - Max File Size (MB): OCR taramasına gönderilecek maksimum dosya boyutu (megabayt). Varsayılan: 20 MB. Büyük dosyalar performans sorunlarına yol açabileceğinden bu sınır dikkatli ayarlanmalıdır.
- Timeout (seconds): Tek bir dosyanın OCR taraması için maksimum süre. Varsayılan: 15 saniye. Süre aşılırsa fail behavior devreye girer.
- Patterns: OCR ile çıkarılan metinde aranacak desenler. Her desen iki alandan oluşur:
- Name: Desenin görünen adı. Örnek: "Turkish ID Number".
- Expression: Go uyumlu düzenli ifade. Örnek:
\b\d{11}\b. Birden fazla desen eklenebilir. En az bir desen girilmesi zorunludur. - Enabled: Kuralın aktif olup olmadığı.
OCR Tarama İş Akışı:
- Kullanıcı transparent proxy üzerinden bir dosya yükler.
- Arceris, dosyanın MIME türünü kontrol eder ve kuralın hedeflediği türlerle eşleştirir.
- Dosya boyutu ve zaman aşımı sınırları kontrol edilir.
- Dosya OCR motoruna gönderilir ve metin çıkarılır.
- Çıkarılan metin, kuraldaki desenlerle taranır.
- Eşleşme bulunursa kuralın action değeri uygulanır (block/allow).
- Eşleşme bulunamazsa dosya yüklemesine izin verilir.
- OCR taraması herhangi bir nedenle başarısız olursa fail behavior devreye girer.
OCR Filter kuralları, Access Management üzerinden "OCR Filter" kural türü olarak kullanıcı veya grup hedeflerine bağlanır.
Performans Değerlendirmesi:
OCR taraması işlem maliyeti yüksek bir işlemdir. Her dosya için OCR motoru çağrılması gecikmeye ve kaynak tüketimine neden olabilir. Bu nedenle:
- MIME türü filtreleri ile yalnızca gerekli dosya türleri taranmalıdır.
- Max file size sınırı makul tutulmalıdır.
- Timeout değeri, ortamdaki dosya büyüklüklerine göre ayarlanmalıdır.
- Üretimde dağıtımdan önce gerçek kullanıcı akışlarıyla performans testi yapılmalıdır.
Sağlayıcı Bazlı Dosya Trafiği Farkları¶
Dosya yükleme davranışı sağlayıcıya göre değişebilir. Bazı servisler dosya akışını doğrudan, bazıları yardımcı alan adları (CDN subdomain) veya ara yükleme mekanizmaları üzerinden işler. Bu durum özellikle OCR Filters için geçerlidir; çünkü dosyanın hangi noktada kesilip taranacağı sağlayıcı mimarisine bağlıdır. Bu nedenle dosya denetimi planlanırken sağlayıcı davranışı mutlaka test edilmelidir.