Perplexity, yapay zekâ tabanlı tarayıcı asistanlarının güvenliğini artırmak amacıyla geliştirdiği BrowseSafe adlı tespit modelini ve eğitim-değerlendirme paketi BrowseSafe-Bench’i kamuoyuna açıkladı. Web sayfalarında yer alan kötü niyetli yönlendirmeleri gerçek zamanlı olarak ayıklamayı amaçlayan BrowseSafe, ajan tabanlı tarayıcıların giderek yaygınlaştığı yeni dijital dönemde, güvenliği hızdan ödün vermeden sağlamayı hedefliyor.

Yapay zekâ tarayıcılarının yeni güvenlik ihtiyacı

Perplexity, yapay zekâ asistanlarının klasik arama kutularından tarayıcı arayüzünün tamamına yayıldığı bir döneme girildiğini belirtiyor. Bu dönüşümle birlikte webin, sayfaların değil ajanların dünyası haline geleceği öngörülüyor. Bu nedenle, Comet gibi araçların yalnızca sorulara cevap veren değil, görevleri yerine getiren birer çalışma alanı sunduğu ifade ediliyor. Şirket, bu yeni yapıda bir prensibin tartışmasız olduğunu vurguluyor: Asistan her koşulda kullanıcının tarafında kalmalı.

Bu amaç doğrultusunda geliştirilen BrowseSafe, ajanların ziyaret ettiği sayfalardaki HTML içeriklerini analiz ederek kötü niyetli komutları tespit ediyor ve onları kullanıcıya ulaşmadan durduruyor.

BrowseSafe nedir ve nasıl çalışır?

BrowseSafe, tek bir kritik soruya yanıt vermek için tasarlanmış: Bir sayfanın HTML yapısında ajanı hedef alan kötü niyetli talimatlar var mı? Genel amaçlı yapay zekâ modellerinin bu soruyu çözebildiği bilinse de, sürekli tarama için fazla yavaş ve maliyetli oldukları ifade ediliyor. BrowseSafe ise tarayıcıyı yavaşlatmadan her sayfayı gerçek zamanlı analiz edebilecek şekilde optimize edildi.

Modelle birlikte, 14.719 örnek içeren ve üretim ortamlarını taklit eden bir değerlendirme seti olan BrowseSafe-Bench de yayınlandı. Bu kıyaslama seti, saldırıların gerçek dünya koşullarına göre test edilmesini sağlıyor.

Prompt injection tarayıcı ortamında nasıl gerçekleşiyor?

Prompt injection, yapay zekânın okuduğu metne gömülmüş ve modelin niyetini saptırmak için tasarlanmış ifadelerden oluşuyor. Tarayıcı ajanları tüm sayfayı okuduğu için saldırılar, yorumlar, altbilgiler veya görünmeyen HTML alanlarına kolaylıkla gizlenebiliyor.

Bu talimatlar çoğu zaman doğal görünen, çok dilli ifadelerle yazılıyor ve ekranda görünmeyen HTML etiketlerine yerleştirilebiliyor. Ajan, sayfada görüntülenmeyen verileri dahi okuduğundan, güçlü koruma katmanları olmadığında saldırganların yönlendirmelerine karşı savunmasız kalabiliyor.

BrowseSafe-Bench: Gerçek web koşullarına dayalı büyük ölçekli kıyaslama seti

BrowseSafe-Bench, karmaşık HTML yapıları, hem zararsız hem kötü niyetli örnekler ve çeşitli saldırı biçimlerini bir araya getirerek gerçekçi bir test ortamı sunuyor. Kıyaslama setinin kapsamı üç temel eksende çeşitleniyor:

  • Saldırganın amacı
  • Talimatın sayfadaki konumu
  • Kullanılan dilsel form

Toplamda 11 saldırı türü, dokuz farklı enjeksiyon stratejisi ve üç dilsel tarz barındırıyor. Böylece modeller, hem açık komutlara hem de dolaylı, kamufle edilmiş ifadelere karşı test edilebiliyor.

Güvenlik için katmanlı savunma yaklaşımı

BrowseSafe, geniş kapsamlı bir güvenlik mimarisinin yalnızca bir parçasını oluşturuyor. Perplexity, web sayfaları, e-postalar ve dosyalar gibi güvenilmez içerikler üretebilen araçları önceden işaretleyerek ham çıktıları doğrudan BrowseSafe’e yönlendiriyor. Böylece içerik, ajanın işleme başlamasından önce zararlı unsurlardan arındırılıyor.

Model ayrıca tarayıcı güvenlik özelliklerini tamamlayan şu katmanlarla destekleniyor:

  • Araç izinlerinin varsayılan olarak sınırlandırılması
  • Hassas işlemler için kullanıcının açık onayı
  • İçeriğin işlenmeden önce gerçek zamanlı filtrelemesi

Bu çok katmanlı yapı, kullanıcıların güçlü tarayıcı asistanlarını güvenliği feda etmeden kullanmasını sağlıyor.

Saldırıların tespitini zorlaştıran faktörler

BrowseSafe-Bench üzerinde yapılan testler, bazı saldırı tiplerinin tespit edilmesinin diğerlerine göre daha güç olduğunu gösteriyor. Ajanın sistem komutlarını ifşa etmesini veya URL üzerinden veri kaçırmasını hedefleyen doğrudan saldırıların daha kolay tanınabildiği belirtiliyor.

Buna karşılık çok dilli, dolaylı ve varsayımsal şekilde formüle edilmiş talimatlar dedektör modeller için daha büyük zorluk oluşturuyor. Talimatın sayfadaki konumu da önemli bir değişken: Gizli alanlara yerleştirilen saldırılar daha iyi yakalanırken, görünür altbilgilerde veya tablo hücrelerinde bulunan versiyonların tespit edilmesi daha zor.

BrowseSafe ile geliştiricilere açık kaynak bir güvenlik desteği

BrowseSafe ve BrowseSafe-Bench tamamen açık kaynak olarak sunuluyor. Otonom ajan geliştiren yazılımcılar, bu sayede güvenlik mekanizmalarını sıfırdan inşa etmeye gerek kalmadan sistemlerini prompt injection’a karşı güçlendirebiliyor. Tespit modeli yerel olarak çalıştığı için, kötü niyetli komutları daha ilk aşamada işaretliyor ve bunu tarayıcı hızını etkilemeden yapabiliyor.

Kıyaslama seti, 14 binden fazla saldırı senaryosuyla geliştiricilerin kendi modellerini karmaşık HTML saldırılarına karşı stres testine sokmasına imkân tanıyor. Parçalama ve paralel tarama teknikleri sayesinde, büyük ve güvenilmez sayfalar güvenli bir şekilde işlenebiliyor.

Perplexity, BrowseSafe ve BrowseSafe-Bench’in oluşturulma süreçlerine dair detayların şirketin araştırma blogunda yer aldığını belirtiyor.