Çin merkezli yapay zeka laboratuvarı DeepSeek, matematik ve kodlama testlerinde öne çıkan yeni nesil R1 modelinin güncellenmiş sürümünü duyurdu. Ancak modelin başarısı kadar, eğitim verilerinin kaynağı da gündemde tartışma yarattı.
DeepSeek, R1 modelinin eğitimi için hangi veri setlerinin kullanıldığını açıklamadı. Buna rağmen, yapay zeka araştırmacıları ve geliştiriciler, modelin Google’ın Gemini AI ailesinden türetilmiş verilerle eğitilmiş olabileceğini öne sürüyor.
Gemini Gölgesi: Model Başarıları Kime Ait?
R1 modeli, özellikle kodlama ve matematiksel akıl yürütme kıyaslamalarında yüksek başarı gösterdi. Fakat bu başarı, etik soruları da beraberinde getirdi. Araştırmacılara göre, DeepSeek’in eğitimi için kullandığı veriler arasında Gemini’nin çıktıları veya içerikleri yer almış olabilir. Bu da telif hakkı, mülkiyet ve etik eğitim kurallarını gündeme getiriyor.
Daha Önce de Suçlanmıştı: ChatGPT İzleri
Bu, DeepSeek’in ilk kez veri kaynaklarıyla ilgili şüphe toplaması değil. Aralık ayında şirketin bir diğer modeli olan DeepSeek-V3, bazı testlerde kendisini “ChatGPT” olarak tanımlamıştı. Bu durum, modelin OpenAI’ye ait sohbet günlükleriyle eğitilmiş olabileceği şüphesini doğurmuştu.
Geliştirici topluluğu, o dönem DeepSeek modellerinde ChatGPT’ye özgü yanıt biçimleri ve cümle kalıpları gözlemlediklerini ifade etmişti.
Veri Temelli Yapay Zeka Geliştirme: Gri Bölgeler Artıyor
Yapay zeka alanında gelişmiş modellerin, rakiplerinden türetilmiş ya da türev içeriklerle eğitilip eğitilmediği konusu giderek daha fazla tartışılıyor. DeepSeek’in açıklama yapmaması, şeffaflık eleştirilerini artırırken, sektör genelinde “veri etiği” ve “model eğitimi adaleti” gibi başlıklar daha da önem kazanıyor.