Yapay zeka teknolojilerinin günlük yaşamdan iş dünyasına kadar pek çok alanda etkisini artırdığı bir dönemde, bu sistemlerin nasıl geliştirildiği, hangi verilerle eğitildiği ve bu verilerin kimlere ait olduğu giderek daha çok tartışılıyor.
Şirketler, rekabet avantajı sağlamak amacıyla kullandıkları veri kaynaklarını gizli tutarken, içerik üreticileri ve hukukçular bu teknolojilerin yarattığı değerin arkasındaki yaratıcı emeğin görmezden gelinip gelinmediğini sorguluyor.
Gelişmiş dil modelleri romanlardan akademik kaynaklara kadar geniş bir içerik yelpazesinden beslenerek insan benzeri yanıtlar üretmeye başlarken, bu süreçte telif hakkı, etik, şeffaflık ve adil tazminat gibi temel meseleler yeniden gündeme geliyor.
İşte bu tartışmaların tam merkezinde yer alan dikkat çekici bir dava, Meta’nın ‘Llama’ adlı büyük dil modeline dair bugüne dek gizli tutulan bazı deneysel çalışmalarını gün yüzüne çıkardı. Mahkeme belgeleri, Meta’nın Llama modellerinin eğitiminde uyguladığı tartışmalı ‘ablasyon’ tekniklerini ve korsan içeriklerin yapay zekanın başarısını nasıl etkilediğini gözler önüne seriyor.
ABD’de sürmekte olan Kadrey v. Meta davası kapsamında kamuya açıklanan belgeler, Meta’nın Llama yapay zeka modellerini geliştirmek için yürüttüğü ‘ablasyon’ adı verilen deneyleri içeriyor. Ablasyon, yapay zeka araştırmalarında bir sistemin belirli bileşenlerini çıkararak bu bileşenlerin model performansına etkisini ölçmeyi amaçlayan bir analiz yöntemi.
Bu bağlamda Meta, bazı yapay zeka eğitim verilerini kasıtlı olarak çıkarttı ve yerine LibGen adlı korsan kitap arşivinden alınan içerikleri ekledi. Yapılan iki farklı deneyde, ilk olarak bilim, teknoloji ve kurgu kitapları; ikinci olarak ise yalnızca kurgu kitaplar kullanıldı.

HER İKİ SENARYODA DA PERFORMANSTA DİKKATE DEĞER ARTIŞ OLDU
Meta’nın iç belgelerinde yer alan verilere göre, her iki senaryoda da Llama modellerinin performansı dikkate değer şekilde iyileşti. Örneğin, yapay zeka modellerinin bilgi ve mantık yeteneklerini ölçen BooIQ testinde, eğitim verilerine bilimsel ve kurgusal içerikler eklendiğinde yüzde 4,5, yalnızca kurgu kitaplar eklendiğinde ise yüzde 6 oranında bir performans artışı kaydedildi.
Başka bir test olan SIQA kıyaslamasında ise bu artış yüzde 5,5’e kadar çıktı. Princeton Üniversitesi’nden Peter Henderson, bu sonuçları gösteren grafiklerin bazılarını sosyal medyada paylaşarak dikkat çekti.
Yapay zeka araştırmacısı Nick Vincent ise bu durumun Meta’nın eğitim verilerine değer atayabildiğini ve hangi içeriğin performans açısından ne kadar önemli olduğunu bildiğini gösterdiğini söyledi. Vincent, “Bu tür sonuçların kamuoyuna açıklanması, içerik üreticilerinin hak iddia etmeleri için zemin hazırlayabilir” ifadelerini kullandı.

TELİF HAKKI DAVALARI DAHA KARMAŞIK HALE GELEBİLİR
Meta, bu deneylerin sonuçlarını kamuya açıklamasa da dahili belgelerde eğitim verilerinin model başarısına katkısının açıkça ölçüldüğü görülüyor. Ancak bu durum, halihazırda teknoloji devlerinin karşı karşıya kaldığı telif hakkı davalarını daha da karmaşık hale getirebilir.
Çünkü şirketlerin, yapay zeka sistemlerini eğitmekte kullandıkları içeriklere değer atamaları, bu içeriklerin sahiplerinin tazminat talep etmesine yol açabilir. Vincent bu konuda, “Bu değer tahminlerinin yayımlanması, telif hakkı davalarında büyük teknoloji şirketlerinin savunmalarını zayıflatabilir” dedi.
Meta’nın bir sözcüsü ise davaya ilişkin yaptığı açıklamada, “Llama modelleri bireylerin ve şirketlerin daha yenilikçi ve yaratıcı olmasına yardımcı oluyor. Kendimizi güçlü bir şekilde savunmaya ve üretken yapay zekanın gelişimini tüm insanlığın yararına olacak şekilde korumaya devam edeceğiz” ifadelerini kullandı.

EĞİTİM VERİLERİNDE GİZLİLİK EĞİLİMİ
Ablasyon deneylerinin gizli tutulması, sektörde son yıllarda gözlemlenen daha geniş bir eğilimin parçası. 2017’de Google, üretken yapay zeka devrimini başlatan araştırmasında kullandığı verileri ayrıntılı şekilde açıklarken, bugün şirketler bu bilgileri kamuya duyurmaktan kaçınıyor.
Örneğin Meta, bu yılın nisan ayında duyurduğu Llama 4 modeli için yayımladığı model kartında yalnızca genel veri kaynaklarından bahsetti; ablasyon deneylerine veya kullanılan kitap içeriklerine dair hiçbir bilgi yer almadı.

‘İKİ KEZ ÖDEME YAPILMALI’
ProRata adlı bir içerik tazminatı girişiminin CEO’su Bill Gross, Meta gibi şirketlerin veri kaynaklarını açıklamamasının hayal kırıklığı yarattığını söyledi. Gross, içerik üreticilerine iki kez ödeme yapılması gerektiğini savunuyor: “İlk olarak verileri modelleri eğitmek için kullanıldığında, ikinci olarak da model bu içeriği bir soruya yanıt verirken kullandığında.”
Ayrıca Gross’a göre, yüzde 5 gibi küçük görünen performans artışları bile yapay zeka dünyasında oldukça önemli: “Yapay zekada her puan önemlidir. Bu kadar büyük bir fark yaratmak kolay değildir.”
Meta, 2021 yılında Facebook’un yeniden markalaşmasıyla ortaya çıkan bir teknoloji şirketi. Kurucusu Mark Zuckerberg, şirketin adını ‘Meta’ olarak değiştirme kararını, sanal dünya ve artırılmış gerçeklik gibi yeni teknolojilere odaklanma vizyonuyla ilişkilendirdi.
Meta, Facebook, Instagram, WhatsApp gibi popüler sosyal medya platformlarını bünyesinde barındırıyor.
Şirket, kullanıcılarına daha etkileşimli ve entegre bir dijital deneyim sunmayı amaçlarken, Metaverse (sanal evren) konseptine büyük yatırımlar yapıyor. Bu alan, kullanıcıların sanal ortamlarda etkileşimde bulunabileceği, oyun oynayabileceği ve sosyal etkinliklere katılabileceği bir dünya olarak tanımlanıyor.
Meta, aynı zamanda yapay zeka araştırmalarına ve gelişimine de önem veriyor. Bu bağlamda, Llama gibi güçlü dil modelleri üzerinde çalışmalar yaparak, doğal dil işleme ve yapay zeka uygulamalarında öncü olmayı hedefliyor. Ancak, şirketin veri kullanımı ve gizliliği konusundaki tartışmalar, zaman zaman eleştiri oklarının hedefi olmasına neden oluyor.
Business Insider’ın ‘Inside Meta’s secret experiments that improve its AI models’ başlıklı haberinden derlenmiştir.
Kaynak: Hürriyet