İçeriğe geç

?GPT-3 : GPT ailesinin 175 milyar parametreli yeni üyesi


“Extrapolating the spectacular performance of GPT3 into the future suggests that the answer to life, the universe and everything is just 4.398 trillion parameters.” Geoffrey Hinton


Konuşmak, yazmak, okumak, düşünmek, hayal kurmak ve daha niceleri.. Günlük hayatımızda çoğu zaman farkında bile olmadan, doğal olarak gerçekleştirdiğimiz bu eylemlerin tamamı doğal dili işleyebilme yeteneğimizle ilintili ve bu yeteneğe sahip olma ihtimali olan yapay sistemler daha önce yapay zeka konusunda genel kültür seviyesinde bilgi sahibi olan kişiler için dahi oldukça ilgi çekici.. Siri’nin verdiği cevaplar, Robot Sophia’nın insanlığı tehdit eder yöndeki esprileri derken; bugün, verdiğiniz komutlarla basit ara yüz tasarımı yapabilen, daha önceki yazılarından birkaç satır verdiğiniz bir yazarın üslubunu taklit edebilen, kod yazabilen ve hatta yazılan kodun işlevini açıklayabilen bir dil modeli — nam-ı diğer GPT-3 —  kimilerinde hayranlık, kimilerinde korku, kimilerinde ise hayranlık duyanlara karşı nefret duygusu oluşturmaya başladı ?

-Tüm önyargılar ve sizde yarattığı duygulardan bağımsız olarak -  GPT-3’ü genel hatlarıyla anlamak ve teknik altyapısına göz atmak isterseniz, buyurunuz..??

?GPT-3’e Genel Bakış

?Sonuçlar

?Madalyonun Diğer Yüzü

?Uygulama Örnekleri


? GPT-3’e Genel Bakış

Mayıs 2020’de OpenAI tarafından “Language Models are Few-Shot Learners” isimli makale ile tanıtılan GPT (Generative Pre-trained Transformer) ailesinin en yeni üyesi GPT-3, 175 milyar parametreye sahip devasa bir dil modeli! 

Dil modelleme (language modeling) görevi ve — yazının devamında çokça ismini duyacağınız —  doğal dil işleme alanında en büyük sıçralamalardan biri kabul edilen BERT dil modeli hakkında bilgi edinmek isterseniz blog yazısına göz atabilirsiniz ??

Yaklaşık 355 GPU yılına ve 4,6 milyon dolara mal olduğu tahmin edilmesini bir kenara bırakırsak, daha önce tanıtılan dil modellerinden farklı olarak insanın öğrenme şekline daha yakın bir öğrenme süreci vadediyor.

Özellikle BERT’in başarısıyla NLP alanında tüm dikkatleri üzerine çeken ve çok büyük korpusla eğitimle elde edilen önceden eğitilmiş dil modelleri, transfer öğrenme yoluyla her ne kadar göreve özgü model mimarilerini kullanma ihtiyacını ortadan kaldırsa da yine de iyi performans elde etmek için toplanması zor olan göreve özgü veri kümelerine ihtiyaç duymaktadır. 

GPT-3 ise işte tam da bu problematiğin çözülmesini ele alarak, çok sınırlı örnekle veya hiç örneğe ihtiyaç duymaksızın alt görevlerde en son teknolojiye yakın performans elde etmeyi hedefler❗

? Biraz daha derine..

GPT-3 modeli 125 milyondan 175 milyara kadar farklı parametre sayılarında 8 farklı boyutta sunuldu. Model boyutları kıyaslandığında en küçük GPT-3 modeli yaklaşık BERT-Base kadardır, ancak diğer taraftan en büyük GPT-3 modeli ise o güne kadar tanıtılan en büyük dil modeli olan ve 11 milyar parametreye sahip olan T5’den kat be kat daha büyüktür. 

Şekil 1 : Önceden eğitilmiş dil modellerinin parametre sayısı bakımından karşılaştırılması (Kaynak)

Boyutları değişkenlik gösteren tüm GPT-3 modelleri, aslında 2. nesil GPT ile aynı dikkat tabanlı mimariyi kullanır. Ancak modeller arasında dikkat katmanı sayıları ve başlık boyutları farklılık gösterir. Örneğin 125 milyon parametreye sahip en küçük GPT-3 modeli her biri 12*64 boyutlu başlığa sahip 12 dikkat katmanı, 175 milyar parametreye sahip en büyük GPT-3 modeli her biri 96*128 boyutlu başlığa sahip 96 dikkat katmanı kullanır. 

Daha genel bir ifade ile GPT-3 aslında model mimarisinde önemli bir değişiklik sunmadan, daha fazla ve geniş katman ve üzerinde eğitilecek çok daha fazla veri ile GPT-2’nin kapasitesini genişletmiş oldu.

? Veri veri veri…

Eğitimde kullanılacak veri kümesinin boyutu modelin boyutuna göre ölçeklenme ihtiyacı duyar. Dolayısıyla 175 milyar parametreli bu modelin eğitiminde 499 milyar jeton (token) kullanılmış olması da şaşırtıcı değildir.

Ancak burada dikkat çeken önemli bir nokta var ❗ GPT-2 1.5 milyar parametreye sahip ve 10 milyar jeton (token) ile eğitilen bir model olarak karşımıza çıkmıştı. Yani kabaca bir hesapla veri sıkıştırma oranı 10/1.5 = 6.66. Diğer taraftan aynı hesap GPT-3 için yapıldığında ise sıkıştırma oranının 2.85 olduğu görülüyor. Sıkıştırma oranları kıyaslandığında GPT-3’ün sahip olduğu büyük parametre sayısının modelin eğitiminde verilerin ezberlemesi ve bilgi çıkarımı yapılırken örüntü eşleştirilmesi yoluna gitmesi gibi sakıncaları da beraberinde getirebileceği çokça tartışılan konular arasında ?️

Bir diğer tartışma konusu GPT-3’ün eğitiminde kullanılan bu devasa veri kümesinin internetten sağlanması sebebiyle, eğitim ve test kümelerinin birbiri ile çakışması yani bir diğer deyişle eğitim ve test veri kümelerinin birbirine karışmış olma ihtimalinin çok yüksek olması ? Kirli verinin etkisinin araştırılması için OpenAI ekibi, her alt seviye dil görevinde test veri kümesinin temiz bir versiyonunu oluşturarak, orjinal test veri kümesi ile elde edilen başarımlarla karşılaştırmıştır. Karşılaştırma sonuçlarının büyük kısmı performansta önemsiz boyutta sapma göstermişse de, birkaç alt seviye dil görevi önemli düzeyde etkilenmiştir. Bu görevler daha fazla incelenmek üzere işaretlenmiştir.

? En derine..

BERT veya transformerXL gibi dil modellerinin sunduğu çözümler, alt seviye dil görevleri için deyim yerindeyse tak-çalıştır değildir. Bu görevler için ince-ayar ihtiyacı vardır ve bu noktada da probleme özgü veri kümesi ihtiyacı doğmaktadır.

Geçen sene tanıtılan GPT-2 modelinin bir dizi alt seviye dil problemlerinin bir kısmında ince-ayar yapmaksızın hazır çözüm sunabilme potansiyeli zaten belirtilmişti. Yeni nesil GPT modelinde ise bu konuda bir öncekine nazaran daha iyi performans gösterdiğini ispatlar nitelikte sonuçlar sunuldu.

Şekil 2: Sıfır, bir ve birkaç örnekle öğrenme yapısının geleneksel ince ayar (finetunning) ile karşılaştırılması (Kaynak)

Araştırmacıların sunduğu bu yenilikçi yaklaşımı bağlam içi öğrenme diye Türkçeleştirebileceğimiz “in-context learning” kavramı ile tanıdık. Bu yaklaşım, modelin eğitimi esnasında bir dizi beceri ve örüntü tanıma yeteneği geliştirdiği ve daha sonra istenen göreve hızlı adapte olmak için bu yetenekleri çıkarım zamanında kullandığı varsayımına dayanır.

 Modelin girişine sıfır, bir veya birkaç örneğin örnek olarak eklenmesine izin veren bir paradigma kullanır. Birkaç örnekle öğrenme (few-shot learning) senaryosunu ele alırsak modele bir görev açıklaması, birkaç düzine örnek ve bir komut istemi sunulur. Örneğin, İngilizce’den Türkçe’ye çeviri görevi için; görev tanımı “ İngilizce’den Türkçe’ye Çeviri” cümlesi, birkaç düzine örnek “cat=>kedi”, “car=>araba” gibi metinler ve komut istemi ise çevirisini yapılmasını beklediğimiz “water=>” şeklinde olabilir. GPT-3 tüm bu bilgileri bağlam olarak alır ve çıktı belirtecini tahmin etmeye başlar. Sonuç olarak modelin, water kelimesi için Türkçe “su” çıktısını vermesi beklenir. Tüm bu süreç sıfır-örnek (zero-shot) ve tek-örnek (one-shot) ile öğrenmede de aynıdır; sadece örneklerin sayısı azaltılır. 


? SONUÇLAR

Göreve özgü model mimarileri gerektirmemenin yanı sıra göreve özgü büyük veri kümeleri gerektirmeme kavramı, son teknoloji NLP’yi daha erişilebilir hale getirme yönünde büyük bir adımdır. 

GPT-3’ün genelleştirilebilirliğini test etmek için iki düzineden fazla NLP görevi üzerinde değerlendirme yapılmıştır. Görevler, dil modelini doğrudan kullananlardan (cümle tamamlama gibi) modeli dolaylı olarak ve bazen aritmetik problemleri çözmek gibi farklı şekillerde kullanan görevlere kadar uzanmaktadır. Gelin bu sonuçlara – tamamına olmasa da- göz gezdirelim ?

? Dil Modelleme Testleri

Paragraf uzunluğundaki hikayelerin son kelimesinin tahminlenmesini gerektiren LAMBADA testinde sıfır-örnek yaklaşımı daha önce elde edilen en yüksek skora göre 8 puanlık kazanç ile %76 doğruluk sağlar.

LAMBADA testine benzer şekilde, HellaSwag testi de bir hikaye için en iyi sonu seçme görevidir. GPT-3 bu görevde ise tek-örnek yaklaşımı ile %78’lik doğruluk elde eder, ancak bu sonuç şu anki son teknolojinin gerisindedir.

Bir diğer dil modelleme testi ise StoryCloze testidir. Birden çok seçenekten beş cümlelik bir hikayeyi en iyi tamamlayan cümleyi seçmeyi gerektirir. GPT-3, sıfır-örnek yaklaşımında % 83 ve birkaç-örnek ile ise % 88 doğruluk oranına ulaşır. Bu sonuç, en iyi ince ayarlı modelden dört puan daha düşük olsa da önceki sıfır-örnek sonuçlarına göre yaklaşık 10 puan daha iyileşme sağlamıştır.

?Kapalı Kitap Soru Cevaplama

NLP alanında klasikleşmiş bir görev olan kapalı kitap soru cevaplamada (closed book QA) TriviaQA veri kümesi için GPT-3, yalnızca ince ayar yapmakla kalmayan, aynı zamanda yanıtı içermesi muhtemel metin parçalarını almak için bir Bilgi Erişim bileşeni kullanan literatürdeki en son yaklaşımdan daha üstün performans sergilemiştir.

Tablo 1: Üç farklı veri kümesi için soru cevaplama göreviyle ilgili sonuçlar (Kaynak)

NaturalQS ve WebQS veri kümelerinde ise ince ayar kullanılmamasına rağmen en son yaklaşımların performansına yaklaşmışsa da, üstün performans sergileyememiştir. 

?Makine Çevirisi

GPT-3 ‘ün eğitiminde kullanılan verilerin %93’ü İngilizce iken %7’si ise diğer dillerdendir ve araştırmacılar modelin çeviri yeteneğini daha iyi anlamak için ayrıca analizlerini yaygın olarak çalışılan Almanca ve Romence’yi içerecek şekilde genişletmişlerdir.

Tablo 2: İngilizce, Fransızca, Almanca ve Romence dillerinde makine çevirisi sonuçlarının karşılaştırılması (Kaynak)

Genel olarak sonuçlar incelendiğinde sıfır-örnek ile öğrenmede GPT-3 makine çevirisi görevinde kötü performans gösterirken, tek-örnekli öğrenmede sonuçların daha iyileştiği görülmüştür. Birkaç-örnekli öğrenme yaklaşımının sonuçlarında ise GPT-3 en iyi ince ayarlı denetimsiz modellerle rekabet edecek düzeyde iyileşmiştir.

?Sağduyu Muhakemesi (Common Sense Reasoning)

Fiziksel ve/veya bilimsel akıl yürütme gerektiren bu zorlu görev cümle tamamlama, okuduğunu anlama veya geniş kapsamlı soru cevaplamadan farklıdır. 

“Göz farını fırçasız uygulamak için pamuklu çubuk mu yoksa kürdan mı kullanmalıyım?” gibi sorular barındıran PhysicalQA veri kümesi (PIQA), 3. sınıftan 9. sınıfa kadar farklı düzeylerde fen sınavlarından alınan çoktan seçmeli soruları içeren Soyutlama ve Akıl Yürütme Görevi (ARC Challenge) ve çok adımlı muhakeme gerektiren OpenBookQA veri kümesi üzerinde GPT-3 modeli test edilmiştir. Aşağıdaki tabloda görülebileceği gibi, her ne kadar PIQA için state-of-the-art’ın üzerine çıkmayı başarmış olsa da, diğer veri kümeleri üzerinde literatürdeki çalışmalara oranla oldukça düşük performans sergilemiştir.

Tablo 3: PIQA, ARC ve OpenBookQA olmak üzere 3 farklı sağduyu muhakemesi görevine ilişkin sonuçlar.(Kaynak)


?Okuduğunu Anlama (Reading Comprehension)

Okuduğunu anlama görevini her yönüyle test etmek isteyen araştırmacılar, açıklama gerektiren, çoktan seçmeli veya aralık tabanlı cevapları olan diyalog veya tek soru şeklinde yöneltilen anlama sorularını barındıran 5 farklı veri kümesi ile testleri gerçekleştirmişlerdir. Bu testlerde yanıtlama biçimlerine bağlı olarak değişken başarım oranları elde edilmiştir. En iyi sonuç serbest biçimli bir konuşma veri kümesi olan CoQA’da gözlemlenirken, en kötü sonuç ise QuAC veri kümesinde elde edilmiştir. Genel olarak elde edilen sonuçlar incelendiğinde CoQA veri kümesi hariç diğer veri kümelerinin tamamında literatürdeki modellerden çok daha düşük başarım elde edildiği açıkça görülmektedir.

Tablo 4: Okuduğunu anlama görevlerine ilişkin sonuçlar. Doğruluk değeri (accuracy) bildiren RACE sonuçları dışında tüm puanlar F1’dir. (Kaynak)


?Sentetik ve Nitelikli Görevler

GPT-3’ün yetenek aralığını keşfetmenin bir yolu da, anında basit sayısal muhakeme yapmayı, eğitimde meydana gelmesi muhtemel olmayan yeni bir modeli tanımayı veya alışılmadık bir göreve hızlıca adapte olmayı gerektiren görevler vermektir. Bu görevlere ve elde edilen başarımlara bir göz atalım o zaman..

?Aritmetik İşlemler

Araştırmacılar tarafından GPT-3’ün göreve özgü eğitim olmadan basit aritmetik işlemleri gerçekleştirme yeteneğini test etmek için, GPT-3’e doğal dilde basit bir aritmetik problem sorulmasını içeren 10 testlik küçük bir işlem serisi oluşturulmuştur. 

Bu işlemler; 2 basamaklı toplanma / çıkarma (2D +/-) , 3 basamaklı toplama / çıkarma (3D +/-) , 4 basamaklı toplanma / çıkarma (4D +/-), 5 basamaklı toplanma / çıkarma (5D +/-), 2 basamaklı çarpma (2Dx) ve tek basamaklı sayılarla bileşik aritmetik işlem yapma (1DC). Her bir görev için, rastgele 2.000 örnekten oluşan bir veri kümesi oluşturulmuş ve bu örneklerle tüm modeller değerlendirilmiştir.

Birkaç örnekle eğitim sonuçlarına bakıldığında toplama ve çıkarma işlemlerinde, basamak sayısı az olduğunda güçlü bir yeterlilik gösterdiği görülmektedir. 

Tablo 5: GPT-3 (175B-parametre) için temel aritmetik görevlerle ilgili sonuçlar.(Kaynak)

Küçük modeller ise tüm bu görevlerde yetersiz bir performans sergilemiştir, öyle ki 13 milyar parametreli GPT-3 modeli bile (175 milyar tam GPT-3’ten sonraki en büyük ikinci) 2 basamaklı toplama ve çıkarma işleminin yalnızca yarısını çözebilmektedir. 

Tek örnek ve sıfır örnek performansı, birkaç örnek performansına göre daha düşüktür, bu da göreve uyumun (veya en azından görevin tanınmasının) bu hesaplamaları doğru bir şekilde gerçekleştirmek için önemli olduğunu göstermektedir.

?Kelime Karıştırma ve Manipülasyon Görevleri

Bu kez GPT-3’ün manipüle edilmiş kelimelerin orjinalini bulma yeteneğinin ölçüldüğü 5 farklı görev üzerine incelemeler yapılmıştır. Bu görevlerde modele karakterlerin karıştırılması, eklenmesi veya silinmesiyle bozulmuş bir kelime verilerek ondan orijinal kelimeyi kurtarması beklenmektedir. Görevler ise şöyledir:

  • Sözcükteki harfleri çevirme (CL) : Orjinal kelimedeki harflerin sırasını değiştirmeksizin sadece karakterleri belli sayıda öteleyerek manipüle edilen kelimelerin orjinal hallerine geri döndürülmesi beklenmektedir.
  • İlk ve son karakterler hariç tüm harflerin karıştırılması(A1) — Modele, ilk ve son hariç tüm harflerin rastgele karıştırıldığı bir kelime verilerek orijinal kelimeyi çıkarması beklenmektedir. Örnek: “criroptuon” → “corruption” 
  • İlk 2 ve son 2 karakter hariç tüm harflerin karıştırılması (A2) — Modele, ilk 2 ve son 2 hariç tüm harflerin rastgele karıştırıldığı bir kelime verilerek orijinal kelimeyi çıkarması beklenmektedir. Örnek: “opoepnnt” → “opponent”
  • Kelimedeki harfler arasına rastgele karakter ekleme (RI) — Bir kelimenin her harfinin arasına rastgele bir noktalama veya boşluk karakteri eklenerek modelin orijinal kelimeyi çıkarması beklenmektedir. Örnek: “s.u! C / c! E.s s i / o / n” → “succession”
  • Ters sözcükler (RW) — Modele tamamen ters yüz edilmiş olarak verilen sözcüklerden çıktı olarak kelimelerin orjinalinin elde edilmesi beklenmektedir. Örnek: “stcejbo” → “objects”

? Diğer sonuçlardan kısa kısa..

⚡Bir zamirin hangi kelimeye atıfta bulunduğunu belirlemenin hedeflendiği klasik bir görev olan Winograd Schemas Challenge’da klasik Winograd veri kümesi için ince-ayarla elde edilen literatürdeki en yüksek başarım (fine-tuned SOTA) %90.1 iken; GPT-3’de sırasıyla sıfır örnekle, tek örnekle ve birkaç örnekle eğitimle elde edilen başarımlar % 88,3,% 89,7 ve% 88,6’dır.

⚡ İki cümle arasındaki ilişkiyi anlama becerisini ölçen Doğal Dil Çıkarımı (Natural Language Inference (NLI)); ikinci cümlenin mantıksal olarak ilk cümlenin ardından mı geldiğini veya ilk cümle ile çelişip çeliştiği gibi çıkarımların doğru yapılması beklenen zorlu bir görevdir. Farklı benchmark veri kümeleri üzerinde elde edilen sonuçlar, NLI’nin dil modelleri için hala çok zor bir görev olduğunu ve ilerleme belirtileri göstermeye daha yeni başladığını göstermektedir.

⚡ İnsan ve GPT-3 modeli tarafından üretilen haber metinlerinin insanlar tarafından ayırt edilmesi deneyinde, model boyutu arttıkça katılımcıların ayırt etmek için daha fazla zaman harcamasına karşın daha düşük doğruluk puanı elde ettikleri görülmektedir. Bu sonuç da aslında model boyutunun büyümesi ile birlikte ayırt edilmesi daha güç haber metinlerinin üretilebildiği bulgusunu desteklemektedir.

Şekil 3: GPT-3 tarafından üretilen ve insanların bir insan tarafından yazılmış makaleden ayırt etmede en büyük zorluğa sahip olduğunu belirttiği makale (doğruluk:% 12). (Kaynak)

⚡ GPT-3’ün yeni kelimeleri öğrenme ve kullanma yeteneği; aslında dil içerisinde hiç var olmamış “Gigamuru” gibi bir kelimenin insanlar tarafından uydurulmuş tanımı verildiğinde modelin onu anlamına uygun olacak bir cümlede kullanabilme becerisi ile ölçülmeye çalışılmıştır. Model tarafından üretilen bazı cümleler aşağıda verilmiştir ve görünen o ki üretilen cümleler, kelimenin doğru veya en azından makul bir kullanımı gibi.

Şekil 4: Gri renkteki uyarı cümleleri insanlar tarafından yazılmış metinleri, kalın siyah olarak yazılmış olan metinler ise GPT-3’ün tamamlamaları göstermektedir. İlk örnekte hem uyarı hem tamamlama bir insan tarafından sağlanmıştır; bu daha sonra GPT-3’ün art arda ek istemleri aldığı ve tamamlamaları sağladığı örnekler için bir koşullandırma görevi görmektedir. GPT-3’e burada gösterilen koşullandırma dışında göreve özgü hiçbir şey sağlanmamıştır.(Kaynak)

⚡ Birkaç örnekle öğrenmenin (few-shot learning) iyi sonuçlarından biri de İngilizce gramer düzeltme görevinde gözlenmiştir.

Şekil 5: İngilizce dilbilgisini düzeltme görevi için birkaç örnekle eğitilmiş (few-shot) GPT-3’ün tamamlamaları. (Kaynak)

?️Madalyonun Diğer Yüzü

? GPT-3 diğer dil modellerinden niteliksel olarak daha iyi dursa da, metin sentezleme yeteneği, tekrarlar, yeterince uzun pasajlarda tutarlılık kaybı ve çelişki gibi dil modellerinde aşina olduğumuz zayıf noktalara hala maruz kaldığı net bir şekilde görülmektedir.

?GPT-3’ün bazı görevlerinde çok açık şekilde başarısız olduğu görülmüştür. Çift yönlü bilgiyi dahil etmek yerine (Bert’e benzer şekilde) otoregresif bir yapıda olması yönüyle bağlam içi öğrenmeyi daha kolay gerçekleştiriyor olması, ne yazık ki aşağı seviye dil görevlerinde istenen başarıyı getirmemiştir.

?GPT-3 ölçeğindeki modellerle ilişkin bir diğer sınırlılık ise modellerin mevcut biçimlerinde pratik uygulanabilirliğin oldukça zor olmasıdır. Gelecekte bu konuya olası bir çözüm olarak, büyük modellerin belirli görevler için yönetilebilir bir boyuta indirgenmesi düşünülebilir. Çünkü GPT-3 gibi büyük modeller çok geniş bir beceri yelpazesi içerir ve bunların çoğu belirli bir görev için gerekli değildir, bu da prensipte agresif damıtmanın mümkün olabileceğini düşündürür.

?GPT-3’de diğer çoğu derin öğrenme modelinde ortak olan; kararlarının kolayca yorumlanamaması, eğitim verilerindeki ön yargılardan fazlaca etkilenme gibi bazı kısıtları barındırmaya devam etmektedir. Modelin basmakalıp veya önyargılı içerik oluşturmasına yol açabilecek verilerdeki önyargılar, toplumsal bir bakış açısından özel bir endişe kaynağı olarak tanımlanmış ve bu konu makale içerisinde ayrıca bir bölümde tartışılmıştır.


?Uygulama Örnekleri

Üzerine çokça konuşulan ve 2020 yılında alanda şaşkınlık yaratan bir gelişme olarak kabul edilen GPT-3’ü teknik olarak ele almaya çalıştığım bu blog yazını, GPT-3’ün API’sine erişim hakkı olanların ürettiği ilgi çekici birkaç GPT-3 uygulamasını listeleyerek tamamlayalım.

? Üretmek istediğiniz uygulamayı cümlelerle ifade ettiğinizde birkaç saniye içerisinde bu uygulamanın HTML tasarımının yanı sıra gerekli fonksiyonları da kullanarak hazırlanmış Javascript kodunu size sunmasını isterseniz buraya buyurun?? 

?Peki ya siz yazılmış kodun ne işe yaradığını anlayamıyorsanız, onun da çözümü var! 

? Dünyaca ünlü şairlere ait yalnızca birkaç dize verdiğinizde, o şairin kim olduğunu anlayan ve hatta o şairin üslubunu taklit ederek yeni şiirler oluşturabilen biruygulamaya ne dersiniz? 

? Herhangi bir konuda otomatik sınav oluşturan, cevap anahtarı sunan ve bununla da yetinmeyip bu sınavın uygulandığı öğrencilerin cevaplarını değerlendiren bir uygulama neden olmasın?

? Lateks denklemlerini İngilizce cümlelerle ifade ettiğimizde otomatik olarak oluşturulmasını hayal etmeyen bir doktora öğrencisi yoktur sanırım ?

? Karmaşık hukuk dili ile yazılmış metinlerin sade bir İngilizce ile ifade edilmesi alanda çalışmayan kişilerin işlerini oldukça kolaylaştırmaz mıydı?

?Muhasebe bilgisi olmayan kişilerin mali tablolar oluşturmasını sağlayan bir GPT-3 botu, başka bir deyişle otomatik bir muhasebeci için böyle buyurun ??


Üretken Ön İşlemeli Dönüştürücü (Generative Pre-trained Transformer) ailesinin son üyesi olan GPT-3’ün tanıtıldığı ve teknik olarak incelendiği bu blog yazısı, modeli oluşturan araştırmacıların kaleme aldığı “Language Models are Few-Shot Learners”makalesi referans alınarak yazılmıştır.

Ayrıca kullanılan kaynaklar aşağıda listelenmiştir:

OpenAI Blog 

⭐Lambda labs araştırmacılarından Chuan Li tarafından kaleme alınan GPT-3 teknik incelemeblog postu 

⭐ ETH Zurich’de doktora öğrencisi olan Yannic Kilcher tarafından “GPT-3: Language Models are Few-Shot Learners” makale inceleme videosu

⭐Prof. Dr. Cem Say tarafından yazılan “Yapay zekâ, GPT-3 ve sınırları: Bilgisayarlar da bizi anlıyor mu?” isimli makale

⭐(Uygulama Örnekleri) Barış Özcan tarafından yayınlanan “Yapay zeka dünyasındaki en büyük sıçrama gerçekleşti! GPT-3 nedir?” inceleme videosu


? Yazı hakkında görüşleriniz, önerileriniz ve katkılarınız için şimdiden teşekkürler! Keyifli okumalar

??‍? Blog yazısı hakkındaki geri bildirimleri ve yorumları için Ayyüce Kızrak ve Yavuz Kömeçoğlu’na teşekkürlerimle.. 

Kategori:Doğal Dil İşlemeMakale OkumalarıTeknik YazılarYapay Öğrenme

İlk Yorumu Siz Yapın

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir