─░├žeri─če ge├ž

­čŽçGPT-3 : GPT ailesinin 175 milyar parametreli yeni ├╝yesi


ÔÇťExtrapolating the spectacular performance of GPT3 into the future suggests that the answer to life, the universe and everything is just 4.398 trillion parameters.ÔÇŁ Geoffrey Hinton


Konu┼čmak, yazmak, okumak, d├╝┼č├╝nmek, hayal kurmak ve daha niceleri.. G├╝nl├╝k hayat─▒m─▒zda ├žo─ču zaman fark─▒nda bile olmadan, do─čal olarak ger├žekle┼čtirdi─čimiz bu eylemlerin tamam─▒ do─čal dili i┼čleyebilme yetene─čimizle ilintili ve bu yetene─če sahip olma ihtimali olan yapay sistemler daha ├Ânce yapay zeka konusunda genel k├╝lt├╝r seviyesinde bilgi sahibi olan ki┼čiler i├žin dahi olduk├ža ilgi ├žekici.. SiriÔÇÖnin verdi─či cevaplar, Robot SophiaÔÇÖn─▒n insanl─▒─č─▒ tehdit eder y├Ândeki esprileri derken; bug├╝n, verdi─činiz komutlarla basit ara y├╝z tasar─▒m─▒ yapabilen, daha ├Ânceki yaz─▒lar─▒ndan birka├ž sat─▒r verdi─činiz bir yazar─▒n ├╝slubunu taklit edebilen, kod yazabilen ve hatta yaz─▒lan kodun i┼člevini a├ž─▒klayabilen bir dil modeliÔÇŐÔÇöÔÇŐnam-─▒ di─čer GPT-3ÔÇŐÔÇöÔÇŐ kimilerinde hayranl─▒k, kimilerinde korku, kimilerinde ise hayranl─▒k duyanlara kar┼č─▒ nefret duygusu olu┼čturmaya ba┼člad─▒ ­čśů

-T├╝m ├Ânyarg─▒lar ve sizde yaratt─▒─č─▒ duygulardan ba─č─▒ms─▒z olarakÔÇŐ- ÔÇŐGPT-3’├╝ genel hatlar─▒yla anlamak ve teknik altyap─▒s─▒na g├Âz atmak isterseniz, buyurunuz..­čĄÖ­čĆ╗

­čöÂGPT-3’e Genel Bak─▒┼č

­čöÂSonu├žlar

­čöÂMadalyonun Di─čer Y├╝z├╝

­čöÂUygulama ├ľrnekleri


­čö« GPT-3’e Genel Bak─▒┼č

May─▒s 2020’de OpenAI taraf─▒ndan ÔÇťLanguage Models are Few-Shot LearnersÔÇŁ isimli makale ile tan─▒t─▒lan GPT (Generative Pre-trained Transformer) ailesinin en yeni ├╝yesi GPT-3, 175 milyar parametreye sahip devasa bir dil modeli! 

Dil modelleme (language modeling) g├Ârevi veÔÇŐÔÇöÔÇŐyaz─▒n─▒n devam─▒nda ├žok├ža ismini duyaca─č─▒n─▒zÔÇŐÔÇöÔÇŐ do─čal dil i┼čleme alan─▒nda en b├╝y├╝k s─▒├žralamalardan biri kabul edilen BERT dil modeli hakk─▒nda bilgi edinmek isterseniz blog yaz─▒s─▒na g├Âz atabilirsiniz ­čĄ×­čĆ╗

Yakla┼č─▒k 355 GPU y─▒l─▒na ve 4,6 milyon dolara mal oldu─ču tahmin edilmesini bir kenara b─▒rak─▒rsak, daha ├Ânce tan─▒t─▒lan dil modellerinden farkl─▒ olarak insan─▒n ├Â─črenme ┼čekline daha yak─▒n bir ├Â─črenme s├╝reci vadediyor.

├ľzellikle BERTÔÇÖin ba┼čar─▒s─▒yla NLP alan─▒nda t├╝m dikkatleri ├╝zerine ├žeken ve ├žok b├╝y├╝k korpusla e─čitimle elde edilen ├Ânceden e─čitilmi┼č dil modelleri, transfer ├Â─črenme yoluyla her ne kadar g├Âreve ├Âzg├╝ model mimarilerini kullanma ihtiyac─▒n─▒ ortadan kald─▒rsa da yine de iyi performans elde etmek i├žin toplanmas─▒ zor olan g├Âreve ├Âzg├╝ veri k├╝melerine ihtiya├ž duymaktad─▒r. 

GPT-3 ise i┼čte tam da bu problemati─čin ├ž├Âz├╝lmesini ele alarak, ├žok s─▒n─▒rl─▒ ├Ârnekle veya hi├ž ├Ârne─če ihtiya├ž duymaks─▒z─▒n alt g├Ârevlerde en son teknolojiye yak─▒n performans elde etmeyi hedeflerÔŁŚ

­čôŹ Biraz daha derine..

GPT-3 modeli 125 milyondan 175 milyara kadar farkl─▒ parametre say─▒lar─▒nda 8 farkl─▒ boyutta sunuldu. Model boyutlar─▒ k─▒yasland─▒─č─▒nda en k├╝├ž├╝k GPT-3 modeli yakla┼č─▒k BERT-Base kadard─▒r, ancak di─čer taraftan en b├╝y├╝k GPT-3 modeli ise o g├╝ne kadar tan─▒t─▒lan en b├╝y├╝k dil modeli olan ve 11 milyar parametreye sahip olan T5’den kat be kat daha b├╝y├╝kt├╝r. 

┼×ekil 1 : ├ľnceden e─čitilmi┼č dil modellerinin parametre say─▒s─▒ bak─▒m─▒ndan kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Boyutlar─▒ de─či┼čkenlik g├Âsteren t├╝m GPT-3 modelleri, asl─▒nda 2. nesil GPT ile ayn─▒ dikkat tabanl─▒ mimariyi kullan─▒r. Ancak modeller aras─▒nda dikkat katman─▒ say─▒lar─▒ ve ba┼čl─▒k boyutlar─▒ farkl─▒l─▒k g├Âsterir. ├ľrne─čin 125 milyon parametreye sahip en k├╝├ž├╝k GPT-3 modeli her biri 12*64 boyutlu ba┼čl─▒─ča sahip 12 dikkat katman─▒, 175 milyar parametreye sahip en b├╝y├╝k GPT-3 modeli her biri 96*128 boyutlu ba┼čl─▒─ča sahip 96 dikkat katman─▒ kullan─▒r. 

Daha genel bir ifade ile GPT-3 asl─▒nda model mimarisinde ├Ânemli bir de─či┼čiklik sunmadan, daha fazla ve geni┼č katman ve ├╝zerinde e─čitilecek ├žok daha fazla veri ile GPT-2’nin kapasitesini geni┼čletmi┼č oldu.

­čôŹ Veri veri veriÔÇŽ

E─čitimde kullan─▒lacak veri k├╝mesinin boyutu modelin boyutuna g├Âre ├Âl├žeklenme ihtiyac─▒ duyar. Dolay─▒s─▒yla 175 milyar parametreli bu modelin e─čitiminde 499 milyar jeton (token) kullan─▒lm─▒┼č olmas─▒ da ┼ča┼č─▒rt─▒c─▒ de─čildir.

Ancak burada dikkat ├žeken ├Ânemli bir nokta var ÔŁŚ GPT-2 1.5 milyar parametreye sahip ve 10 milyar jeton (token) ile e─čitilen bir model olarak kar┼č─▒m─▒za ├ž─▒km─▒┼čt─▒. Yani kabaca bir hesapla veri s─▒k─▒┼čt─▒rma oran─▒ 10/1.5 = 6.66. Di─čer taraftan ayn─▒ hesap GPT-3 i├žin yap─▒ld─▒─č─▒nda ise s─▒k─▒┼čt─▒rma oran─▒n─▒n 2.85 oldu─ču g├Âr├╝l├╝yor. S─▒k─▒┼čt─▒rma oranlar─▒ k─▒yasland─▒─č─▒nda GPT-3’├╝n sahip oldu─ču b├╝y├╝k parametre say─▒s─▒n─▒n modelin e─čitiminde verilerin ezberlemesi ve bilgi ├ž─▒kar─▒m─▒ yap─▒l─▒rken ├Âr├╝nt├╝ e┼čle┼čtirilmesi yoluna gitmesi gibi sak─▒ncalar─▒ da beraberinde getirebilece─či ├žok├ža tart─▒┼č─▒lan konular aras─▒nda ­čś│´ŞĆ

Bir di─čer tart─▒┼čma konusu GPT-3’├╝n e─čitiminde kullan─▒lan bu devasa veri k├╝mesinin internetten sa─članmas─▒ sebebiyle, e─čitim ve test k├╝melerinin birbiri ile ├žak─▒┼čmas─▒ yani bir di─čer deyi┼čle e─čitim ve test veri k├╝melerinin birbirine kar─▒┼čm─▒┼č olma ihtimalinin ├žok y├╝ksek olmas─▒ ­čĄ» Kirli verinin etkisinin ara┼čt─▒r─▒lmas─▒ i├žin OpenAI ekibi, her alt seviye dil g├Ârevinde test veri k├╝mesinin temiz bir versiyonunu olu┼čturarak, orjinal test veri k├╝mesi ile elde edilen ba┼čar─▒mlarla kar┼č─▒la┼čt─▒rm─▒┼čt─▒r. Kar┼č─▒la┼čt─▒rma sonu├žlar─▒n─▒n b├╝y├╝k k─▒sm─▒ performansta ├Ânemsiz boyutta sapma g├Âstermi┼čse de, birka├ž alt seviye dil g├Ârevi ├Ânemli d├╝zeyde etkilenmi┼čtir. Bu g├Ârevler daha fazla incelenmek ├╝zere i┼čaretlenmi┼čtir.

­čôŹ En derine..

BERT veya transformerXL gibi dil modellerinin sundu─ču ├ž├Âz├╝mler, alt seviye dil g├Ârevleri i├žin deyim yerindeyse tak-├žal─▒┼čt─▒r de─čildir. Bu g├Ârevler i├žin ince-ayar ihtiyac─▒ vard─▒r ve bu noktada da probleme ├Âzg├╝ veri k├╝mesi ihtiyac─▒ do─čmaktad─▒r.

Ge├žen sene tan─▒t─▒lan GPT-2 modelinin bir dizi alt seviye dil problemlerinin bir k─▒sm─▒nda ince-ayar yapmaks─▒z─▒n haz─▒r ├ž├Âz├╝m sunabilme potansiyeli zaten belirtilmi┼čti. Yeni nesil GPT modelinde ise bu konuda bir ├Âncekine nazaran daha iyi performans g├Âsterdi─čini ispatlar nitelikte sonu├žlar sunuldu.

┼×ekil 2: S─▒f─▒r, bir ve birka├ž ├Ârnekle ├Â─črenme yap─▒s─▒n─▒n geleneksel ince ayar (finetunning) ile kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Ara┼čt─▒rmac─▒lar─▒n sundu─ču bu yenilik├ži yakla┼č─▒m─▒ ba─člam i├ži ├Â─črenme diye T├╝rk├žele┼čtirebilece─čimiz ÔÇťin-context learningÔÇŁ kavram─▒ ile tan─▒d─▒k. Bu yakla┼č─▒m, modelin e─čitimi esnas─▒nda bir dizi beceri ve ├Âr├╝nt├╝ tan─▒ma yetene─či geli┼čtirdi─či ve daha sonra istenen g├Âreve h─▒zl─▒ adapte olmak i├žin bu yetenekleri ├ž─▒kar─▒m zaman─▒nda kulland─▒─č─▒ varsay─▒m─▒na dayan─▒r.

 Modelin giri┼čine s─▒f─▒r, bir veya birka├ž ├Ârne─čin ├Ârnek olarak eklenmesine izin veren bir paradigma kullan─▒r. Birka├ž ├Ârnekle ├Â─črenme (few-shot learning) senaryosunu ele al─▒rsak modele bir g├Ârev a├ž─▒klamas─▒, birka├ž d├╝zine ├Ârnek ve bir komut istemi sunulur. ├ľrne─čin, ─░ngilizceÔÇÖden T├╝rk├žeÔÇÖye ├ževiri g├Ârevi i├žin; g├Ârev tan─▒m─▒ ÔÇť ─░ngilizceÔÇÖden T├╝rk├žeÔÇÖye ├çeviriÔÇŁ c├╝mlesi, birka├ž d├╝zine ├Ârnek ÔÇťcat=>kediÔÇŁ, ÔÇťcar=>arabaÔÇŁ gibi metinler ve komut istemi ise ├ževirisini yap─▒lmas─▒n─▒ bekledi─čimiz ÔÇťwater=>ÔÇŁ ┼čeklinde olabilir. GPT-3 t├╝m bu bilgileri ba─člam olarak al─▒r ve ├ž─▒kt─▒ belirtecini tahmin etmeye ba┼člar. Sonu├ž olarak modelin, water kelimesi i├žin T├╝rk├že ÔÇťsuÔÇŁ ├ž─▒kt─▒s─▒n─▒ vermesi beklenir. T├╝m bu s├╝re├ž s─▒f─▒r-├Ârnek (zero-shot) ve tek-├Ârnek (one-shot) ile ├Â─črenmede de ayn─▒d─▒r; sadece ├Ârneklerin say─▒s─▒ azalt─▒l─▒r. 


­čÉú SONU├çLAR

G├Âreve ├Âzg├╝ model mimarileri gerektirmemenin yan─▒ s─▒ra g├Âreve ├Âzg├╝ b├╝y├╝k veri k├╝meleri gerektirmeme kavram─▒, son teknoloji NLPÔÇÖyi daha eri┼čilebilir hale getirme y├Ân├╝nde b├╝y├╝k bir ad─▒md─▒r. 

GPT-3’├╝n genelle┼čtirilebilirli─čini test etmek i├žin iki d├╝zineden fazla NLP g├Ârevi ├╝zerinde de─čerlendirme yap─▒lm─▒┼čt─▒r. G├Ârevler, dil modelini do─črudan kullananlardan (c├╝mle tamamlama gibi) modeli dolayl─▒ olarak ve bazen aritmetik problemleri ├ž├Âzmek gibi farkl─▒ ┼čekillerde kullanan g├Ârevlere kadar uzanmaktad─▒r. Gelin bu sonu├žlara – tamam─▒na olmasa da- g├Âz gezdirelim ­čžÉ

­čîÁ Dil Modelleme Testleri

Paragraf uzunlu─čundaki hikayelerin son kelimesinin tahminlenmesini gerektiren LAMBADA testinde s─▒f─▒r-├Ârnek yakla┼č─▒m─▒ daha ├Ânce elde edilen en y├╝ksek skora g├Âre 8 puanl─▒k kazan├ž ile %76 do─čruluk sa─člar.

LAMBADA testine benzer ┼čekilde, HellaSwag testi de bir hikaye i├žin en iyi sonu se├žme g├Ârevidir. GPT-3 bu g├Ârevde ise tek-├Ârnek yakla┼č─▒m─▒ ile %78’lik do─čruluk elde eder, ancak bu sonu├ž ┼ču anki son teknolojinin gerisindedir.

Bir di─čer dil modelleme testi ise StoryCloze testidir. Birden ├žok se├ženekten be┼č c├╝mlelik bir hikayeyi en iyi tamamlayan c├╝mleyi se├žmeyi gerektirir. GPT-3, s─▒f─▒r-├Ârnek yakla┼č─▒m─▒nda % 83 ve birka├ž-├Ârnek ile ise % 88 do─čruluk oran─▒na ula┼č─▒r. Bu sonu├ž, en iyi ince ayarl─▒ modelden d├Ârt puan daha d├╝┼č├╝k olsa da ├Ânceki s─▒f─▒r-├Ârnek sonu├žlar─▒na g├Âre yakla┼č─▒k 10 puan daha iyile┼čme sa─člam─▒┼čt─▒r.

­čîÁKapal─▒ Kitap Soru Cevaplama

NLP alan─▒nda klasikle┼čmi┼č bir g├Ârev olan kapal─▒ kitap soru cevaplamada (closed book QA) TriviaQA veri k├╝mesi i├žin GPT-3, yaln─▒zca ince ayar yapmakla kalmayan, ayn─▒ zamanda yan─▒t─▒ i├žermesi muhtemel metin par├žalar─▒n─▒ almak i├žin bir Bilgi Eri┼čim bile┼čeni kullanan literat├╝rdeki en son yakla┼č─▒mdan daha ├╝st├╝n performans sergilemi┼čtir.

Tablo 1: ├ť├ž farkl─▒ veri k├╝mesi i├žin soru cevaplama g├Âreviyle ilgili sonu├žlar (Kaynak)

NaturalQS ve WebQS veri k├╝melerinde ise ince ayar kullan─▒lmamas─▒na ra─čmen en son yakla┼č─▒mlar─▒n performans─▒na yakla┼čm─▒┼čsa da, ├╝st├╝n performans sergileyememi┼čtir. 

­čîÁMakine ├çevirisi

GPT-3 ÔÇś├╝n e─čitiminde kullan─▒lan verilerin %93ÔÇÖ├╝ ─░ngilizce iken %7’si ise di─čer dillerdendir ve ara┼čt─▒rmac─▒lar modelin ├ževiri yetene─čini daha iyi anlamak i├žin ayr─▒ca analizlerini yayg─▒n olarak ├žal─▒┼č─▒lan Almanca ve RomenceÔÇÖyi i├žerecek ┼čekilde geni┼čletmi┼člerdir.

Tablo 2: ─░ngilizce, Frans─▒zca, Almanca ve Romence dillerinde makine ├ževirisi sonu├žlar─▒n─▒n kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Genel olarak sonu├žlar incelendi─činde s─▒f─▒r-├Ârnek ile ├Â─črenmede GPT-3 makine ├ževirisi g├Ârevinde k├Ât├╝ performans g├Âsterirken, tek-├Ârnekli ├Â─črenmede sonu├žlar─▒n daha iyile┼čti─či g├Âr├╝lm├╝┼čt├╝r. Birka├ž-├Ârnekli ├Â─črenme yakla┼č─▒m─▒n─▒n sonu├žlar─▒nda ise GPT-3 en iyi ince ayarl─▒ denetimsiz modellerle rekabet edecek d├╝zeyde iyile┼čmi┼čtir.

­čîÁSa─čduyu Muhakemesi (Common Sense Reasoning)

Fiziksel ve/veya bilimsel ak─▒l y├╝r├╝tme gerektiren bu zorlu g├Ârev c├╝mle tamamlama, okudu─čunu anlama veya geni┼č kapsaml─▒ soru cevaplamadan farkl─▒d─▒r. 

ÔÇťG├Âz far─▒n─▒ f─▒r├žas─▒z uygulamak i├žin pamuklu ├žubuk mu yoksa k├╝rdan m─▒ kullanmal─▒y─▒m?ÔÇŁ gibi sorular bar─▒nd─▒ran PhysicalQA veri k├╝mesi (PIQA), 3. s─▒n─▒ftan 9. s─▒n─▒fa kadar farkl─▒ d├╝zeylerde fen s─▒navlar─▒ndan al─▒nan ├žoktan se├žmeli sorular─▒ i├žeren Soyutlama ve Ak─▒l Y├╝r├╝tme G├Ârevi (ARC Challenge) ve ├žok ad─▒ml─▒ muhakeme gerektiren OpenBookQA veri k├╝mesi ├╝zerinde GPT-3 modeli test edilmi┼čtir. A┼ča─č─▒daki tabloda g├Âr├╝lebilece─či gibi, her ne kadar PIQA i├žin state-of-the-artÔÇÖ─▒n ├╝zerine ├ž─▒kmay─▒ ba┼čarm─▒┼č olsa da, di─čer veri k├╝meleri ├╝zerinde literat├╝rdeki ├žal─▒┼čmalara oranla olduk├ža d├╝┼č├╝k performans sergilemi┼čtir.

Tablo 3: PIQA, ARC ve OpenBookQA olmak ├╝zere 3 farkl─▒ sa─čduyu muhakemesi g├Ârevine ili┼čkin sonu├žlar.(Kaynak)


­čîÁOkudu─čunu Anlama (Reading Comprehension)

Okudu─čunu anlama g├Ârevini her y├Ân├╝yle test etmek isteyen ara┼čt─▒rmac─▒lar, a├ž─▒klama gerektiren, ├žoktan se├žmeli veya aral─▒k tabanl─▒ cevaplar─▒ olan diyalog veya tek soru ┼čeklinde y├Âneltilen anlama sorular─▒n─▒ bar─▒nd─▒ran 5 farkl─▒ veri k├╝mesi ile testleri ger├žekle┼čtirmi┼člerdir. Bu testlerde yan─▒tlama bi├žimlerine ba─čl─▒ olarak de─či┼čken ba┼čar─▒m oranlar─▒ elde edilmi┼čtir. En iyi sonu├ž serbest bi├žimli bir konu┼čma veri k├╝mesi olan CoQAÔÇÖda g├Âzlemlenirken, en k├Ât├╝ sonu├ž ise QuAC veri k├╝mesinde elde edilmi┼čtir. Genel olarak elde edilen sonu├žlar incelendi─činde CoQA veri k├╝mesi hari├ž di─čer veri k├╝melerinin tamam─▒nda literat├╝rdeki modellerden ├žok daha d├╝┼č├╝k ba┼čar─▒m elde edildi─či a├ž─▒k├ža g├Âr├╝lmektedir.

Tablo 4: Okudu─čunu anlama g├Ârevlerine ili┼čkin sonu├žlar. Do─čruluk de─čeri (accuracy) bildiren RACE sonu├žlar─▒ d─▒┼č─▒nda t├╝m puanlar F1’dir. (Kaynak)


­čîÁSentetik ve Nitelikli G├Ârevler

GPT-3ÔÇÖ├╝n yetenek aral─▒─č─▒n─▒ ke┼čfetmenin bir yolu da, an─▒nda basit say─▒sal muhakeme yapmay─▒, e─čitimde meydana gelmesi muhtemel olmayan yeni bir modeli tan─▒may─▒ veya al─▒┼č─▒lmad─▒k bir g├Âreve h─▒zl─▒ca adapte olmay─▒ gerektiren g├Ârevler vermektir. Bu g├Ârevlere ve elde edilen ba┼čar─▒mlara bir g├Âz atal─▒m o zaman..

­čŹäAritmetik ─░┼člemler

Ara┼čt─▒rmac─▒lar taraf─▒ndan GPT-3ÔÇÖ├╝n g├Âreve ├Âzg├╝ e─čitim olmadan basit aritmetik i┼člemleri ger├žekle┼čtirme yetene─čini test etmek i├žin, GPT-3’e do─čal dilde basit bir aritmetik problem sorulmas─▒n─▒ i├žeren 10 testlik k├╝├ž├╝k bir i┼člem serisi olu┼čturulmu┼čtur. 

Bu i┼člemler; 2 basamakl─▒ toplanma / ├ž─▒karma (2D +/-) , 3 basamakl─▒ toplama / ├ž─▒karma (3D +/-) , 4 basamakl─▒ toplanma / ├ž─▒karma (4D +/-), 5 basamakl─▒ toplanma / ├ž─▒karma (5D +/-), 2 basamakl─▒ ├žarpma (2Dx) ve tek basamakl─▒ say─▒larla bile┼čik aritmetik i┼člem yapma (1DC). Her bir g├Ârev i├žin, rastgele 2.000 ├Ârnekten olu┼čan bir veri k├╝mesi olu┼čturulmu┼č ve bu ├Ârneklerle t├╝m modeller de─čerlendirilmi┼čtir.

Birka├ž ├Ârnekle e─čitim sonu├žlar─▒na bak─▒ld─▒─č─▒nda toplama ve ├ž─▒karma i┼člemlerinde, basamak say─▒s─▒ az oldu─čunda g├╝├žl├╝ bir yeterlilik g├Âsterdi─či g├Âr├╝lmektedir. 

Tablo 5: GPT-3 (175B-parametre) i├žin temel aritmetik g├Ârevlerle ilgili sonu├žlar.(Kaynak)

K├╝├ž├╝k modeller ise t├╝m bu g├Ârevlerde yetersiz bir performans sergilemi┼čtir, ├Âyle ki 13 milyar parametreli GPT-3 modeli bile (175 milyar tam GPT-3’ten sonraki en b├╝y├╝k ikinci) 2 basamakl─▒ toplama ve ├ž─▒karma i┼čleminin yaln─▒zca yar─▒s─▒n─▒ ├ž├Âzebilmektedir. 

Tek ├Ârnek ve s─▒f─▒r ├Ârnek performans─▒, birka├ž ├Ârnek performans─▒na g├Âre daha d├╝┼č├╝kt├╝r, bu da g├Âreve uyumun (veya en az─▒ndan g├Ârevin tan─▒nmas─▒n─▒n) bu hesaplamalar─▒ do─čru bir ┼čekilde ger├žekle┼čtirmek i├žin ├Ânemli oldu─čunu g├Âstermektedir.

­čŹäKelime Kar─▒┼čt─▒rma ve Manip├╝lasyon G├Ârevleri

Bu kez GPT-3’├╝n manip├╝le edilmi┼č kelimelerin orjinalini bulma yetene─činin ├Âl├ž├╝ld├╝─č├╝ 5 farkl─▒ g├Ârev ├╝zerine incelemeler yap─▒lm─▒┼čt─▒r. Bu g├Ârevlerde modele karakterlerin kar─▒┼čt─▒r─▒lmas─▒, eklenmesi veya silinmesiyle bozulmu┼č bir kelime verilerek ondan orijinal kelimeyi kurtarmas─▒ beklenmektedir. G├Ârevler ise ┼č├Âyledir:

  • S├Âzc├╝kteki harfleri ├ževirme (CL) : Orjinal kelimedeki harflerin s─▒ras─▒n─▒ de─či┼čtirmeksizin sadece karakterleri belli say─▒da ├Âteleyerek manip├╝le edilen kelimelerin orjinal hallerine geri d├Ând├╝r├╝lmesi beklenmektedir.
  • ─░lk ve son karakterler hari├ž t├╝m harflerin kar─▒┼čt─▒r─▒lmas─▒(A1)ÔÇŐÔÇöÔÇŐModele, ilk ve son hari├ž t├╝m harflerin rastgele kar─▒┼čt─▒r─▒ld─▒─č─▒ bir kelime verilerek orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir. ├ľrnek: ÔÇťcriroptuonÔÇŁ Ôćĺ ÔÇťcorruptionÔÇŁ 
  • ─░lk 2 ve son 2 karakter hari├ž t├╝m harflerin kar─▒┼čt─▒r─▒lmas─▒ (A2)ÔÇŐÔÇöÔÇŐModele, ilk 2 ve son 2 hari├ž t├╝m harflerin rastgele kar─▒┼čt─▒r─▒ld─▒─č─▒ bir kelime verilerek orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir. ├ľrnek: ÔÇťopoepnntÔÇŁ Ôćĺ ÔÇťopponentÔÇŁ
  • Kelimedeki harfler aras─▒na rastgele karakter ekleme (RI)ÔÇŐÔÇöÔÇŐBir kelimenin her harfinin aras─▒na rastgele bir noktalama veya bo┼čluk karakteri eklenerek modelin orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir. ├ľrnek: ÔÇťs.u! C / c! E.s s i / o / nÔÇŁ Ôćĺ ÔÇťsuccessionÔÇŁ
  • Ters s├Âzc├╝kler (RW)ÔÇŐÔÇöÔÇŐModele tamamen ters y├╝z edilmi┼č olarak verilen s├Âzc├╝klerden ├ž─▒kt─▒ olarak kelimelerin orjinalinin elde edilmesi beklenmektedir. ├ľrnek: ÔÇťstcejboÔÇŁ Ôćĺ ÔÇťobjectsÔÇŁ

­čĺź Di─čer sonu├žlardan k─▒sa k─▒sa..

ÔÜíBir zamirin hangi kelimeye at─▒fta bulundu─čunu belirlemenin hedeflendi─či klasik bir g├Ârev olan Winograd Schemas ChallengeÔÇÖda klasik Winograd veri k├╝mesi i├žin ince-ayarla elde edilen literat├╝rdeki en y├╝ksek ba┼čar─▒m (fine-tuned SOTA) %90.1 iken; GPT-3’de s─▒ras─▒yla s─▒f─▒r ├Ârnekle, tek ├Ârnekle ve birka├ž ├Ârnekle e─čitimle elde edilen ba┼čar─▒mlar % 88,3,% 89,7 ve% 88,6’d─▒r.

ÔÜí ─░ki c├╝mle aras─▒ndaki ili┼čkiyi anlama becerisini ├Âl├žen Do─čal Dil ├ç─▒kar─▒m─▒ (Natural Language Inference (NLI)); ikinci c├╝mlenin mant─▒ksal olarak ilk c├╝mlenin ard─▒ndan m─▒ geldi─čini veya ilk c├╝mle ile ├želi┼čip ├želi┼čti─či gibi ├ž─▒kar─▒mlar─▒n do─čru yap─▒lmas─▒ beklenen zorlu bir g├Ârevdir. Farkl─▒ benchmark veri k├╝meleri ├╝zerinde elde edilen sonu├žlar, NLIÔÇÖnin dil modelleri i├žin hala ├žok zor bir g├Ârev oldu─čunu ve ilerleme belirtileri g├Âstermeye daha yeni ba┼člad─▒─č─▒n─▒ g├Âstermektedir.

ÔÜí ─░nsan ve GPT-3 modeli taraf─▒ndan ├╝retilen haber metinlerinin insanlar taraf─▒ndan ay─▒rt edilmesi deneyinde, model boyutu artt─▒k├ža kat─▒l─▒mc─▒lar─▒n ay─▒rt etmek i├žin daha fazla zaman harcamas─▒na kar┼č─▒n daha d├╝┼č├╝k do─čruluk puan─▒ elde ettikleri g├Âr├╝lmektedir. Bu sonu├ž da asl─▒nda model boyutunun b├╝y├╝mesi ile birlikte ay─▒rt edilmesi daha g├╝├ž haber metinlerinin ├╝retilebildi─či bulgusunu desteklemektedir.

┼×ekil 3: GPT-3 taraf─▒ndan ├╝retilen ve insanlar─▒n bir insan taraf─▒ndan yaz─▒lm─▒┼č makaleden ay─▒rt etmede en b├╝y├╝k zorlu─ča sahip oldu─čunu belirtti─či makale (do─čruluk:% 12). (Kaynak)

ÔÜí GPT-3’├╝n yeni kelimeleri ├Â─črenme ve kullanma yetene─či; asl─▒nda dil i├žerisinde hi├ž var olmam─▒┼č ÔÇťGigamuruÔÇŁ gibi bir kelimenin insanlar taraf─▒ndan uydurulmu┼č tan─▒m─▒ verildi─činde modelin onu anlam─▒na uygun olacak bir c├╝mlede kullanabilme becerisi ile ├Âl├ž├╝lmeye ├žal─▒┼č─▒lm─▒┼čt─▒r. Model taraf─▒ndan ├╝retilen baz─▒ c├╝mleler a┼ča─č─▒da verilmi┼čtir ve g├Âr├╝nen o ki ├╝retilen c├╝mleler, kelimenin do─čru veya en az─▒ndan makul bir kullan─▒m─▒ gibi.

┼×ekil 4: Gri renkteki uyar─▒ c├╝mleleri insanlar taraf─▒ndan yaz─▒lm─▒┼č metinleri, kal─▒n siyah olarak yaz─▒lm─▒┼č olan metinler ise GPT-3ÔÇÖ├╝n tamamlamalar─▒ g├Âstermektedir. ─░lk ├Ârnekte hem uyar─▒ hem tamamlama bir insan taraf─▒ndan sa─članm─▒┼čt─▒r; bu daha sonra GPT-3’├╝n art arda ek istemleri ald─▒─č─▒ ve tamamlamalar─▒ sa─člad─▒─č─▒ ├Ârnekler i├žin bir ko┼čulland─▒rma g├Ârevi g├Ârmektedir. GPT-3’e burada g├Âsterilen ko┼čulland─▒rma d─▒┼č─▒nda g├Âreve ├Âzg├╝ hi├žbir ┼čey sa─članmam─▒┼čt─▒r.(Kaynak)

ÔÜí Birka├ž ├Ârnekle ├Â─črenmenin (few-shot learning) iyi sonu├žlar─▒ndan biri de ─░ngilizce gramer d├╝zeltme g├Ârevinde g├Âzlenmi┼čtir.

┼×ekil 5: ─░ngilizce dilbilgisini d├╝zeltme g├Ârevi i├žin birka├ž ├Ârnekle e─čitilmi┼č (few-shot) GPT-3’├╝n tamamlamalar─▒. (Kaynak)

­čÄľ´ŞĆMadalyonun Di─čer Y├╝z├╝

­čĹŻ GPT-3 di─čer dil modellerinden niteliksel olarak daha iyi dursa da, metin sentezleme yetene─či, tekrarlar, yeterince uzun pasajlarda tutarl─▒l─▒k kayb─▒ ve ├želi┼čki gibi dil modellerinde a┼čina oldu─čumuz zay─▒f noktalara hala maruz kald─▒─č─▒ net bir ┼čekilde g├Âr├╝lmektedir.

­čĹŻGPT-3’├╝n baz─▒ g├Ârevlerinde ├žok a├ž─▒k ┼čekilde ba┼čar─▒s─▒z oldu─ču g├Âr├╝lm├╝┼čt├╝r. ├çift y├Ânl├╝ bilgiyi dahil etmek yerine (BertÔÇÖe benzer ┼čekilde) otoregresif bir yap─▒da olmas─▒ y├Ân├╝yle ba─člam i├ži ├Â─črenmeyi daha kolay ger├žekle┼čtiriyor olmas─▒, ne yaz─▒k ki a┼ča─č─▒ seviye dil g├Ârevlerinde istenen ba┼čar─▒y─▒ getirmemi┼čtir.

­čĹŻGPT-3 ├Âl├že─čindeki modellerle ili┼čkin bir di─čer s─▒n─▒rl─▒l─▒k ise modellerin mevcut bi├žimlerinde pratik uygulanabilirli─čin olduk├ža zor olmas─▒d─▒r. Gelecekte bu konuya olas─▒ bir ├ž├Âz├╝m olarak, b├╝y├╝k modellerin belirli g├Ârevler i├žin y├Ânetilebilir bir boyuta indirgenmesi d├╝┼č├╝n├╝lebilir. ├ç├╝nk├╝ GPT-3 gibi b├╝y├╝k modeller ├žok geni┼č bir beceri yelpazesi i├žerir ve bunlar─▒n ├žo─ču belirli bir g├Ârev i├žin gerekli de─čildir, bu da prensipte agresif dam─▒tman─▒n m├╝mk├╝n olabilece─čini d├╝┼č├╝nd├╝r├╝r.

­čĹŻGPT-3’de di─čer ├žo─ču derin ├Â─črenme modelinde ortak olan; kararlar─▒n─▒n kolayca yorumlanamamas─▒, e─čitim verilerindeki ├Ân yarg─▒lardan fazlaca etkilenme gibi baz─▒ k─▒s─▒tlar─▒ bar─▒nd─▒rmaya devam etmektedir. Modelin basmakal─▒p veya ├Ânyarg─▒l─▒ i├žerik olu┼čturmas─▒na yol a├žabilecek verilerdeki ├Ânyarg─▒lar, toplumsal bir bak─▒┼č a├ž─▒s─▒ndan ├Âzel bir endi┼če kayna─č─▒ olarak tan─▒mlanm─▒┼č ve bu konu makale i├žerisinde ayr─▒ca bir b├Âl├╝mde tart─▒┼č─▒lm─▒┼čt─▒r.


­čÄ«Uygulama ├ľrnekleri

├ťzerine ├žok├ža konu┼čulan ve 2020 y─▒l─▒nda alanda ┼ča┼čk─▒nl─▒k yaratan bir geli┼čme olarak kabul edilen GPT-3’├╝ teknik olarak ele almaya ├žal─▒┼čt─▒─č─▒m bu blog yaz─▒n─▒, GPT-3ÔÇÖ├╝n APIÔÇÖsine eri┼čim hakk─▒ olanlar─▒n ├╝retti─či ilgi ├žekici birka├ž GPT-3 uygulamas─▒n─▒ listeleyerek tamamlayal─▒m.

­čÜÇ ├ťretmek istedi─činiz uygulamay─▒ c├╝mlelerle ifade etti─činizde birka├ž saniye i├žerisinde bu uygulaman─▒n HTML tasar─▒m─▒n─▒n yan─▒ s─▒ra gerekli fonksiyonlar─▒ da kullanarak haz─▒rlanm─▒┼č Javascript kodunu size sunmas─▒n─▒ isterseniz buraya buyurun­čĄÖ­čĆ╗ 

­čÜÇPeki ya siz yaz─▒lm─▒┼č kodun ne i┼če yarad─▒─č─▒n─▒ anlayam─▒yorsan─▒z, onun da ├ž├Âz├╝m├╝ var! 

­čÜÇ D├╝nyaca ├╝nl├╝ ┼čairlere ait yaln─▒zca birka├ž dize verdi─činizde, o ┼čairin kim oldu─čunu anlayan ve hatta o ┼čairin ├╝slubunu taklit ederek yeni ┼čiirler olu┼čturabilen biruygulamaya ne dersiniz? 

­čÜÇ Herhangi bir konuda otomatik s─▒nav olu┼čturan, cevap anahtar─▒ sunan ve bununla da yetinmeyip bu s─▒nav─▒n uyguland─▒─č─▒ ├Â─črencilerin cevaplar─▒n─▒ de─čerlendiren bir uygulama neden olmas─▒n?

­čÜÇ Lateks denklemlerini ─░ngilizce c├╝mlelerle ifade etti─čimizde otomatik olarak olu┼čturulmas─▒n─▒ hayal etmeyen bir doktora ├Â─črencisi yoktur san─▒r─▒m ­čĄô

­čÜÇ Karma┼č─▒k hukuk dili ile yaz─▒lm─▒┼č metinlerin sade bir ─░ngilizce ile ifade edilmesi alanda ├žal─▒┼čmayan ki┼čilerin i┼člerini olduk├ža kolayla┼čt─▒rmaz m─▒yd─▒?

­čÜÇMuhasebe bilgisi olmayan ki┼čilerin mali tablolar olu┼čturmas─▒n─▒ sa─člayan bir GPT-3 botu, ba┼čka bir deyi┼čle otomatik bir muhasebeci i├žin b├Âyle buyurun ­čĄÖ­čĆ╗


├ťretken ├ľn ─░┼člemeli D├Ân├╝┼čt├╝r├╝c├╝ (Generative Pre-trained Transformer) ailesinin son ├╝yesi olan GPT-3’├╝n tan─▒t─▒ld─▒─č─▒ ve teknik olarak incelendi─či bu blog yaz─▒s─▒, modeli olu┼čturan ara┼čt─▒rmac─▒lar─▒n kaleme ald─▒─č─▒ ÔÇťLanguage Models are Few-Shot LearnersÔÇŁmakalesi referans al─▒narak yaz─▒lm─▒┼čt─▒r.

Ayr─▒ca kullan─▒lan kaynaklar a┼ča─č─▒da listelenmi┼čtir:

ÔşÉOpenAI Blog 

ÔşÉLambda labs ara┼čt─▒rmac─▒lar─▒ndan Chuan Li taraf─▒ndan kaleme al─▒nan GPT-3 teknik incelemeblog postu 

ÔşÉ ETH ZurichÔÇÖde doktora ├Â─črencisi olan Yannic Kilcher taraf─▒ndan ÔÇťGPT-3: Language Models are Few-Shot LearnersÔÇŁ makale inceleme videosu

ÔşÉProf. Dr. Cem Say taraf─▒ndan yaz─▒lan ÔÇťYapay zek├ó, GPT-3 ve s─▒n─▒rlar─▒: Bilgisayarlar da bizi anl─▒yor mu?ÔÇŁ isimli makale

ÔşÉ(Uygulama ├ľrnekleri) Bar─▒┼č ├ľzcan taraf─▒ndan yay─▒nlanan ÔÇťYapay zeka d├╝nyas─▒ndaki en b├╝y├╝k s─▒├žrama ger├žekle┼čti! GPT-3 nedir?ÔÇŁ inceleme videosu


­čŹÇ Yaz─▒ hakk─▒nda g├Âr├╝┼čleriniz, ├Ânerileriniz ve katk─▒lar─▒n─▒z i├žin ┼čimdiden te┼čekk├╝rler! Keyifli okumalar ÔśĽ

­čĹę­čĆ╗ÔÇŹ­čĺ╗ Blog yaz─▒s─▒ hakk─▒ndaki geri bildirimleri ve yorumlar─▒ i├žin Ayy├╝ce K─▒zrak ve Yavuz K├Âme├žo─čluÔÇÖna te┼čekk├╝rlerimle.. 

Tarih:Do─čal Dil ─░┼člemeMakale Okumalar─▒Teknik Yaz─▒larYapay ├ľ─črenme

─░lk Yorumu Siz Yap─▒n

Bir cevap yaz─▒n

E-posta hesab─▒n─▒z yay─▒mlanmayacak. Gerekli alanlar * ile i┼čaretlenmi┼člerdir