─░├žeri─če ge├ž

­čôÜMakale Okumalar─▒ÔÇŐ-ÔÇŐ volm.3


Image Captioning in Turkish with Subword Units

Alts├Âzc├╝k ├ľgeleri ile T├╝rk├že G├Âr├╝nt├╝ Altyaz─▒lama


Her ne kadar Do─čal Dil ─░┼čleme (DD─░) ├žal─▒┼č─▒yor olsam da, ├žal─▒┼čma alan─▒m─▒ Bilgisayarl─▒ G├Âr├╝ (BG) ile ortak bir noktada birle┼čtiren uygulamalar heyecan─▒m─▒ ve hevesimi ger├žekten fazlas─▒yla art─▒r─▒yor! Hele bir de bu uygulamalar─▒n anadilde ger├žekle┼čtiriliyor olmas─▒ muazzam bir duygu!

Bu kez tam da bu s├Âyledi─čim 2 ├Âzelli─či bar─▒nd─▒ran, 2018 y─▒l─▒nda Hacettepe ├ťniversitesi Bilgisayarl─▒ G├Âr├╝ Laboratuvar─▒ (HUCVL- Hacettepe University Computer Vision Lab.) ara┼čt─▒rmac─▒lar─▒ Menek┼če Kuyu, Aykut Erdem, Erkut Erdem taraf─▒ndan 26. Sinyal ─░┼čleme ve ─░leti┼čim Uygulamalar─▒ (S─░U) Kurultay─▒ÔÇÖnda sunulan ÔÇťImage Captioning in Turkish with Subword UnitsÔÇŁ bildirisini ele alaca─č─▒m!


­čĺÄG├Âr├╝nt├╝ Altyaz─▒lama Problemi Nedir?

Veriler ├žo─čal─▒yor, karma┼č─▒kla┼č─▒yor ve i┼čte bu noktada de─či┼čim ve d├Ân├╝┼č├╝m ba┼čl─▒yor. Birden fazla g├Ârevin ayn─▒ anda ger├žekle┼čmesini gerektiren problemlerin say─▒s─▒ g├╝nden g├╝ne art─▒yor ve b├Âylece hem farkl─▒ disiplinler hemde ayn─▒ disiplin i├žerisindeki farkl─▒ ├žal─▒┼čma alanlar─▒ da hi├ž olmad─▒─č─▒ kadar birbirlerine yakla┼č─▒yor!

G├Âr├╝nt├╝ alt yaz─▒lama problemi de Bilgisayar Bilimi i├žerisinde yer alan iki ├Ânemli ├žal─▒┼čma alan─▒ DD─░ ve BGÔÇÖi bir araya getiren, zorlu bir problem olarak kar┼č─▒m─▒za ├ž─▒k─▒yor. 

Bir g├Âr├╝nt├╝n├╝n i├žeri─činin a├ž─▒klanmas─▒ amac─▒yla otomatik olarak c├╝mle ya da ifade ├╝retme problemi olarak tan─▒mlanabilir. BG ile g├Âr├╝nt├╝ i├žeri─činin yakalanmas─▒n─▒ ve yakalanan bu i├žeri─čin DD─░ modeli taraf─▒ndan en do─čru ┼čekilde ifade edilmesini gerektirmektedir. G├Âr├╝nt├╝n├╝n i├žeri─činin anlaman─▒n yan─▒ s─▒ra metin ├╝retme gibi zorlu bir g├Ârev sonunda elde edilecek ├ž─▒kt─▒n─▒n ba┼čar─▒l─▒ olmas─▒nda, e─čitim k├╝mesindeki g├Âr├╝nt├╝ a├ž─▒klamalar─▒n─▒n do─črulu─ču, g├Âr├╝nt├╝y├╝ yeterince iyi ifade edebiliyor olmas─▒ ve g├╝r├╝lt├╝ d├╝zeyi do─črudan etkili unsurlard─▒r.


­čžĘVeri K├╝meleri

├çal─▒┼čmada kullan─▒lan veri k├╝melerinden bahsetmeden ├Ânce ─░ngilizce dili i├žin olu┼čturulmu┼č, literat├╝rde en fazla kullan─▒lan ve olduk├ža b├╝y├╝k boyutlu veri k├╝melerinden k─▒saca bahsedelim.

­čî╗Flickr8k: 2013 y─▒l─▒nda ÔÇťFraming Image Description as a Ranking Task: Data, Models and Evaluation MetricsÔÇŁ isimli ├žal─▒┼čmada sunulmu┼č olan veri k├╝mesi 8.000 resim ve her resme ait 5 farkl─▒ a├ž─▒klama bar─▒nd─▒r─▒r. G├Âr├╝nt├╝ler alt─▒ farkl─▒ Flickr grubundan se├žilmi┼č ve ├žok tan─▒nan ki┼čileri veya yerleri i├žermemeye ├Âzen g├Âsterilerek manuel olarak bir araya getirilmi┼čtir.

­čî╗Flickr30k: 2016 y─▒l─▒nda ÔÇť Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence ModelsÔÇŁ isimli makale ile tan─▒t─▒lm─▒┼č olan bir benchmark veri k├╝mesidir. 31,783 resim ve her resime ait 5 tane olmak ├╝zere toplamda 158,915 a├ž─▒klama bar─▒nd─▒r─▒r. Ancak bu kez a├ž─▒klamalar c├╝mle ┼čeklindedir.

­čî╗ Google Conceptual Captions: ACL 2018’de Google ara┼čt─▒rmac─▒lar─▒ taraf─▒ndan ÔÇťConceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image CaptioningÔÇŁ isimli ├žal─▒┼čma ile sunulan veri k├╝mesi yakla┼č─▒k 3.3 milyon resim/a├ž─▒klama ├žiftini bar─▒nd─▒r─▒r. Bu veri k├╝mesinde her resime ait 1 a├ž─▒klama bulunur.

­čî╗ MS COCO: 2015 y─▒l─▒nda ÔÇťMicrosoft COCO: Common Objects in ContextÔÇŁ makalesi ile yay─▒nlanan, 120.000 resim ve her resme ait 5 farkl─▒ a├ž─▒klama bar─▒nd─▒ran ve bir├žok farkl─▒ bilgisayarl─▒ g├Âr├╝ g├Ârevi i├žin literat├╝rde s─▒k├ža kullan─▒lan bir veri k├╝mesidir.

­čîŞG├Âr├╝nt├╝ Altyaz─▒lama Probleminde T├╝rk├že Veri K├╝meleri

­čî╗TasvirEt

T├╝rk├že g├Âr├╝nt├╝ altyaz─▒lama i├žin ├Ânerilmi┼č olan ilk veri k├╝mesi, Hacettepe ├ťniversitesi Bilgisayarl─▒ G├Âr├╝ Laboratuvar─▒ ara┼čt─▒rmac─▒lar─▒ taraf─▒ndan sunulan TasvirEt veri k├╝mesidir. Bu veri k├╝mesi, Flickr8k veri k├╝mesindeki t├╝m g├Âr├╝nt├╝ler i├žin T├╝rk├že altyaz─▒lar toplanmas─▒ ile olu┼čturulmu┼čtur. Toplam 8 bin g├Âr├╝nt├╝ ve her g├Âr├╝nt├╝ i├žin 2 altyaz─▒ bar─▒nd─▒r─▒r.

­čĺą Bu g├Ârev i├žin anadilimizde olu┼čturulmu┼č olduk├ža az say─▒da veri k├╝mesi var. B├╝y├╝k bir ├Âzveri ile olu┼čturulmu┼č ve a├ž─▒k olarak di─čer ara┼čt─▒rmac─▒lara da sunulan bu veri k├╝mesinin geni┼čletilmesinde ise insan g├╝c├╝ne ihtiya├ž duyulmaktad─▒r. G├Âr├╝nt├╝ler i├žin T├╝rk├že a├ž─▒klama yazarak ve/veya yaz─▒lan a├ž─▒klamalar─▒n kalitesini oylayarak sizde g├Ân├╝ll├╝ olarak destek olmak ve ad─▒n─▒z─▒ liderlik tablosuna yazd─▒rmak isterseniz, buyrunÔťî­čĆ╗

­čî╗MS-COCO (T├╝rk├že)

T├╝rk├že altyaz─▒lama i├žin kullan─▒labilecek bir di─čer veri k├╝mesi 2017 y─▒l─▒nda ÔÇťG├Âr├╝nt├╝ Altyaz─▒lama i├žin Otomatik Terc├╝meyle E─čitim K├╝mesi Olu┼čturulabilir mi?ÔÇŁ akademik ├žal─▒┼čmas─▒n─▒n ├ž─▒kt─▒s─▒ olarak sunulmu┼čtur. Bu ├žal─▒┼čmada MS-COCO veri k├╝mesindeki g├Âr├╝nt├╝ler kullan─▒lm─▒┼č ve onlara ait ─░ngilizce a├ž─▒klamalar Google Translate kullanarak T├╝rk├žeÔÇÖye otomatik ├ževrilmi┼čtir. TasvirEt veri k├╝mesine oranla daha b├╝y├╝k hacimli bir veri k├╝mesi olu┼čturulmu┼č olmas─▒na kar┼č─▒n otomatik terc├╝me sisteminin getirdi─či dilbi├žimsel ve anlamsal a├ž─▒dan g├╝r├╝lt├╝l├╝ a├ž─▒klamalar i├žermektedir. 

­čĺÄ Ele al─▒nan akademik makalede ise TasvirEt, MS-COCO ve Flickr30k veri k├╝meleri kullan─▒lm─▒┼čt─▒r.


­čÄ» Alts├Âzc├╝k Modeli Nedir?

T├╝rk├žeÔÇśnin sondan eklemeli dil yap─▒s─▒na sahip olmas─▒, kullan─▒lan farkl─▒ ekler ile farkl─▒ s├Âzc├╝k t├╝retme konusunda olduk├ža b├╝y├╝k avantaj sa─člar. Ancak do─čal dil i┼čleme bak─▒┼č a├ž─▒s─▒ndan bak─▒ld─▒─č─▒nda, bu avantaj ├╝stesinden gelinmesi gereken ciddi zorluklara da sebep olmaktad─▒r. T├╝rk├že s├Âzl├╝─č├╝n di─čer bir├žok dile oranla fazla say─▒da kelime i├žermesi de di─čer taraftan modellerin bellek kullan─▒m─▒n─▒ ve ├žal─▒┼čma s├╝resini artt─▒rmaktad─▒r. 

T├╝m bu zorluklar─▒n yan─▒ s─▒ra, e─čitim k├╝mesinde ├žok az ge├žen kelimeleri bar─▒nd─▒ran a├ž─▒klamalar─▒n ├Â─črenimi k├Ât├╝ y├Ânde etkilemektedir. Bu noktada ├ž├Âz├╝m olarak s├Âzl├╝─č├╝n sadece s─▒k ge├žen kelimelerden olu┼čturulmas─▒ yoluna gidilmektedir. T├╝rk├že ├Âzelinde b├Âyle bir yakla┼č─▒m─▒n sergilenmesi bir├žok kelimenin a├ž─▒klamalarda kullan─▒lamayacak olmas─▒n─▒ beraberinde getirir. Bu ├žal─▒┼čmada ise bu anlat─▒lan sorunlar─▒n ├ž├Âz├╝m├╝ne y├Ânelik basit ve do─čal bir ├ž├Âz├╝m getiren alts├Âz├╝k modeli ├Ânerilmi┼čtir.

├çal─▒┼čmada kullan─▒lan e─čitim k├╝mesinde yer alan s├Âzc├╝kler ilk olarak n-gram istatistikleri kullan─▒larak Pair Encoding (BPE) algoritmas─▒ kullan─▒larak alt s├Âzc├╝klere ayr─▒┼čt─▒r─▒lm─▒┼čt─▒r. BPE modeli e─čitim k├╝mesindeki s├Âzc├╝kleri, karakterlerine ayr─▒┼čt─▒rmakla g├Âreve ba┼člar. Her bir ayr─▒k karakter, bir sembol olarak d├╝┼č├╝n├╝lerek veri k├╝mesinde ikili karakterlerin yan yana ge├žme s─▒kl─▒─č─▒ hesaplan─▒r. Yan yana ge├žme s─▒kl─▒─č─▒ en y├╝ksek olan iki karakter birle┼čtirilir ve b├Âylece iki karakter uzunlu─čunda yeni bir sembol yarat─▒l─▒r. Birle┼čtirme i┼člemi, yinelemeli olarak t├╝m semboller i├žin belirli s─▒kl─▒kta ve belirli say─▒da alt s├Âzc├╝kler elde edilene kadar tekrarlan─▒r. 

Temelde ki ama├ž, e─čitim k├╝mesi i├žerisindeki en s─▒k karakter n-gramlar─▒n─▒n birle┼čerek sonunda bir alts├Âzc├╝─če d├Ân├╝┼čt├╝r├╝lmesidir.

BPE algoritmas─▒n─▒n di─čer kodlama algoritmalar─▒ndan en b├╝y├╝k fark─▒, s├Âzc├╝klerden olu┼čturulan de─či┼čken uzunluklu karakter dizilerini hala alt s├Âzc├╝k birimleri olarak yorumlayabilmesidir. B├Âylelikle e─čitim a┼čamas─▒nda kar┼č─▒la┼č─▒lmayan s├Âzc├╝klerin ├╝retilebilmesi de sa─članabilmektedir. 

├çal─▒┼čmada BPE modelini anadildeki s├Âzc├╝klerin alts├Âzc├╝klerine ayr─▒┼čt─▒r─▒lmas─▒n─▒n ├Â─črenilmesinde WikipediaÔÇÖdan toplanan T├╝rk├že metin veri k├╝mesi kullan─▒lm─▒┼č ve 30 bin farkl─▒ alts├Âzc├╝k ├Â─črenilmi┼čtir. 


­čÉ▒ÔÇŹ­čÜÇG├Âr├╝nt├╝ Altyaz─▒lama i├žin Yinelemeli Sinir A─č─▒ Modeli

├çal─▒┼čma kapsam─▒nda ├Ânerilen modelin e─čitimine ba┼člamada ├Ânce veri k├╝mesindeki alt yaz─▒lar BPE ile alts├Âzc├╝klerine ayr─▒lm─▒┼č ve altyaz─▒lara ait bir s├Âzl├╝k olu┼čturulmu┼čtur. Ard─▒ndan g├Âr├╝nt├╝ler ve ├Âni┼člemde alts├Âzc├╝klerine ayr─▒┼čt─▒r─▒lm─▒┼č olan alt yaz─▒lar ile kodlay─▒c─▒- kod ├ž├Âz├╝c├╝ tabanl─▒ Uzun K─▒sa S├╝reli Bellek (Long ShortTerm MemoryÔÇŐÔÇöÔÇŐLSTM) mimarisi kullan─▒lan model beslenmi┼čtir. Bu modelde, ├Âncelikle g├Âr├╝nt├╝ i├žeri─čini belirlemek i├žin evri┼čimsel sinir a─člar─▒ ile girdi g├Âr├╝nt├╝s├╝n├╝n anlamsal bir g├Âsterimi olu┼čturulmu┼č ve ard─▒ndan LSTM tabanl─▒ bir dil modeli kullanm─▒┼čt─▒r. Ara┼čt─▒rmac─▒lar, ├Ânerdikleri bu dil modelini e─čitirken CVPR 2015’de sunulan ÔÇťShow and tell: A neural image caption generatorÔÇŁ isimli ├žal─▒┼čman─▒n a├ž─▒k kaynak kodlu bir ger├žekle┼čtiriliminden faydalanm─▒┼člard─▒r. 


­čÉ▒ÔÇŹ­čÉë Sonu├žlar

├çal─▒┼čmada ├Ânerilen derin ├Â─črenme modelinin e─čitiminde 3 farkl─▒ veri k├╝mesinden faydalan─▒lm─▒┼čt─▒r. E─čitim k├╝mesindeki altyaz─▒lara ├Âncelikle alts├Âzc├╝k modeli uygulanmaks─▒z─▒n, s├Âzc├╝k tabanl─▒ bir derin ├Â─črenme modeli uygulanarak ve ard─▒ndan da alts├Âzc├╝klerden olu┼čan bir s├Âzl├╝k olu┼čturularak, bu s├Âzl├╝─če dayal─▒ olarak derin ├Â─črenme modelinde e─čitimler ger├žekle┼čtirilmi┼čtir. Elde edilen deneysel sonu├žlar a┼ča─č─▒daki tabloda g├Âr├╝lmektedir.

TasvirEt test k├╝mesinden ├Ârnek bir g├Âr├╝nt├╝ye ait orijinal altyaz─▒ ve e─čitilen iki farkl─▒ model i├žin tahmin edilen altyaz─▒lar a┼ča─č─▒da g├Âsterilmi┼čtir. ├ťretilen altyaz─▒lar incelendi─činde, alts├Âzc├╝k modelinin s├Âzc├╝k modeline g├Âre anlamsal olarak orijinal altyaz─▒ya yak─▒n sonu├ž ├╝retti─či g├Âzlenmektedir.

Ba┼čar─▒l─▒ oldu─ču kadar ba┼čar─▒s─▒z olan sonu├žlar─▒ da payla┼čmaktan ├žekinmeyen ara┼čt─▒rmac─▒lar─▒n elde etti─či sonu├žlardan birka├ž ├Ârne─če bakarak bitirelim­čĄŚ


Keyifli okumalar ÔśĽ

Tarih:Makale Okumalar─▒

─░lk Yorumu Siz Yap─▒n

Bir cevap yaz─▒n

E-posta hesab─▒n─▒z yay─▒mlanmayacak. Gerekli alanlar * ile i┼čaretlenmi┼člerdir