─░├žeri─če ge├ž

­čôÜMakale Okumalar─▒ÔÇŐ-ÔÇŐ volm.4


TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Do─čal Dili Anlamak i├žin BERT’i Dam─▒tmakÔś║´ŞĆ


Bir├žok ki┼činin ve ara┼čt─▒rmac─▒n─▒n asl─▒nda uzun y─▒llard─▒r var olan ÔÇťdil modeliÔÇŁ g├Âreviyle tan─▒┼čmas─▒n─▒ sa─člayan BERT modeli, 2018 y─▒l─▒nda sunuldu─čunda bug├╝n t─▒pk─▒ GPT-3’├╝n yaratt─▒─č─▒ hayranl─▒─č─▒ yaratm─▒┼čt─▒ ­čĄę ├ľyle ki ara┼čt─▒rmac─▒lar art─▒k dil i├žin ImageNet an─▒n─▒n geldi─čini s├Âyler olmu┼člard─▒ ­čą│ 

­čÜęBu s├Âylemin ne anlama geldi─čini ve BERTÔÇÖin yap─▒s─▒n─▒ inceledi─čim blog yaz─▒s─▒ i├žin b├Âyle buyurun l├╝tfenÔťî­čĆ╗

BERT ve ard─▒ndan pe┼č pe┼če tan─▒t─▒lan XLNet, RoBERTa, SpanBERT gibi ├Ânceden e─čitilmi┼č dil modelleri bir├žok dil g├Ârevinde sa─člad─▒klar─▒ ├╝st├╝n ba┼čar─▒lar ile adlar─▒ndan s├Âz ettirirken , di─čer taraftan da ├žok fazla say─▒da parametreye sahip olmas─▒ ve cep telefonlar─▒ gibi cihazlara yerle┼čtirilmesi zor olan uzun ├ž─▒kar─▒m s├╝resine ihtiya├ž duymas─▒ y├Ânleriyle ara┼čt─▒rmac─▒lara yeni bir geli┼čtirme konusu sundular. Bu kez ele alaca─č─▒m─▒z TinyBERT modeli de tam da bu yaraya ├žare olmas─▒ amac─▒yla geli┼čtirildi ­čžÖ­čĆ╗ÔÇŹ


­čÉ▓ Motivasyon

Ba┼čar─▒m─▒ korurken, model ├ž─▒kar─▒m─▒n─▒ h─▒zland─▒rmak ve boyutunu k├╝├ž├╝ltmek i├žin ├Ânerilen niceleme (quantization), a─č─▒rl─▒k budama (weights pruning) ve bilgi dam─▒tma (knowledge distillation (KD)) gibi bir├žok model s─▒k─▒┼čt─▒rma tekni─či literat├╝rde daha ├Ânce ├Ânerilmi┼čti. Bu makalede de, bir ├Â─čretmen-├Â─črenci ├žer├ževesinde (framework) Hinton ve di─čerleri taraf─▒ndan ├Ânerilen bir fikir olan bilgi dam─▒tmas─▒na odaklan─▒lm─▒┼čt─▒r. Buradaki temel ama├ž KDÔÇÖnin, geni┼č bir ├Â─čretmen a─č─▒na g├Âm├╝l├╝ olan bilgiyi k├╝├ž├╝k bir ├Â─črenci a─č─▒na aktarmas─▒d─▒r. Yani bir anlamda ├Â─črenci a─č─▒, ├Â─čretmen a─č─▒n─▒n davran─▒┼člar─▒n─▒ yeniden ├╝retecek ┼čekilde e─čitilmektedir. 

Makalede bu ├žer├ževeye dayan─▒larak, ├Âzellikle Transformer tabanl─▒ modeller i├žin yeni bir dam─▒tma y├Ântemi ├Ânerilmi┼č ve b├Âylelikle BERTÔÇÖden 7 kat daha k├╝├ž├╝k ve 9 kat daha h─▒zl─▒, performans─▒n─▒n% 96’s─▒na ula┼čan bir TinyBERT modeli elde edilmi┼čtir ­čśÄ

TinyBERTÔÇÖin ├Â─črenme s├╝reci

TinyBERT ile elde edilen 3 temel ├ž─▒kt─▒y─▒ ├Âzetleyecek olursak;

­čąç ├ľ─čretmen BERTÔÇÖde kodlanan dil bilgisinin TinyBERTÔÇÖe iyi bir ┼čekilde aktar─▒lmas─▒n─▒ sa─člamak i├žin yeni bir Transformer dam─▒tma y├Ânteminin ke┼čfedilmesi,

­čął ├ľnerilen Transformer dam─▒tma y├Ântemini hem e─čitim ├Âncesi hem de ince ayar a┼čamalar─▒nda ger├žekle┼čtiren yeni bir iki a┼čamal─▒ ├Â─črenme ├žer├ževesi ile TinyBERTÔÇÖin ├Â─čretmen BERTÔÇÖnin hem genel hem de g├Âreve ├Âzg├╝ bilgileri yakalayabilme kabiliyetine sahip olunmas─▒,

­čąë Deneysel olarak TinyBERTÔÇÖin GLUE g├Ârevlerinde ├Â─čretmen BERT-BaseÔÇÖin performans─▒n─▒ % 96’dan fazla oranda ba┼čarmas─▒n─▒n yan─▒ s─▒ra, ├žok daha az parametreye ve ├ž─▒kar─▒m s├╝resine sahip olmas─▒ ve di─čer durumlardan ├Ânemli ├Âl├ž├╝de daha iyi performans sergilemesidir.


­čž¬ Transformer Dam─▒tmas─▒ (Transformer distillation)

├çal─▒┼čmada ├Ânerilen transformer dam─▒tmas─▒ olarak T├╝rk├žele┼čtirebilece─čimiz Transformer distillation, Transformer a─člar─▒ i├žin ├Âzel olarak tasarlanm─▒┼č bir bilgi dam─▒tma y├Ântemidir. A┼ča─č─▒daki resimde de g├Âr├╝ld├╝─č├╝ ├╝zere hem ├Â─črenci hem ├Â─čretmen a─č─▒ transformer katmanlar─▒yla olu┼čturulmu┼čtur. 

Transformer dam─▒tmas─▒na genel bir bak─▒┼č; (a) : Transformer dam─▒tma ├žer├ževesi, (b): Dikkat temelli dam─▒tma (Attnloss) ve Gizli durumlar tabanl─▒ dam─▒tma (Hidnloss) bar─▒nd─▒ran Transformer-katman─▒ dam─▒tmas─▒n─▒n detaylar─▒

Transformer dam─▒tma i┼člevi, asl─▒nda temel olarak ├Â─črencinin ├Â─čretmeninden iyi bir ┼čekilde ├Â─črenmesine yard─▒mc─▒ olmak i├žin tasarlanm─▒┼č bir dizi kay─▒p fonksiyonudur. Bunlar, ├Â─črencinin ├Â─čretmenin g├Âmme katman─▒n─▒n, dikkat matrislerinin, gizli temsillerinin ve baz─▒ girdi metinleri verildi─činde tahmin katman─▒n─▒n nas─▒l tepki verdi─čini g├Âzlemlemesini sa─člar. 


­čĹę­čĆ╗ÔÇŹ­čĆź TinyBERT ├ľ─črenmesi

BERTÔÇÖin uygulamas─▒ genellikle iki ├Â─črenme a┼čamas─▒ndan olu┼čur: 

  1. ├Ân e─čitim (pre-training) ve 
  2. ince ayar (fine-tuning). 

├ľn e─čitim a┼čamas─▒nda BERT taraf─▒ndan ├Â─črenilen bilginin ├žok olmas─▒ olduk├ža ├Ânemlidir ve bu bilgilerin aktar─▒lmas─▒ gerekir. Bu nedenle, TinyBERTÔÇÖde genel dam─▒tma ve g├Âreve ├Âzg├╝ dam─▒tma olmak ├╝zere yeni bir iki a┼čamal─▒ ├Â─črenme ├žer├ževesi ├Ânerilmi┼čtir.

­čöŞ Genel dam─▒tma, ├Â─črencinin TinyBERTÔÇÖin genelleme yetene─čini geli┼čtirmede ├Ânemli bir rol oynayan ├Â─čretmen BERTÔÇÖde g├Âm├╝l├╝ olan zengin bilgiyi ├Â─črenmesine yard─▒mc─▒ olur. Burada ├Â─čretmen olarak ince ayar yapmadan orijinal BERT-Base ve e─čitim verileri olarak da b├╝y├╝k ├Âl├žekli bir korpus kullan─▒lm─▒┼čt─▒r. Genel alandaki korpus ├╝zerinde Transformer dam─▒tma ger├žekle┼čtirerek, alt seviye g├Ârevler i├žin ince ayar yap─▒labilen genel bir TinyBERT elde edilmi┼čtir. Ancak, gizli / g├Âmme boyutundaki ve katman say─▒s─▒ndaki ├Ânemli azalmalar nedeniyle, genel TinyBERT, BERTÔÇÖden nispeten daha k├Ât├╝ performans g├Âsterir.

­čöŞ G├Âreve ├Âzg├╝ dam─▒tmada ise, daha ├Ânce ├Ânerilen Transformer dam─▒tmas─▒ art─▒r─▒lm─▒┼č g├Âreve ├Âzg├╝ veri k├╝mesinde yeniden ger├žekle┼čtirilmi┼č ve b├Âylelikle ├Â─črenciye g├Âreve ├Âzg├╝ bilgi ├Â─čretilmi┼čtir. B├Âylelikle iki a┼čamal─▒ dam─▒tma ile ├Â─čretmen ve ├Â─črenci modelleri aras─▒ndaki bo┼člu─čun daha da azalt─▒labilmesi m├╝mk├╝n olmu┼čtur. Burada ince ayarl─▒ BERT ├Â─čretmen olarak kullan─▒lm─▒┼čt─▒r ve g├Âreve ├Âzg├╝ e─čitim k├╝mesini geni┼čletmek i├žin bir veri art─▒rma y├Ântemi ├Ânerilmi┼čtir. G├Ârevle ilgili daha fazla ├Ârnek g├Ârmek, ├Â─črenci modelinin genelleme yeteneklerini daha da geli┼čtirilebilmektedir. Bu ├žal─▒┼čmada, ├Ânceden e─čitilmi┼č bir dil modeli olan BERT ve GloVe kelime g├Âmmeleri veri art─▒rma i├žin kelime d├╝zeyinde de─či┼čtirme yapmak ├╝zere birle┼čtirilmi┼čtir.

­čĺí ─░ki ├Â─črenme a┼čamas─▒ da birbirini tamamlay─▒c─▒ niteliktedir: genel dam─▒tma, g├Âreve ├Âzel dam─▒tma i├žin iyi bir ba┼člang─▒├ž ÔÇőÔÇősa─člarken, g├Âreve ├Âzg├╝ dam─▒tma ise g├Âreve ├Âzg├╝ bilgileri ├Â─črenmeye odaklanarak TinyBERTÔÇÖi daha da geli┼čtirir.

Model boyutunda BERT ve TinyBERT aras─▒nda b├╝y├╝k bir bo┼čluk olmas─▒na ra─čmen, TinyBERT ├Ânerilen iki a┼čamal─▒ dam─▒tmay─▒ ger├žekle┼čtirerek ├že┼čitli NLP g├Ârevlerinde rekabet├ži performanslar elde etmektedir. 


­čĽŐ´ŞĆ ´ŞĆSONU├çLAR

TinyBERT, ├že┼čitli do─čal dil anlama g├Ârevlerinin bir koleksiyonu olan Genel Dil Anlama De─čerlendirmesi (General Language Understanding Evaluation (GLUE)) k─▒yaslamas─▒nda de─čerlendirildi─činde;

­ččó TinyBERT, t├╝m GLUE g├Ârevlerinde s├╝rekli olarak BERTSMALLÔÇÖdan daha iyi olmakla beraber, ortalama olarak % 6,3’l├╝k b├╝y├╝k bir geli┼čme sa─člamaktad─▒r. Bu da, ├Ânerilen bilgi dam─▒tma ├Â─črenme ├žer├ževesinin, a┼ča─č─▒ seviye g├Ârevlerden ba─č─▒ms─▒z olarak k├╝├ž├╝k modellerin performanslar─▒n─▒ etkili bir ┼čekilde iyile┼čtirebilece─čini g├Âsterir.

­ččó ├ľ─čretmen olarak ele al─▒nan BERTBase ile kar┼č─▒la┼čt─▒r─▒ld─▒─č─▒nda ise; TinyBERT rekabet├ži performanslar─▒ korur ve model verimlili─činde 7,5 kat daha k├╝├ž├╝kken di─čer taraftan 9,4 kat daha h─▒zl─▒d─▒r.

­ččó Zorlu CoLA veri k├╝mesi i├žin (dilbilimsel kabul edilebilirlik yarg─▒lar─▒n─▒ tahmin etme g├Ârevi), t├╝m dam─▒t─▒lm─▒┼č k├╝├ž├╝k modellerin ├Â─čretmen modeli ile aras─▒nda nispeten daha b├╝y├╝k bir performans a├ž─▒─č─▒ vard─▒r.

­ččó BERT-PKD ve DistillBERTÔÇÖde , ├Â─črenci modelleri iyi e─čitilmi┼č ├Â─čretmen BERTÔÇÖin baz─▒ katmanlar─▒yla ba┼člat─▒r. Bu durum ├Â─črenci modellerinin, ├Â─čretmenleriyle ayn─▒ boyutta Transformer katman─▒ (veya g├Âmme katman─▒) ayarlar─▒n─▒ korumas─▒n─▒ gerektirir. Bu ├žal─▒┼čmada ├Ânerilen iki a┼čamal─▒ dam─▒tma ├žer├ževesinde ise , TinyBERT genel dam─▒tma ile ba┼člat─▒l─▒r, bu nedenle model boyutu se├žiminde daha esnek olma avantaj─▒na sahiptir.

├çal─▒┼čman─▒n genelinden ├ž─▒kar─▒lacak en temel sonu├žlar ise ┼čunlard─▒r:

­čö┤ ├çal─▒┼čman─▒n sonu├žlar─▒ incelendi─činde, g├Âreve ├Âzg├╝ dam─▒tma (ince ayar), genel dam─▒tmadan (├Ân e─čitim) daha ├Ânemli oldu─ču a├ž─▒k├ža kan─▒tlanmaktad─▒r. Bu bilgi, ├Ânceden e─čitilmi┼č General TinyBERTÔÇÖi teredd├╝t etmeden kendi ince ayar deneylerimiz i├žin kullanabilece─činiz ├Âng├Âr├╝s├╝n├╝ sa─člar.

­čö┤ Veri art─▒rma, d├╝┼č├╝k kaynak gerektiren g├Ârevlerde g├Âreve ├Âzg├╝ dam─▒tma kadar ├Ânemli olabilir.


─░ncelenen ÔÇťTINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDINGÔÇŁ makalesi 2019 y─▒l─▒n─▒n sonunda Huazhong University of Science and Technology, Huawei NoahÔÇÖs Ark Lab ve 3Huawei Technologies Co., Ltd. ara┼čt─▒rmac─▒lar─▒ taraf─▒ndan yay─▒nlanm─▒┼čt─▒r.

Ôťö´ŞĆOrjinal makale : ÔÇťTINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDINGÔÇŁ

Ôťö´ŞĆTinyBERT GitHub Reposu


Keyifli okumalar ÔśĽ

Tarih:Makale Okumalar─▒Teknik Yaz─▒lar

─░lk Yorumu Siz Yap─▒n

Bir cevap yaz─▒n

E-posta hesab─▒n─▒z yay─▒mlanmayacak. Gerekli alanlar * ile i┼čaretlenmi┼člerdir