─░├žeri─če ge├ž

­čôÜMakale Okumalar─▒ÔÇŐ-ÔÇŐvolm.5


Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Test K├╝melerindeki Yayg─▒n Etiket Hatalar─▒ Makine ├ľ─črenmesindeki Kar┼č─▒la┼čt─▒rmalar─▒ Dengesizle┼čtiriyor


Bilgisayarl─▒ G├Âr├╝, Do─čal Dil ─░┼čleme ve Ses ─░┼čleme alanlar─▒nda literat├╝rdeki mevcut durumu ve ara┼čt─▒rmac─▒lar─▒n kendi modellerinin performanslar─▒n─▒ de─čerlendirmek amac─▒yla kulland─▒klar─▒ ve g├╝vendikleri, benchmark veri k├╝melerinin test k├╝melerinde ciddi oranda etiketleme hatalar─▒n─▒n bulundu─ču s├Âylense, ilk d├╝┼č├╝nd├╝─č├╝n├╝z ┼čey ne olurdu? ­čś│

┼×ekil 1. G├Âr├╝nt├╝ veri k├╝meleri i├žin her kategoriden ├Ârnek bir etiket hatas─▒

Endi┼če, kafa kar─▒┼č─▒kl─▒─č─▒ ve muhtemelen b├╝y├╝k oranda g├╝ven kayb─▒ olu┼čturmu┼č olsa da, ne yaz─▒k ki bu bir ger├žek! MIT ve Amazon ara┼čt─▒rmac─▒lar─▒n─▒n sundu─ču ve test k├╝melerindeki hatal─▒ etiketlemelerin tespiti ve bu hatalar─▒n do─čurdu─ču sonu├žlar─▒n incelendi─či makaleye buyurun birlikte g├Âz atal─▒m ­čĹü´ŞĆÔÇŹ­čŚĘ´ŞĆ


­čÉî D├╝nden bug├╝ne..

B├╝y├╝k boyutlu etiketli veri k├╝meleri, g├Âr├╝nt├╝ s─▒n─▒fland─▒rmadan duygu analizine ve ses s─▒n─▒fland─▒rmadan soru cevaplamaya kadar bir├žok farkl─▒ ara┼čt─▒rma konusunda denetimli makine ├Â─čreniminin ba┼čar─▒s─▒ i├žin kritik ├Âneme sahiptir.

├ľnemini bu denli bildi─čimiz veri k├╝melerini olu┼čturmak i├žin kullan─▒lan s├╝re├žler ise do─čas─▒ gere─či hataya a├ž─▒k olan (bir dereceye kadar) otomatik etiketleme veya kitle kaynak kullan─▒m─▒ (crowdsourcing) gibi teknikleri i├žermektedir. Her ne kadar hata d├╝zeltme i├žin kontroller yap─▒lsa da, binlerce verinin etiketlenmesi s├Âz konusu oldu─čunda g├Âzden ka├žan hatal─▒ etiketler olabilmektedir.

G├╝r├╝lt├╝l├╝ etiketlerin etkilerinin incelendi─či daha ├Ânceki ├žal─▒┼čmalar─▒n neredeyse tamam─▒ e─čitim k├╝mesi ├╝zerine odaklanm─▒┼čt─▒r ve yap─▒lan incelemeler sonucu bu hatal─▒ etiketlemelerin endi┼če yaratacak d├╝zeyde bir de─či┼čime sebep olmad─▒─č─▒ g├Âsterilmi┼čtir. Fakat burada g├Âzden ka├ž─▒r─▒lan nokta, test k├╝melerinin tamamen hatas─▒z olarak kabul edilmi┼č olmas─▒d─▒r!


­čŽë Peki ya ┼čimdi?

Ara┼čt─▒rmac─▒lar herhangi bir ├žal─▒┼čma alan─▒nda kendilerinin farkl─▒ yollarla derleyebildikleri ger├žek d├╝nya verilerinden daha ├žok, ├Âzenle haz─▒rlanm─▒┼č ve literat├╝rde daha ├Ânce bir├žok ara┼čt─▒rmac─▒n─▒n da ortak kulland─▒─č─▒ benchmark veri k├╝melerine g├╝venirler.

Bilindi─či ├╝zere, ├╝zerinde ├žal─▒┼č─▒lan veri k├╝mesi i├žinde etiket hatalar─▒ ne kadar fazla ise, makine ├Â─črenmesindeki ilerlemeyi ├Âl├žt├╝─č├╝m├╝z ├žer├ževenin de baltalanma potansiyeli o kadar fazlad─▒r. Bu gibi bir durumda, test k├╝melerindeki etiket hatalar─▒n─▒n, geli┼čtirilen modeller aras─▒nda ger├žek d├╝nyada hangi modellerin en iyi performans─▒ g├Âsterdi─či konusunda yanl─▒┼č sonu├žlara g├Ât├╝rebilmesi kuvvetle muhtemeldir.

─░ncelenen bu makalede ise bu endi┼če uyand─▒r─▒c─▒ noktay─▒ ele almak ├╝zere bilgisayarl─▒ g├Âr├╝, do─čal dil i┼čleme ve ses i┼člemede yayg─▒n olarak kullan─▒lan 10 veri k├╝mesinde etiket hatalar─▒n─▒ tan─▒mlayan ve sistematik olarak analiz eden ilk ├žal─▒┼čma sunulmu┼čtur. Bu ├Ânemli efor, ├žal─▒┼čmay─▒ y├╝r├╝ten ekibin benzer konudaki ilk ├žal─▒┼čmas─▒ da de─čildir. Ancak ekip bir ├Ânceki ├žal─▒┼čmada yaln─▒zca sentetik olarak ├╝retilmi┼č g├╝r├╝lt├╝l├╝ etiketlerin etkileri ├╝zerine odaklanm─▒┼čt─▒r. Bu kez ise hemen hepimizin kulland─▒─č─▒, alan─▒n ├Ânde gelen veri k├╝meleri ├╝zerinde ├žal─▒┼č─▒larak bir ilke imza atm─▒┼člard─▒r!


­čÉŁ Temel Motivasyon 

 Makine ├Â─črenmesi alan─▒ndaki ilerlemenin ├Âl├ž├╝mlenmesi i├žin kullan─▒lan pop├╝ler k─▒yaslama veri k├╝melerinin test verilerindeki etiket hatalar─▒n─▒n yayg─▒nl─▒─č─▒n─▒ karakterize etmek ve daha sonra bu hatalar─▒n pratik sonu├žlar─▒n─▒ ve ├Âzellikle model se├žimi ├╝zerindeki etkilerini analiz etmek

­čŽç ─░ncelenen Veri K├╝meleri

  • MNIST : El yaz─▒s─▒ ile yaz─▒lm─▒┼č rakamlar─▒n ikili g├Âr├╝nt├╝lerinden olu┼čan bir veri k├╝mesidir. Veri k├╝mesi, Say─▒m B├╝rosu ├žal─▒┼čanlar─▒na ve lise ├Â─črencilerine da─č─▒t─▒lan El Yaz─▒s─▒ ├ľrnek Formlar─▒ndan olu┼čturulmu┼čtur.
  • CIFAR-10 / CIFAR-100 : S─▒ras─▒yla 10 veya 100 s─▒n─▒ftan olu┼čan k├╝├ž├╝k 32 ├Ś 32 boyutlu g├Âr├╝nt├╝ ve s─▒n─▒f etiketinden olu┼čan bir veri k├╝mesidir. G├Ârseller, s─▒n─▒f etiketi anahtar kelimesi ile internette arama yap─▒larak toplanm─▒┼čt─▒r.
  • Caltech-256 : CIFAR veri k├╝mesine benzer ┼čekilderesimler ve s─▒n─▒f etiketlerinden olu┼čan bir veri k├╝mesidir. G├Ârseller, g├Ârsel arama motorlar─▒ndan derlenmi┼čtir.
  • ImageNet : G├Âr├╝nt├╝lerin, birka├ž g├Âr├╝nt├╝ arama motorunda WordNet ÔÇťe┼č anlaml─▒ k├╝melerindenÔÇŁ (synsets) kelimeler sorgulanarak derlendi─či bir resim ve s─▒n─▒f etiketi i├žerikli veri k├╝mesidir.
  • QuickDraw : G├Ârsel s─▒n─▒fland─▒rma modellerini k─▒yaslamak amac─▒yla olu┼čturulan bu veri k├╝mesi, deneysel bir oyunun kullan─▒c─▒lar─▒ndan toplanan 1 milyardan fazla karalama i├žermektedir. Kullan─▒c─▒lara belirli bir etikete kar┼č─▒l─▒k gelen resimleri ├žizmeleri talimat─▒ verilerek, ├žizimler/karalamalar g├Ârsel olarak kabul edilmi┼čtir.
  • 20news : Metin s─▒n─▒fland─▒rma ve k├╝meleme modellerini k─▒yaslamak i├žin kullan─▒lan bu veri k├╝mesi, Usenet haber gruplar─▒na g├Ânderilen makalelerin bir koleksiyonudur. Her bir ├Ârne─čin etiketi ise, orijinal olarak g├Ânderildi─či haber grubu olarak kabul edilir(├Âr. ÔÇťmisc.forsaleÔÇŁ), bu nedenle genel veri toplama prosed├╝r├╝ s─▒ras─▒nda etiketleme de sa─članm─▒┼čt─▒r.
  • IMDB : IMDB veri k├╝mesi, ikili duygu analizi i├žin kullan─▒lan ve kullan─▒c─▒lar taraf─▒ndan yap─▒lan film incelemelerinin 10 ├╝zerinden ÔëĄ 4 puan ise olumsuz; 10 ├╝zerinden Ôëą 7 pozitif olarak kabul edilmesi ile olu┼čturulmu┼čtur.
  • Amazon Reviews : Amazon ─░ncelemeleri veri k├╝mesi, duygu analizi modellerini k─▒yaslamak i├žin kullan─▒lan ve Amazon m├╝┼čterilerinin metin incelemeleri ├╝zerinden 5 kademeli derecelendirmelerin bir koleksiyonudur.
  • AudioSet : YouTube videolar─▒ndan al─▒nan 10 saniyelik ses kliplerinde bulunan sesleri s─▒n─▒fland─▒rmak ├╝zere kullan─▒lan ve birden ├žok etiketten olu┼čan bir koleksiyondur. ├ť├ž insan etiketleyici birbirinden ba─č─▒ms─▒z olarak, bir veya daha fazla etiketin varl─▒─č─▒n─▒ (ÔÇťmevcutÔÇŁ, ÔÇťmevcut de─čilÔÇŁ ve ÔÇťemin de─čilimÔÇŁ) de─čerlendirmi┼čtir ve bir etiketin atanmas─▒ i├žin ├žo─čunlu─čun anla┼čmas─▒ gerekmi┼čtir.

­čŽŐ K─▒yaslama veri k├╝melerinde etiket hatalar─▒n─▒ belirleme

Ara┼čt─▒rmaya konu olan k─▒yaslama veri k├╝melerinin y├╝ksek ├Ârneklem say─▒s─▒, manuel olarak etiket hatalar─▒n─▒n belirlenmesi gibi bir s├╝recin ├žok zorlu olmas─▒ sonucunu da do─čurmaktad─▒r. Bu sebeple ara┼čt─▒rmac─▒lar bir ├Ân filtreleme ad─▒m─▒ olarak Confident Learning (CL)ÔÇÖden yararlanarak t├╝m test k├╝mesini manuel olarak kontrol etmeden etiket hatalar─▒n─▒n bulunmas─▒n─▒ sa─člam─▒┼čt─▒r. ├ç├╝nk├╝ CL potansiyel etiket hatalar─▒n─▒ otomatik olarak tan─▒mlama yetene─čine sahiptir. B├Âylelikle bir sonraki ad─▒mda insanlar taraf─▒ndan yap─▒lacak do─črulama ihtiyac─▒ duyulan ├Ârnek say─▒s─▒n─▒n da %90 oran─▒nda azalt─▒lmas─▒ sa─članm─▒┼čt─▒r. [CLÔÇÖden ├žal─▒┼čma kapsam─▒nda nas─▒l yararlan─▒ld─▒─č─▒n─▒n ayr─▒nt─▒lar─▒ i├žin l├╝tfen orjinal makaleye bak─▒n─▒z.]

­čîč Confident Learning (CL)hakk─▒nda ayr─▒nt─▒l─▒ bilgiyi i├žin b├Âyle buyurun..

­čŽžEtiket hatalar─▒n─▒ do─črulama

CL ile algoritmik olarak tan─▒mlanan etiket hatalar─▒ bir de insan g├Âz├╝yle do─črulanm─▒┼čt─▒r.

├çok say─▒da hata i├žeren ├╝├ž veri k├╝mesi i├žin (Caltech-256, QuickDraw ve Amazon) rastgele ├Ârnek kontrol├╝ yap─▒l─▒rken; geri kalan─▒ i├žin tan─▒mlanan t├╝m hatalar kontrol edilmi┼čtir. ┼×ekil 2.ÔÇÖde ara┼čt─▒rmac─▒lar─▒n etiket do─črulamas─▒ yapabilmeleri i├žin geli┼čtirilen ara y├╝z g├Âr├╝lmektedir.

┼×ekil 2. CIFAR-10’dan bir ├Ârnek g├Âsteren Mechanical Turk ├žal─▒┼čanlar─▒n─▒n kulland─▒─č─▒ do─črulama aray├╝z├╝.

Ara y├╝z├╝n orta noktas─▒nda yer alan g├Ârselin etiketinin do─črulanmas─▒ i├žin kontrolc├╝ye en sa─č tarafta g├Âr├╝nen 4 se├ženek sunulmu┼čtur. Bu se├ženekler s─▒ras─▒yla;

  • (1)veri k├╝mesindeki etiketi,
  • (2)CL taraf─▒ndan tahmin edilen etiketi,
  • (3)her iki etiketinde kabul edilebilir oldu─čunu veya
  • (4)hi├žbir ┼č─▒kk─▒n kabul edilebilir olmad─▒─č─▒n─▒ ifade etmektedir.

Kontrolc├╝ye kolayl─▒k olmas─▒ a├ž─▒s─▒ndan ise sorgulanan g├Ârselin sa─č ve sol taraf─▒na e─čitim k├╝mesinden ve CL taraf─▒ndan tahmin edilen s─▒n─▒ftan al─▒nan y├╝ksek g├╝venilirli─če sahip ├Ârnekler g├Âsterilmi┼čtir.

CL ile tan─▒mlanan her etiket hatas─▒, ba─č─▒ms─▒z olarak be┼č ki┼čiye sunulmu┼čtur ve anla┼čma e┼či─či 3/5 olarak belirlenmi┼čtir yani bir anlamda oy ├žoklu─ču esas al─▒nm─▒┼čt─▒r. Ayr─▒ca Tablo 2.ÔÇÖde g├Âr├╝ld├╝─č├╝ ├╝zere etiket hatalar─▒ kategorize de edilmi┼čtir. 

  • ÔÇťcorrectableÔÇŁ oy ├žoklu─ču ile CLÔÇÖnin ├Ânerdi─či etiketin do─čru olmas─▒ durumu
  • ÔÇťmulti-labelÔÇŁ oy ├žoklu─ču ile iki etiketinde do─čru olmas─▒ durumu
  • ÔÇťneitherÔÇŁ oy ├žoklu─ču ile 2 etiketinde do─čru olmamas─▒ durumu
  • ÔÇťnon-agreementÔÇŁ oy ├žoklu─čunun sa─članamamas─▒ durumu
Tablo 2. Etiket hatalar─▒n─▒n varl─▒─č─▒n─▒ onaylayan ve etiket sorunlar─▒n─▒ s─▒n─▒fland─▒ran insan do─črulamas─▒n─▒n sonu├žlar─▒

­čŽéTest Verilerinde Etiket Hatalar─▒n─▒n Etkileri

Peki ya etiket hatalar─▒n─▒n test k├╝mesinden silinmesi veya d├╝zeltilmesi sonucunda state-of-the-art modellerin ba┼čar─▒mlar─▒nda ne gibi de─či┼čiklikler olurdu? ─░┼čte i┼čin en can al─▒c─▒ k─▒sm─▒ da burada ba┼čl─▒yor ­čĹŐ­čĆ╗

┼×ekil 3.aÔÇÖda PyTorch ve Keras repolar─▒nda ├Ânceden e─čitilmi┼č 34 modelin performans─▒n─▒ kar┼č─▒la┼čt─▒rmak i├žin ImageNet veri k├╝mesinin test seti yerine, hatalar─▒n silindi─či do─črulama veri k├╝mesinin kullan─▒lmas─▒ sonu├žlar─▒ payla┼č─▒lm─▒┼čt─▒r. Sonu├žlar pek de merak uyand─▒r─▒c─▒ de─čildir, ├ž├╝nk├╝ hatalar─▒n ortadan kald─▒r─▒lmas─▒ b├╝y├╝k ├Âl├ž├╝de bir de─či┼čikli─če sebep olmam─▒┼čt─▒r ­čśĆ Daha ├Ânce Recht ve arkada┼člar─▒ taraf─▒ndan yap─▒lan bir di─čer ilgin├ž ├žal─▒┼čmay─▒ do─črular nitelikte sonu├žlar elde edilmi┼čtir. 

┼×ekil 3. Test Verilerinde Etiket Hatalar─▒n─▒n Etkileri

Ancak ÔÇťcorrectableÔÇŁ olarak isimlendirilen, hatal─▒ etiketlenmi┼č veriler ├╝zerinde modellerin performans─▒ daha yak─▒ndan incelendi─činde ise (┼×ekil 3-b), i┼člerin baya bir kar─▒┼čt─▒─č─▒n─▒ s├Âylemek m├╝mk├╝n ­čĄ» Modelleri test k├╝mesinin bir alt k├╝mesi olan ÔÇťcorrectable set [C] ÔÇŁ ├╝zerinde de─čerlendirirken, orijinal test veri k├╝mesinde (yanl─▒┼č etiketleri i├žeren) en iyi performans─▒ g├Âsteren modellerin d├╝zeltilmi┼č etiketlerde en k├Ât├╝ performans─▒ g├Âsterdi─či g├Âr├╝lmektedir ­čśČ

├ľrne─čin, ResNet-18, ├žok daha k├Ât├╝ orijinal test do─črulu─ču sergilemesine ra─čmen, CÔÇÖye g├Âre d├╝zeltilmi┼č do─čruluk a├ž─▒s─▒ndan NasNetÔÇÖten ├Ânemli ├Âl├ž├╝de daha iyi performans g├Âstermektedir. Modellerdeki bu performans de─či┼čiminin -modellerin ba┼čar─▒ma g├Âre- s─▒ralamada ne kadar ├žarp─▒c─▒ de─či┼čikliklere sebep oldu─čunu birka├ž ├Ârnekle g├Âstermek gerekirse;

­čö╗ Nasnet-large: 34 model aras─▒ndan 1. s─▒radan Ôćĺ 29. s─▒raya gerileme

­čö╗Xception: 34 model aras─▒ndan 2. s─▒radan Ôćĺ 24. s─▒raya gerileme

­čö║ResNet-18: 34 model aras─▒ndan 34. s─▒radan Ôćĺ 1. s─▒raya y├╝kselme

­čö║ResNet-50: 34 model aras─▒ndan 20. s─▒radan Ôćĺ 2. s─▒raya y├╝kselme

Ayn─▒ e─čilimin, CIFAR-10’da ├Ânceden e─čitilmi┼č 13 modelde ba─č─▒ms─▒z olarak ger├žekle┼čti─či de ┼×ekil 3ÔÇôcÔÇÖde net bir ┼čekilde g├Âz├╝kmektedir. ├ľrne─čin, CÔÇÖye g├Âre VGG-11 VGG-19’dan ├Ânemli ├Âl├ž├╝de daha iyi performans g├Âstermektedir.

Bir ba┼čka dikkat ├žeken kar┼č─▒la┼čt─▒rmada ise, ├Ânceden e─čitilmi┼č modellerin benchmark veri k├╝melerinin durumuna g├Âre performanslar─▒n─▒n nas─▒l de─či┼čti─čini de─čerlendirilmi┼čtir. Bunun i├žin do─čru etiketlenmi┼č ├Ârnekler rastgele ve a┼čamal─▒ olarak kald─▒r─▒lm─▒┼čt─▒r, ta ki yaln─▒zca orijinal yanl─▒┼č etiketlenmi┼č test verileri (d├╝zeltilmi┼č etiketlerle) kalana kadar.

┼×ekil 4. ve 5’de ImageNet ve CIFAR-10’da artan derecelerde g├╝r├╝lt├╝ prevalans─▒ uygulanarak olu┼čturulan alternatif (azalt─▒lm─▒┼č) test k├╝meleri ├╝zerinde , her bir alternatif i├žin ortaya ├ž─▒kan orijinal (hatal─▒) test seti do─črulu─čunu ve modellerin d├╝zeltilmi┼č do─črulu─čunu g├Âsterilmektedir. Belirli bir test seti i├žin ├žizgilerin dikey s─▒ralamas─▒ (yani bu grafiklerin x ekseni boyunca bir nokta), bu test seti ├╝zerinde orijinal do─čruluk veya d├╝zeltilmi┼č do─čruluk temelinde modellerin nas─▒l tercih edilece─čini g├Âstermektedir.

┼×ekil 4. Test Verilerinde Etiket Hatalar─▒n─▒n Etkileri-2

Hangi test setinin (de─či┼čken g├╝r├╝lt├╝ prevalans─▒na sahip) dikkate al─▒nd─▒─č─▒na bak─▒lmaks─▒z─▒n, orijinal do─čruluk temelinde daha esnek/yeni mimarilerin tercih edilme e─čiliminde oldu─čunu g├Âr├╝yor olmam─▒z i┼čin ┼ča┼č─▒rt─▒c─▒ olmayan k─▒sm─▒. ├ľrne─čin, NasNet gibi g├╝├žl├╝ modellerin ResNet-18 gibi daha basit modellerden daha iyi performans g├Âsterece─čine dair geleneksel beklentilerle uyumlu sonu├žlar─▒ g├Ârmekteyiz.

┼×ekil 5. Test Verilerinde Etiket Hatalar─▒n─▒n Etkileri-3

Di─čer taraftan oda─č─▒m─▒z─▒ d├╝zeltilmi┼č do─črulu─ča do─čru kayd─▒r─▒rsak (yani pratikte ger├žekten ├Ânemli olan tarafa!), daha g├╝├žl├╝ modellerin asl─▒nda daha basit muadillerinden daha iyi oldu─čunu s├Âylemek pek de m├╝mk├╝n de─čil gibi g├Âr├╝n├╝yor ­čĄŽ­čĆ╗ÔÇŹÔÖÇ´ŞĆ Bu noktada performans, b├╝y├╝k ├Âl├ž├╝de test verilerindeki g├╝r├╝lt├╝ yayg─▒nl─▒─č─▒n─▒n derecesine ba─čl─▒d─▒r!

Etiket hatalar─▒n─▒n yayg─▒n oldu─ču veri k├╝meleri i├žin, bir uygulay─▒c─▒n─▒n (d├╝zeltilmi┼č do─čruluk a├ž─▒s─▒ndan) asl─▒nda en iyi model olmayan bir modeli (orijinal do─črulu─ča dayal─▒ olarak) se├žmesi daha olas─▒d─▒r ­čśĹ


­čŽę ├ľzetle..

Bug├╝n binlerce makine ├Â─črenmesi yay─▒n─▒nda hatas─▒z oldu─ču ve geli┼čtirilen farkl─▒ modellerin k─▒yaslanmas─▒ i├žin uygun oldu─ču kabul edilmi┼č veri k├╝melerinin test k├╝melerinde g├Âr├╝len hata oranlar─▒ olduk├ža y├╝ksek boyuttad─▒r. ├ľrne─čin; CIFAR-100 test k├╝mesinin yakla┼č─▒k %6 ÔÇśs─▒n─▒n yani 2.916 etiket hatas─▒n─▒n bulundu─ču g├Âr├╝lmektedir. Di─čer taraftan Amazon Reviews veri k├╝mesinin yakla┼č─▒k %4ÔÇÖ├╝n├╝n (yakla┼č─▒k 390.000 veri) hatal─▒ etiketlendi─či belirlenmi┼čtir. Test veri k├╝mesindeki hata oran─▒ en y├╝ksek olan ise QuickDrawÔÇÖd─▒r. Test setinin yakla┼č─▒k %10’unu olu┼čturan 5 milyondan fazla hata i├žermektedir.

─░ncelenen 10 farkl─▒ veri k├╝mesi i├žin ortalama hata oran─▒n─▒n %3.4 oldu─ču ortaya konmu┼čturÔÜá´ŞĆ 

├çal─▒┼čmada etiket hatalar─▒ ├Âncelikle CL kullan─▒larak algoritmik olarak tan─▒mlan─▒r ve daha sonra kitle kaynak kullan─▒m─▒ yoluyla insan taraf─▒ndan do─črulan─▒r. Algoritmik olarak i┼čaretlenen hatal─▒ etiket adaylar─▒n─▒n %54’├╝ ger├žekten hatal─▒ oldu─ču da sunulan bir di─čer ├Ânemli bilgidir.

CL ├Â─črenme ├žer├ževesinin belirli bir veri modalitesi veya modeline ba─čl─▒ olmamas─▒ndan faydalanan ara┼čt─▒rmac─▒lar, bir├žok farkl─▒ t├╝rde veri k├╝mesinin etiket hatalar─▒n─▒ b├Âylelikle algoritmik olarak elde etmi┼člerdir.

ÔşÉ Ara┼čt─▒rmac─▒lar─▒n alana en b├╝y├╝k katk─▒lar─▒ndan biri de, insanlar taraf─▒ndan b├╝y├╝k oranda d├╝zeltilen etiket hatalar─▒ ile temizlenmi┼č test k├╝melerinin olu┼čturulmu┼č ve payla┼č─▒lm─▒┼č olmas─▒d─▒r. Bu b├╝y├╝k efor sonras─▒nda beklentileri ise, gelecekteki ara┼čt─▒rmalar─▒n orijinal hatal─▒ etiketler yerine bu iyile┼čtirilmi┼č test verilerinin kullan─▒lmas─▒d─▒r.

ÔşÉ Ayr─▒ca etiketleme hatalar─▒n─▒n g├Âr├╝lebilece─či/duyulabilece─či ve incelenebilece─či bir web sitesi de haz─▒rlanm─▒┼čt─▒r. Buradan sizde inceleyebilirsiniz ­čĺü­čĆ╗

ÔşÉ Di─čer bir ├Ânemli katk─▒ ise, a├ž─▒k kaynakl─▒ bir python paketi olan cleanlabÔÇÖ─▒ sunmu┼č olmalar─▒d─▒r. B├Âylece di─čer ara┼čt─▒rmac─▒lar da kendi veri k├╝melerinde etiket hatalar─▒n─▒ bulmas─▒ kolayla┼čt─▒r─▒lm─▒┼čt─▒r.

Geleneksel olarak, uygulay─▒c─▒lar hangi makine ├Â─črenme modelini se├žece─či gibi kritik bir konuda test do─črulu─čunu temel al─▒rlar. Yap─▒lan ara┼čt─▒rmada da modelleri do─čru etiketlenmi┼č test k├╝meleri ├╝zerinden de─čerlendirmenin ├Ânemi ve bunun da ├Âzellikle g├╝r├╝lt├╝l├╝ ger├žek d├╝nya veri k├╝meleri i├žin daha yararl─▒ olabilece─či ortaya konmaktad─▒r ­čĄ×­čĆ╗


─░ncelenen ÔÇťPervasive Label Errors in Test Sets Destabilize Machine Learning BenchmarksÔÇŁ makalesi 2021 y─▒l─▒ Nisan ay─▒nda MIT ve Amazon ara┼čt─▒rmac─▒lar─▒ taraf─▒ndan yay─▒nlanm─▒┼čt─▒r. Ayr─▒ca k─▒smen MIT-IBM Watson Yapay Zeka Laboratuvar─▒ taraf─▒ndan finanse edilerek desteklenmi┼čtir.

Ôťö´ŞĆOrjinal makale : ÔÇťPervasive Label Errors in Test Sets Destabilize Machine Learning BenchmarksÔÇŁ

Ôťö´ŞĆEtiket hatalar─▒n─▒n incelenebilece─či web sitesi


Keyifli okumalar ÔśĽ

Tarih:GenelMakale Okumalar─▒Teknik Yaz─▒lar

─░lk Yorumu Siz Yap─▒n

Bir cevap yaz─▒n

E-posta hesab─▒n─▒z yay─▒mlanmayacak. Gerekli alanlar * ile i┼čaretlenmi┼člerdir