İçeriğe geç

Ridge Regresyon Analizi ile Türkçe Dokümanlarda Yazar Tanıma

Last updated on 25 Nisan 2020

Gebze Teknik Üniversitesi ve Cumhuriyet Üniversitesi işbirliği ile 24–26 Nisan 2019 tarihleri arasında Sivas’da düzenlenen 27. Sinyal İşleme ve Uygulamaları Kurultayı’nda Yavuz Kömeçoğlu ve Birol Kuyumcu ile birlikte yaptığımız çalışmayı sunmak üzere biz de vardık ✨

Katılım gösteren araştırmacılarla kurultay programının elverdiği kadarıyla paylaşma imkanı bulduğumuz ‘Ridge Regresyon Analizi ile Türkçe Dokümanlarda Yazar Tanıma’ isimli Doğal Dil İşleme alanında yaptığımız çalışmanın ayrıntılarını kurultay sonrasında paylaşmak istedik.

Öncelikle SIU 2019’da hangi konular üzerinde duruldu, neler konuşuldu ve paylaşıldı onlardan biraz bahsedelim!


📋 27. Sinyal İşleme ve Uygulamaları Kurultayı’ndan Notlar

Bu sene 27.si düzenlenen SIU, işaret işleme ile iletişim alanlarında çalışan araştırmacıların bir araya geldiği ve araştırma faaliyetlerini birbirleriyle paylaştığı, alanında ülkemizdeki en kapsamlı bilimsel etkinlik olarak tanınmaktadır.

SIU 2019 Sivas Kongresi’nin 100. yıl dönümü dolayısıyla bu sene Gebze Teknik Üniversitesi ve Cumhuriyet Üniversitesi işbirliği ile Sivas’da düzenlendi.

27. Sinyal İşleme ve Uygulamaları Kurultayı, Sivas

Cumhuriyet Üniversite’sinin güzel kampüsünde, öğrenci ve kıymetli hocaların büyük özveri ile planladıkları, organize ettikleri kurultay programının yanı sıra ev sahipliği de muazzamdı!

✅ İletişim ve Sinyal İşleme temel başlıkları altında, buradan görebileceğiniz 32 alt başlıktan 480 hakem tarafından değerlendirilen 570 kuramsal ve uygulamalı bildiri araştırmacılar tarafından sunuldu. Sayılar böyle olunca programında oldukça zengin içeriğe sahip olduğunu söylemek çok da zor değil 🤗

✅ Her birinde 9 oturum olacak şekilde toplam 6 salonda 3 gün boyunca araştırmacılar yaptıkları çalışmaları katılımcılarla paylaştı.

✅ İstatistiksel sinyal işlemeden bioinformatik sinyal ve görüntü işlemeye; yapay öğrenme ve derin öğrenmeden, hesaplamalı sinir bilime kadar birçok farklı başlıkta oturumların yapıldığı kurultayın program ayrıntılarına ve sunumu yapılan bildirilerin başlıklarına buradan ulaşabilirsiniz. Bildirilerin tam metinleri ise IEEE Explore üzerinden ilerleyen günlerde yayınlanacak.

✅ Araştırmacılar tarafından sunulan akademik bildirilerin haricinde gerçekleştirilenözel oturumlar ve davetli konuşmacılar da kurultay programını zenginleştiren bir başka unsurdu.

✅ Tüm bunların haricinde Machine Learning Methods for Understanding the Brain ve “ Uzaktan Algılama için Sinyal ve Görüntü İşleme” başlıklı 2 ayrı çalıştaya ve doktora öğrencilerinin araştırma/kariyer hedeflerini diğer doktora öğrencileri ve tecrübeli araştırmacılar ile tartışabilecekleri bir forum olan Doktora Konsorsiyumuna da ev sahipliği yapan kurultay 3 gün içerisinde araştırmacıların motivasyonlarının önemli oranda artmasına vesile olmuştur.


✍ Yazar Tanıma Problemi Nedir?

Dijital çağ diye adlandırdığımız bugünlerde her dakika yaklaşık 3.2 milyar kişinin internette veri üretiyor hale gelmiş olmasının akıllı sistemlerin geliştirilmesi için eğitim verisinin artması gibi faydalarının yanında çeşitli sorunları da beraberinde getirdiği bir gerçek!

Dijital medya platformlarında yer alan yüz binlerce metnin hızla paylaşılıyor ve ortamdan ortama aktarılıyor olması, metin yazarlarının bilgilerinin hatalı veya anonimleştirilerek farklı platformlarda izinsiz paylaşılması gibi muhtelif telif hakkı ihlallerine kapı açmaktadır.

Orjinal Resim Kaynağı

Doğal dil işleme çalışma alanının konularından biri olan metin sınıflandırmanın alt bir problemi olan ‘Yazar Tanıma’ ise tam da bu noktada, problemlere çözüm sunuyor.

Yazar Tanıma probleminin çözümüne yönelik çalışmaları incelendiğimizde klasik yaklaşımların 2 temel adım içerdiği görüyoruz. Bu adımlar,

  • Yazarın yazım stilini ortaya koyan özniteliklerin belirlenmesi ve bir araya getirilmesi
  • Bir sınıflandırma algoritmasının uygulanarak nihai bir tahminde bulunulması

Şüphesiz ki bu iki adımda da doğru seçimler yapmak hayati önem taşıyor.

Literatürde yaptığımız taramada gördük ki yalnızca yazım stilini belirlemekte etkin olan özniteliklerin tespiti için yapılan çalışmalar mevcut ve burada karakter temelli, sözcüksel, söz dizimsel, yapısal, içeriğe özgü, okunabilirlik ve bilgi erişim özellikleri olmak üzere yedi temel başlık altında 50’nin üzerinde farklı özniteliği sıralayabilmek mümkün. Tabi ki sayıca oldukça fazla öz niteliklerden hangilerini kullanmanın sınıflandırma başarısı üzerinde nasıl bir etki yarattığını incelemek de ayrıca bir çalışma konusu!


🔎 Peki biz neler yaptık?

Doğal Dil İşleme alanında çalışıyorsanız, önceliğinizi ana dilinize veriyorsanız ve Türkiye’de yaşıyorsanız işler sandığınız kadar kolay olmayabilir 😊

Kurduğunuz modelin başarısını objektif olarak değerlendirmek istediğinizde ihtiyaç duyduğunuz benchmark veri kümelerine erişmek ne yazık ki oldukça zor 😥

Bu konuda SIU 2018’de sunulan ‘Supervised author recognition with aggregated word embeddings’ isimli çalışmayı gerçekleştiren Muhammed Selim Atar, Ersin Esen ve Mehmet Ali Arabacı bizlerle kullandıkları veri kümesini paylaşarak önümüzdeki en büyük engeli kaldırdılar. Bu vesileyle tekrar teşekkürlerimizi sunuyoruz 😊

📌 Veri Kümesine Bakış

  • Hürriyet ve Sabah ulusal gazetelerinin son 20 yıllık köşe yazılarından derlenen, 237 farklı yazara ait 120 ve toplamda 28.440 köşe yazısını içermektedir.
  • Her bir köşe yazısında ortalama 497 kelime olmak üzere toplamda yaklaşık 14 milyon kelimeden oluşmaktadır.
  • Her bir yazara ait yazılardan 100 tanesi eğitim için ,20 tanesi ise test için ayrılmıştır.
  • Eğitim öncesi tüm sembol, noktalama işaretleri ve alfabetik karakterler dışındaki karakterler temizlenmiş ve tüm harfler küçük harfe dönüştürülerek veri kümesi standart bir hale getirilmiştir.

📌Özniteliklerin Elde Edilmesi

  • Tf-Idf modeli ve ağırlıklandırma yöntemi anlamca zengin olmayan kelimelerin metin içerisinde baskınlık kurması problemini çözmek için kullanılan yöntemlerden biri olmakla beraber bu çalışma için de öz niteliklerin elde edilmesinde tercih edilmiştir.
  • Çalışma kapsamında veri kümesi içerisindeki kelimelerden elde edilen 1–3 n-gramları ve karakterlerden elde edilen 2–6 n-gramları için Tf-Idf ağırlıklandırma modeli uygulanmış olup, her birinden 50.000 olmak üzere toplam 100.000 boyutlu bir öznitelik vektörü elde edilmiştir.

📌Sınıflandırma Metodu

Sınıflandırma yaklaşımında Ridge Regresyonu’ndan yararlanılmıştır. Ridge Regresyonu veya bir diğer ismiyle Tikhonov normalizasyonu regresyon katsayılarının tahmininde, bağımsız değişkenlerin birbirleri üzerindeki etkilerini minimum yapmayı hedefleyen ve kararlı katsayı tahminleri elde edebilmeyi sağlayan bir yöntemdir.

Ridge Regresyon Analizi ile Türkçe metinlerde yazar tanıma problemi için önerilen model

Sınıflandırma modeli oluşturulurken her yazara ait bir Ridge Regresyon Modeli eğitilmiş ve eğitilen her bir model test verisi üzerinde bir tahminde bulunmuştur. Böylelikle test veri kümesindeki her bir köşe yazısının her bir yazara ait olma ihtimali ayrı ayrı belirlenmiştir. Belirlenen tahmin değerlerinden en büyüğü, başka bir söyleyişle en yüksek olasılık değerine sahip olan yazar ilgili köşe yazısı için nihai yazar olarak tahminlenmiştir.

📌Sonuçlar ve Değerlendirme

Veri kümesi üzerinde kelime 1–3 n-gramları ve karakter 2–6 n-gramları için Tf-Idf ağırlıklandırma modelinin uygulanmasının ardından, ayrı ayrı Stokastik Bayır İnişi Sınıflandırıcı (SGD Classifier — stochastic gradient descent classifier), Multinominal Naive Bayes Sınıflandırıcı ve Ridge Regresyon Modeli uygulanarak yazar sınıflandırma yapılan bu çalışmada elde edilen doğruluk oranları sırasıyla %86,3, %63,1 ve %89,6 ‘dır.

Türkçe metinlerde yazar tanıma problemi için uygulanan modellerin değerlendirme metriklerinin karşılaştırılması

Daha önce yapılan çalışmada ve bu çalışma kapsamında gözlenen en yüksek başarım oranı aşağıdaki tabloda da görüleceği üzere %89,6 ile Ridge Regresyon Modeli ile elde edilmiştir.

Türkçe metinlerde yazar tanıma problemi için uygulanan modellerin doğruluk oranlarının karşılaştırılması

Çalışmamızın faydalı olduğunu umuyor soru,eleştiri ve katkılarınızı bekliyoruz 😊 Keyifli okumalar ☕


📍 Ana dilimizde Doğal Dil İşleme çalışmalarının gelişmesi için veri kümelerinin geliştirilmesi ve paylaşılmasının hayati önem taşıdığının farkındayız. Bu maksatla yalnızca bizimle paylaşılan veri kümesi üzerinde teknik olarak gelişim sağlamakla kalmak istemedik ve veri kümesini genişletmek için de kolları sıvadık. Kısa süre içerisinde çalışmamızı tamamlayarak araştırmacılara bu yeni veri kümesini de açık olarak paylaşmaktan mutluluk duyacağız 🎉

📍 SIU 2019 kapsamında üzerinde çalıştığımız ‘Ridge Regresyon Analizi ile Türkçe Dokümanlarda Yazar Tanıma’ başlıklı çalışmamızın teknik detaylarını bulabileceğiniz bildirinin tam metni baskı süreci tamamlandığında, kodları ise kısa bir süre sonra açık olarak paylaşlaşılacaktır.

📍 Baskı ve Github reposunun hazırlanma süreci tamamlandığında blog yazısı güncelellenecek ve buradan ilgili adresler paylaşılacaktır 🍀

⭐ Katkıları ve değerli yorumları için Ayyüce Kızrak’a ayrıca teşekkür ederiz.

Tarih:Doğal Dil İşlemeTeknik Yazılar

İlk Yorumu Siz Yapın

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir