İçeriğe geç

Çok Gören Mi Bilir, Çok Soran Mı?

Last updated on 25 Nisan 2020

Yapay zekâ ile yaşamaya iyiden iyiye alıştığımız bu günlerde, beklentilerin üzerinde öğrenme yetenekleri sergileyen makineleri gördükçe beklentilerimizi daha da artırarak, bu akıllı makineler daha çok bizim gibi görsün, daha fazla bizim gibi konuşsun, daha iyi bizi hissetsin ister hale geldik!

İnsan beyni günlük yaşantısında nasıl görme, duyma, hissetme, koku alma, tatma gibi aktiviteleri aynı anda yapabiliyor, aynı anda birçok farklı reflektörden gelen uyarıları işleyebiliyor ve bunlara bağlı olarak çeşitli kompleks sorulara cevaplar üretebiliyor veya kararlar verebiliyorsa; madem yapay da olsa bir zekâdan bahsediyorsak makinelerin de bunları yapabildiğini görmek istiyoruz 🤖

İstekler böyle karmaşıklaşınca artık yalnızca bir Doğal Dil İşleme probleminin çözülmesi, herhangi bir sesin sınıflandırılması veya bilgisayarlı görü ile bir nesnenin tanınması gibi adımların bu tür problemlerin yalnızca bir parçasının çözümü için yeterli olmaya başladığı gerçeğiyle baş başa kaldık ❗❗

💡 İşte tam da bu noktada bizlere ilgi çekici uygulama örnekleri sunan, Doğal Dil İşleme (Natural Language Processing-NLP) ve Bilgisayarlı Görü (Computer Vision) alanlarını bir araya getiren ve özellikle 2015 yılından itibaren üzerinde yapılan çalışmalarda bir hayli artış gösteren Görsel Soru Cevaplama (Visual Question Answering-VQA) Sistemleri dikkat çeker hale geldi!

Görsel Soru Cevaplama Nedir?

Orijinal adıyla Visual Question Answering (VQA), sahip olduğumuz bir resim ile ilgili sorulan sorulara, resim içerisindeki bilgilerin analiz edilmesi ile cevaplar üretilmeye çalışılması problemi olarak tanımlanabilir.

Bu problemde metinler şeklinde ifade edilen soruların işlenmesi bir Doğal Dil İşleme problemi iken; resimler içerisinden cevapların üretiminde her bir soru ayrı bir Bilgisayarla Görü problemine işaret eder.

Örneğin yukarıda gösterilen resim için üretilen sorularda;

📍 Resimde kaç çocuk vardır? — Nesne/varlık sayma (Counting)

📍 Resimde turuncu kıyafeti olan bir çocuk var mıdır? — Nesne/varlık tanıma (Object Detection)

📍 Hava güneşli mi? — Sahne sınıflandırması (Scene classification)

📍 Resimdeki çiçekler hangi renk? — Öznitelik sınıflandırması (Attribute classification)

gibi birçok farklı bilgisayarla görü probleminin çözümüne ihtiyaç duyulur.

🎯 Bu noktada bir genelleme yapmak gerekirse kaç tane, nerede, nasıl, ne gibi soruların yanı sıra evet/hayır gibi kısa yanıtları olan sorular da soruluyor ve cevaplar üretilmeye çalışılıyor olabilir.

Görsel Soru Cevaplama Sisteminin Genel Görünüşü

Makine öğrenmesi problemlerinin çözümüne yönelik oluşturulan farklı modellerin tamamında hayati önem taşıyan ortak bir etken varsa o da eğitimde kullanılacak veri kümeleridir!

O zaman biz de sistem tasarımından önce literatürdeki çalışmalarda kullanılmış ve sizlerin de çalışmalarınızda rahatlıkla kullanabileceğiniz veri kümeleri ve bu veri kümelerine nasıl ulaşabileceğiniz ile başlayalım 😊


📚 GÖRSEL SORU CEVAPLAMA İÇİN VERİ KÜMELERİ

📌DAQUAR (Dataset for Question Answering on Real-world images):

2014’te akademik bir çalışma için üretilmiş ve diğer araştırmacıların kullanabilmesi için 2015 yılında paylaşılmış olan görsel soru cevaplamaya yönelik ilk veri kümesi olma özelliğini taşır.

795’i eğitim ve 654’ü test olmak üzere toplam 1449 resim ve her bir resme ait yaklaşık 8 farklı soru olmak üzere toplamda (6794’ü eğitim ve 5674’ü test için kullanılmak üzere) 12.468 soru içerir.

DAQUAR veri kümesine ve ilgili yayınlara ulaşmak için👍


📌COCO-QA: 123.287 adet doğal resim ve bu resimlere ait açıklamalar içeren MS COCO veri kümesinden yararlanılarak oluşturulmuş bir veri kümesidir. Bu veri kümesindeki sorular resimlere ait açıklamalardan doğal dil işleme yöntemleri ile otomatik oluşturulmuştur 🙌

78.736’i eğitim ve 38.948’i de test için kullanılacak olan soru-cevap çiftlerini içerir. Soruların yaklaşık %70’i resim içerisindeki nesneler ile ilgili ve diğer sorular ise konum, renk ve sayı bilgisi üzerine yoğunlaşmıştır. Her bir sorunun cevabı ise yalnızca tek bir kelimedir.

COCO-QA veri kümesine ulaşmak için 👍

COCO-QA veri kümesine erişim için alternatif olarak 👍


📌VQA: COCO-QA veri kümesinde olduğu gibi, VQA veri kümesi de MS COCO doğal resim veri kümesinden yararlanılarak oluşturulmuş ve COCO-VQA olarak adlandırılmıştır. Fakat bu doğal resimlerin haricinde 50.000 soyut karikatür görüntüsü içeren bir sentetik veri kümesi (SYNTH-VQA) ile de birleştirilerek veri kümesi zenginleştirilmiştir. COCO-VQA ve SYNTH-VQA veri kümeleri oluşturulurken her bir görüntüye ait 3 soru ve her soru için 10 olası cevap üretilmiştir. Her iki veri kümesi içinde de hem açık uçlu sorular hem de çoktan seçmeli sorular mevcuttur.

Görsel soru cevaplama görevi için ideal oldukça geniş bir veri kümesi olan VQA’ın orijinal haline, versiyonlarına, bu veri kümesi üzerinde 2016 yılından itibaren her sene düzenlenen zorlu görevlere ve üretilen çözümlere ait demolara ulaşmak için👍

📌FM-IQA: Tam ismi “The Freestyle Multilingual Image Question Answering” olan bu veri kümesi COCO görüntü veri kümesini temel alarak oluşturulmuş, soru ve cevapları insanlar tarafından oluşturulmuş bir diğer görsel soru cevaplama veri kümesidir. Aslında Çince olarak toplanan bu veri kümesinin, İngilizceye çevrilmiş haline de erişebilmek mümkün. Cevapların tam cümle olmasına da izin verilmiş olması ve iki dili destekliyor olması ile diğer veri kümelerinden ayrılmıştır.

FM-IQA veri kümesinin de içinde bulunduğu ve çalışmayı yapan araştırma grubunun yaptığı diğer çalışmaların toplandığı web sitesine erişmek için👍


📌VISUAL GENOME: 2017 yılında yapılan ‘Visual Genome: Connecting language and vision using crowdsourced dense image annotations’ akademik çalışması ile yayınlanan veri kümesinde YFCC100M ve COCO görüntü veri kümelerinin birleştirilmesiyle elde edilmiş 108.249 görüntü, bu görüntülere ait 1.7 milyon soru-cevap çifti yer almaktadır.

Bu veri kümesinde yalnızca ‘ne, nerede, nasıl, ne zaman, kim’ soru kelimelerini içeren sorular bulunmaktadır, evet/hayır soruları yoktur. Sorular oluşturulurken 2 farklı yol izlenmiştir. Bunlardan ilkinde soruyu hazırlayan kişiler serbest bırakılmıştır ve istedikleri soruyu sorma hakkı verilmiştir. İkincisinde ise her bir resim parçalara bölünerek yalnızca o parçacıkta yer alan bölge ile ilgili soru hazırlamaları istenmiştir. Böylelikle diğer veri kümelerine oranla farklı soru oranı oldukça artmıştır, bu da daha zorlu sorular hazırlanmasını getirmiştir.

Visual Genome veri kümesi hakkında ayrıntılı istatistiklere, yapılan akademik çalışmaya ve veri kümesine erişmek için👍


📌VISUAL7W:Visual Genome veri kümesinde yer alan (aynı zamanda MS COCO veri kümesinde de bulunan) 47.300 resim içerir. Soru türü olarak farklılık yalnızca ‘hangi’ soru kelimesinin eklenmiş olmasıdır, bu özelliği ile VISUAL7W veri kümesi, Visual Genome’un bir alt kümesi olarak düşünülebilir.

Veri kümesini farklı kılan kısım, ‘hangi’ soru kelimesinin geçtiği sorulara, algoritma tarafından cevap verilirken metin yerine resim üzerinde bir sınırlanmış alanın seçiliyor olmasıdır. Visual7W, standart değerlendirme olarak çoktan seçmeli bir cevap çerçevesi kullanır ve değerlendirme sırasında bir algoritmaya dört olası cevap verilebilir.

Visual7W veri kümesine ulaşmak için 👍


Literatürde yapılan çalışmalarda en sık kullanılan veri kümelerine şöyle bir göz attığımıza göre artık Görsel Soru Cevaplama Probleminin çözümünde hangi yaklaşımlar ön plana çıkmış onları inceleyelim.

🔬Görsel Soru Cevaplama Probleminin Çözümü için Temel Yaklaşımlar

2015 yılından itibaren odaklanılan VQA probleminin çözümüne yönelik literatürde birçok farklı model görebilmek mümkün ama bu farklı modellerin hemen hepsi temelde görüntü öznitelikleri ve soru özniteliklerinin ayrı ayrı elde edilmesinin ardından, cevap üretmek için bu özniteliklerin birleştirilmesine yönelik bir yaklaşım benimser.

Görüntüye ait özniteliklerin çıkarılmasında VGGNet, ResNet, GoogleNet gibi evrişimli sinirli ağları sıklıkla kullanılırken, soru özniteliklerinin çıkarılmasında Kelime/Sözcük Çantası (bag-of-words), Uzun Kısa Vadeli Hafıza Ağları (LSTM), Geçitlenmiş Özyinelemeli Birimler (gated recurrent units -GRU) ve Skipthought vektörler gibi farklı yöntemlerden faydalanıldığını görmekteyiz.

Bu iki temel işlem tamamlandıktan sonra cevabın üretilmesi safhasında ise genel yaklaşım bu zor problemi bir sınıflandırma problemine dönüştürmek yönündedir.

⚠️ Hatırlatmakta fayda var ki yapılan tüm çalışmalarda temel problem sınıflandırma problemine çevrilerek çözülmemiş, bazılarında cevabın üretilmesi (answer generation) yönünde farklı yaklaşımlar da denenmiştir. Bu çalışmaların ayrıntılarından bu yazıda bahsetmeyeceğiz fakat, merak edenler için sınıflandırma yaklaşımını benimsemeyen birkaç çalışmaya ait akademik makaleleri buraya bırakıyorum, tek tıkla erişebilmeniz mümkün ✌️

Tekrar sınıflandırıcı yardımı ile çözüme ulaşmayı hedefleyen yaklaşımlara geri dönersek; basit bir ifade ile bu sistemlerin görüntü ve soru özniteliklerini bir sınıflandırma sisteminin girdileri olarak kabul edip her bir farklı cevabı da ayrı bir kategori olarak değerlendirmek şeklinde bir bakış açısı geliştirdiğini söyleyebiliriz.

Bu anlaması güç gibi gözüken karmaşık sistemin basit bir görünüşünü diyagram üzerinden anlamaya çalışalım.

Bu zorlu görevdeki en çok soru işareti doğuran adım, görüntü ve soru özniteliklerinin bir araya getirilerek cevabın üretilmesi kısmı olduğundan; bu adım için daha önceki çalışmalarda kullanılan modellere biraz daha ayrıntılı bir şekilde bakalım.

VQA modellerini çalışma prensiplerine göre 4 temel başlık altında toplayabiliriz:

📌 Temel Modeller:

VQA sistemleri için kullanılan en temel modellerden biri görüntü ve soru özelliklerini tek bir vektörde birleştirdikten sonra çok katmanlı algılayıcı (Multi-layer Perceptron-MLP) gibi doğrusal olan veya olmayan bir sınıflandırıcı uygulamaktır.

Özniteliklerin bir araya getirilmesinde ise genellikle bitiştirme (concatenation), terimsel çarpım veya terimsel toplam (elementwise product/sum) yöntemlerinin kullanıldığı görülmektedir. Yapılan çalışmalarda temel sınıflandırma çerçeveleri ile birlikte çeşitli özniteliklendirme (featurization) yaklaşımları da kullanılmıştır.

Örneğin 2015 yılında yapılan “Simple baseline for visual question answering” isimli çalışmada; soruyu temsil etmek için kelime/sözcük çantası (bag-of-words) ve görüntü öznitelikleri için CNN öznitelikleri GoogleNet’ten elde edilmiş ve kullanılmıştır. Daha sonra bu öznitelikler bitiştirme(concatenation) işlemi birleştirilmiş ve çok sınıflı lojistik regresyon (multi-class logistic regression) ile sınıflandırma yapılmıştır.

Benzer şekilde soru öznitelikleri için skip-thought vektörlerini (skip-thought vektörler ile ilgili ayrıntılı bilgi için), görüntü özniteliklerini çıkarmak için ResNet-152’yi kullanarak yapılan bir diğer çalışmada iki gizli katmanı bulunan MLP’nin hazır öznitelik üzerinde çok iyi çalıştığı gözlemlendi. Fakat MLP aşırı uyuma (overfitting) yatkın olması sebebiyle, küçük veri kümeleri için de benzer yüksek performansa sahip olduğunu söylemek hatalı olacaktır.

Sık kullanılan diğer bir temel modelde soruların kodlanmasında LSTM kullanılması öngörülmüştür. Örneğin, [3]’de soru özelliklerini temsil etmek için cümleye ait one-hot encoding üzerinde hareket eden LSTM kodlayıcı ve görüntü öznitelikleri için GoogleNet kullanılmıştır. CNN özniteliklerinin boyutu, LSTM kodlamasının boyutuna uyacak şekilde azaltılmış ve daha sonra bu iki vektör Hadamard çarpımı kullanılarak bir araya getirilmiştir. Birleştirilen vektör ise, yine iki gizli katmanı olan bir MLP’ye girdi olarak kullanılmıştır. Bu çalışmaya benzer LSTM kullanılarak çözüme ulaşılmaya çalışan birçok VQA araştırmasına rastlamak mümkündür. (bkz. [4], [10], [11])

📌 Bayesçi ve Soruya Duyarlı Modeller (Bayesian and Question-Aware Models):

Sorular ve cevapların öznitelikleri elde edildikten sonra, bunların birlikte-oluşum istatistiklerinin (diğer bir anlamda ilişkilerinin) modellenmesi doğru cevaplar hakkında çıkarımlar yapmak konusunda yardımcı olabilir. Bu ilişkilerin modellenmesi için literatürde birçok kez Bayesçi yöntemlere başvurulmuştur.

VQA konusundaki ilk Bayesçi yaklaşım, 2014 yılında M. Malinowski ve M. Fritz tarafından önerilmiştir [12]. Araştırmacılar, bir görüntüdeki nesneleri ve konumlarını tanımlamak için semantik segmentasyon kullandılar. Daha sonra ise, nesnelerin mekansal ilişkilerini (spatial relationships) modellemek için bir Bayes algoritması eğitildi. Bu çalışma aynı zamanda VQA konusunda yapılan ilk çalışmalardandı ve kısa süre sonra temel modellerle yapılan çalışmalarla başarısı kolayca aşıldı.

Bu çalışmanın haricinde göze çarpan çalışmalardan bir diğerinde ise yeni bir Bayesçi yaklaşım tasarlanmıştır [9]. Bu çalışmadaki amaç ise bir soruya cevap vermekten daha çok, verilecek cevabın türünü (renk, sayı, evet/hayır vs.) belirlemektir. Bunu yapmak için olasılıkların belirlenmesinde ikinci dereceden bir diskriminant analizi varyantı kullanılmış ve temel modellere nazaran daha başarılı sonuçlar elde edilmiştir.

📌 Dikkat Temelli Modeller (Attention Based Models):

Araştırmacılar dikkat temelli modeller ile Bilgisayarlı Görü ve Doğal Dil İşleme alanlarında yaptıkları çalışmalarda özellikle son yıllarda oldukça başarılı sonuçlar elde ettiler. Bu iki alanı bir araya getiren VQA problemlerinde ise sahip olduğumuz herhangi bir soru ile alakalı cevaba ulaşmaya ilişkin atacağımız adımlarda, tüm resim ile ilgilenmek yerine resmin (cevaba ulaşmada) daha fazla öneme sahip bölgelerine odaklanmak fikri için dikkat temelli modellerden faydalanılmıştır. Örneğin; ‘Resimde kaç çocuk vardır?’ sorusu için, çocukların bulunduğu görüntü bölgesi diğer alanlara göre bilgilendiricidir. Yine aynı şekilde soru cümlesinde ‘çocuk’ ve ‘kaç’ sözcükleri -diğer sözcüklere kıyasla- doğrudan ilgilenilmesi gereken sözcüklerdir.

Temel modellerde görüntü öznitelikleri için kullanılan CNN’in son gizli katmanı gibi veya metin öznitelikleri için kullanılan kelime/sözcük çantası (bag-of-words) gibi evrensel öznitelikleri bölgeye özgü soruların cevaplanması için yeterli ayrıntıya sahip değildir.

Bölgesel olarak dikkat gerektiren mekanizmaları (spatially attentive mechanism) kullanmadan önce sadece evrensel düzeyde değil, tüm bölgesel görsel özellikleri temsil eden bir algoritmaya ihtiyaç duyulur. Bu algoritmaya bağlı olarak soru ile ilgili bölgelerdeki yerel öznitelikler daha yüksek önem değeri verebilir. Burada yerel özniteliklerin kodlanmasında araştırmacılar tarafından tercih edilen 2 farklı yöntem vardır.

Bu yöntemlerden ilki resme ait sınırlayıcı kutular (bounding boxes) oluşturmak, bu kutuların her birini bir CNN kullanarak kodlamak ve sonra her bir kutunun özelliklerinin soruyu kullanarak ilgililiğini belirlemektir.

Diğer bir yaklaşım ise; mevcut yerel görüntü özellikleri ile tüm görüntü alanları üzerinde ızgara (grid) uygulama yöntemi olarak adlandırılır. Her ızgara konumunun alaka düzeyi daha sonra soru ile belirlenmektedir.

Dikkat temelli modellerle yapılmış çok fazla sayıda VQA uygulaması bulmak mümkündür. Bu uygulamaları ayrıntılı inceleyebilmeniz için parantez içerisinde belirtilen referans makalelere göz atabilirsiniz. [13, 14, 15, 16, 17]

📌 Bileşimsel Modeller (Compositional VQA Models)

VQA’da sorulara cevap üretebilmek için çoğu zaman birden fazla basamağa ihtiyaç duyulur. Örneğin; ‘Sarışın çocuk ne yapıyor?’ gibi bir soru sorulduğunda önce sarışın çocuk ve ardından çocuğun gerçekleştirdiği eylem tespit edilmelidir. Bir dizi alt adımda çözüm gerektiren soruları da yanıtlamayı hedefleyen uygulamalar için Sinir Modeli Ağı (Neural Module Network- NMN) ve Yinelenen Yanıtlama Birimleri (Recurrent Answering Units -RAU) olmak üzere 2 bileşimsel çözümleme çerçevesi önerilmiştir.

NMN çerçevesi görsel soru cevaplama problemini her biri ayrı birer alt görevi gerçekleştirmek için özelleşmiş alt sinir ağları ile çözme yaklaşımı sergiler. Örneğin [x] modülü nesne tespiti için özelleşmişken, başka bir modül ölçüm için özelleşmiş olabilir. Farklı modüller tarafından elde edilen bilgilerin anlamlı bir düzende birleştirilmesi de zorlu işlemlerden biri olarak karşımıza gelmektedir. Birleştirme işlemi için önerilen yöntemlerden biri, öncelikle soruyu alt görevler halinde parçaladıktan sonra, her bir parçaya denk gelecek cevabı tespit ederek sorudaki sıranın aynısını cevap içinde uygulamaktır. Bir diğer yaklaşımda ise, verilen soru için üretilen cevapların otomatik oluşturulan düzenlerinden dinamik olarak en iyi olanını seçen algoritmaların geliştirilmesi üzerinde durulmuştur.

RAU’da ise harici bir dil ayrıştırıcısı yerine kompozisyonel bir bakış açısı mevcuttur. Bu modelde VQA alt görevlerini çözebilecek çok sayıda bağımsız cevaplama birimi kullanılmıştır. Zincir şeklinde tasarlanan her bir cevaplama birimi bir dikkat mekanizması ve sınıflandırıcı ile donatılmıştır. RAU’da alt cevapların örtük bir şekilde elde edildiği uçtan uca eğitim (end-to-end training) yaklaşımı sergilenir.


Yapay zeka alanında üzerinde en çok çalışılan konulardan olan Bilgisayarlı Görü ve Doğal Dil İşlemeyi bir araya getiren Görsel Soru Cevaplama için en sık kullanılan, literatürde geniş yer kaplayan veri kümeleri ve modelleri paylaştığımıza göre son olarak da pratik bir uygulama paylaşarak yazımızı sonlandıralım.

VQA probleminin çözümüne yönelik tasarlanan ilk modellerden biri olan ve aynı zamanda literatürde de çokça atıf alan “VQA: Visual Question Answering” çalışmasında önerilen modelden yararlanarak Jupyter Notebook üzerinde demosu hazırladık. Ayrıca sizlerin de kendi uygulamalarınızda kullanabilmeniz için Görsel Soru Cevaplama API’si geliştirerek, çalışmalara hız kazandırmak istedik!

✅ Çalışmanın eğitilmiş model dosyaları ve kaynak kodları için👍

https://github.com/basakbuluz/Visual-Question-Answering

✅ VQA Çalışma Dosyası için 👍

https://colab.research.google.com/github/basakbuluz/Visual-Question-Answering/blob/master/VisualQuestionAnsweringDemo.ipynb

✅ API’nin detaylarına ulaşmak için 👍

https://algorithmia.com/algorithms/yavuzkomecoglu/VQA


Bilgisayarlı Görü ve Doğal Dil İşleme alanlarını bir araya getiren ‘Görsel Soru Cevaplama (Visual Question Answering — VQA)’ probleminin tanıtıldığı bu yazıda çokça tercih edilen sistem yaklaşımları ve kullanılan veri kümelerinden bahsedilirken; bu konuda yapılmış en önemli çalışmalardan birinin canlı uygulama demosu oluşturulmuş ve bu çalışma Yavuz Kömeçoğlu tarafından API haline getirilmiştir

KAYNAKLAR

[1] : http://www.zutimacak.hr/ljetna-akcija-za-klince-i-klinceze/

[2] : Malinowski, M., & Fritz, M. (2014). A multi-world approach to question answering about real-world scenes based on uncertain input. In Advances in neural information processing systems (pp. 1682–1690).

[3] : S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, and D. Parikh, \VQA:Visual question answering,” in The IEEE International Conference on Computer Vision (ICCV), 2015.

[4] : H. Gao, J. Mao, J. Zhou, Z. Huang, L. Wang, and W. Xu, \Are you talking to a machine? Dataset and methods for multilingual image question answering,” in Advances in Neural Information Processing Systems (NIPS), 2015.

[5]: R. Krishna, Y. Zhu, O. Groth, J. Johnson, K. Hata, J. Kravitz, S. Chen, Y. Kalantidis, L.-J. Li, D. A. Shamma, et al., \Visual genome: Connecting language and vision using crowdsourced dense image annotations,” International Journal of Computer Vision, vol. 123, no. 1, pp. 32{73, 2017.

[6] : Y. Zhu, O. Groth, M. Bernstein, and L. Fei-Fei, \Visual7w: Grounded question answering in images,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[7] : B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fergus, \Simple baseline for visual question answering,” arXiv preprint arXiv:1512.02167, 2015.

[8] : R. Kiros, Y. Zhu, R. Salakhutdinov, R. S. Zemel, A. Torralba, R. Urtasun, and S. Fidler,\Skip-thought vectors,” in Advances in Neural Information Processing Systems (NIPS),2015.

[9] : K. Kae and C. Kanan, \Answer-type prediction for visual question answering,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[10] : M. Malinowski, M. Rohrbach, and M. Fritz, \Ask your neurons: A neural-based approach to answering questions about images,” in The IEEE International Conference on Computer Vision (ICCV), 2015.

[11] : M. Ren, R. Kiros, and R. Zemel, \Exploring models and data for image question answering,” in Advances in Neural Information Processing Systems (NIPS), 2015.

[12] : M. Malinowski and M. Fritz, \”A multi-world approach to question answering about realworld scenes based on uncertain input,” in Advances in Neural Information Processing Systems (NIPS), 2014.

[13] : K. J. Shih, S. Singh, and D. Hoiem, \”Where to look: Focus regions for visual question answering,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[14] : Z. Yang, X. He, J. Gao, L. Deng, and A. J. Smola, \”Stacked attention networks for image question answering,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[15] : Z. Yang, X. He, J. Gao, L. Deng, and A. J. Smola, \”Stacked attention networks for image question answering,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[16] : J. Lu, J. Yang, D. Batra, and D. Parikh, \”Hierarchical question-image co-attention for visual question answering,” in Advances in Neural Information Processing Systems (NIPS), 2016.

[17] : I. Ilievski, S. Yan, and J. Feng, \”A focused dynamic attention model for visual question answering”, arXiv preprint arXiv:1604.01485, 2016.

[18] : Anne Hendricks, L., Venugopalan, S., Rohrbach, M., Mooney, R., Saenko, K., & Darrell, T. \ “Deep compositional captioning: Describing novel object categories without paired training data”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.

[19]: Noh, H., Hongsuck Seo, P., & Han \”Image question answering using convolutional neural network with dynamic parameter prediction”, In Proceedings of the IEEE conference on computer vision and pattern recognition, 2016.

Tarih:Teknik YazılarYapay Öğrenme

İlk Yorumu Siz Yapın

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir