Active Vision / Etkin Görme

E. Alpaydın, Boğaziçi Üniversitesi, Türkiye.

Abstract

Recognition in parallel is costly to implement. Achieving a recognizer with feasible complexity and cost requires a compromise between parallel and sequential processing. Dividing operation in time in vision, seeing apart of the scene at a time, one needs to find ways first, to map spatial relations into temporal relations and second, to compare temporal signals. In the Iiterature the name selective attention is employed by which a system selectively concentrates on parts of a given signal, one at a time.

In such a model one wants to be able to Iearn. Definition of a visual object consists of the content of the parts of the image seen one at a time, i.e., features extracted in each fixation, and the trajectory followed while seeing those so as to be able to take into account their relative positioning. Learning of such definitions should proceed in an incremental manner: one starts from short sequences where rough features are used to define objects. As similar objects are encountered, Ionger sequences and finer features need be extracted, Two Iearning algorithms, named Grow-and-Leam (GAL) and Grow-and-Represent (GAR) for respectively supervised and unsupervised learning, have previously been proposed towards this aim (Alpaydın, 1990).

This paper, in the first two sections, explains the idea and gives supporting theories from neuroscience and psychology: How such a recognizer achieves translation invariance is shown. Various compartments of such a system, e.g., pre-attentive, attentive, and associative levels, are analyzed. Difference is stressed between internal and external forms or attention, commonly confused. Saccadic system in vision, as one form of external attention, is explained.

Özet

Tamamen koşut bir tanıma, gereksinim duyulacak sistemin karmaşıklığı yüzünden pahalıdır ve her zaman olası olmayabilir. Gerçekleştirilebilecek bir karmaşıklığa ve fiyata sahip bir tanıyıcı, ancak koşut ve sıralı işlemin beraber ve uygun bir kullanımı ile olasıdır. Görmede, bütün girdinin bir anda işlendiği koşut bir sistem yerine, etkin görmede önerdiğimiz, belirli bir anda sistemin sadece bir bölüm girdiyi alıp, koşut işlemesi, bütün görüntüyü tanıyabilmek için ise, zaman içinde "dikkat" ini görüntünün çeşitli bölümlerine, sıra ile vermesidir. Bunu gerçekleştirebilmek için

[1] uzay içindeki ilişkilerin zaman içindeki ilişkilere çevrilebilmesi,

[2] bir anda değilde zaman içinde parça parça alınacak sinyallerin uygun bir şekilde saklanabilmesi ve karşılaştırılabilmesi

gerekir. Bir sistemin zaman içinde seçerek sinyalin çeşitli bölümlerini parça parça ve sıra ile birer birer işlemesine seçici dikkat adını verebiliriz.

Böylesi bir sistemde öğrenmek de istenebilir. Bu durumda bir cismin tanımı

[1] her görünen bölümdeki önemli özellikler ve

[2] birbirlerine göre zaman ve uzay içindeki konumlarından

oluşur. Böylesi tanımlar öğrenme sırasında detaylanabilir, dolayısı ile değişebilir. Örneğin, ilk başta cismin bir kaç kaba özelliği bu cismi diğerlerinden ayırt etmeye yetebilirken, zaman içinde benzer başka cisimlerin öğrenilmesi ile, cismin başka bölümlerine de bakmak ve daha detaylı, ince özelliklerin bulunması gerekebilir. Yapay sinir ağları ile böyle bir öğrenmenin yapılabilmesi için, öğrenme yordamlarının ağ yapısının da değiştirebilmesi gerekir. Böylesi yordamlar yine bu sempozyumda anlatılacaktır.

Psikolojik ve nörofizyolojik teorilerin etkin görme fikrini nasıl desteklediği anlatılmış ve böyle bir sistemin çeşitli parçaları , dikkat öncesi işlem, dikkat, bellek ve tanıma katmanları tanıtılmıştır. Sık olarak karıştırılan iç ve dış dikkat arasındaki fark anlatılmış ve göz hareketleri, bir örnek olarak verilmiştir. Gerçekleştirilmiş bir benzetimde yer değiştirmeye değişkensizliğin nasıl olduğu ve sistemin nasıl daha genelleştirilebileceği anlatılmıştır.

Tam Metin

Bildirinin tamamını görüntülemek için aşağıdaki dosyayı indiriniz.

Last updated