Indie Lagu :: Lagu Tarbaru

Saturday, April 11, 2009

SOM (Self Orginized Map)

Salah satu solusi untuk melakukan pemetaan N-dimensi dokumen ke representasi 2D adalah SOM.  Pendekatan ini menggunakan dokumen vektor sebagai input sedangkan outputnya adalah Map yang menggambarkan karakteristik dari input dan merupakan representasi 2D.

Gambar berikut menunjukkan urut-urutan proses membuat representasi 2D:


Koleksi dokumen akan di-encode untuk menciptakan Vector Space (sebagai contoh dokumen vektor).  Dokumen vektor dibutuhkan untuk meciptakan Map inisial.  Terdapat banyak pilihan untuk melakukan hal ini namun hal penting yang harus diingat adalah kita perlu menciptakan Map insial  yang bagus supaya bisa mengurangi waktu komputasi dalam proses selanjutnya (misal proses pembelajaran - learning process).  Map Inisial berupa kumpulan point/titik dan setiap titik  ini dikenal dengan istilah initial weight vector yang disebut neuron.  Setiap neuron memiliki 2 (dua) buah informasi yaitu data dan lokasinya di dalam Map.  Data memiliki dimensi yang sama dengan Sample vector yang digunakan dalam learning process.

Map Inisial akan diatur menggunakan Sample vector yang disebut training sample.  Proses ini dikenal dengan istilah learning process dan akan mengikuti aturan sebagai berikut:

  1. Ambil sembarang sample vector kemudian bandingkan dengan setiap neuron.  Neuron yang memiliki data yang mendekati/mirip dengan sample vector akan dipilih menjadi pemenang dan datanya akan di-update berdasarkan sample vector. Salah satu teknik untuk menghitung tingkat kemiripan adalah dengan menghitung Euclidian distance kemudian mengambil shortest distance.  Neuron yang terpilih sebagai pemenang disebut best matching unit (BMU).  Selain data BMU yang di-update, data dari tetangga terdekat BMU juga akan di-update.
  2. Jika terdapat lebih dari satu BMU, maka kita bisa memilih acak salah satu diantara BMU tersebut
Proses ini akan diulang terus sampai mencapai batas iterasi yang sudah direncanakan.  Hasil akhir dari proses ini adalah Map dari dokument.

Keuntungan
Output dari pendekatan ini, document map, mudah untuk dimengerti karena berupa region.  Dengan menganalisis region ini, kita akan dengan cepat memahami informasi yang terkandung di dalam koleksi dokumen kita.

Contoh output:


Informasi : Dari gambar bisa kita lihat Warna biru memiliki nilai yang lebih kecil dari warna merah.

Contoh Analisa sederhana dari output SOM: Mengapa pada daerah yang populasi manusianya tinggi, populasi sapi juga tinggi ?

Kerugian
Jika terjadi sedikit saja perubahan dalam koleksi dokumen, maka keseluruhan fase pembelajaran harus diulangi.

Reference:

  1. Prof. Dr.-Ing. Jürgen Ziegler, Interacitve Systeme Informationsvisualisierung, Duisbug-Essen University, 2008
  2. Wikipedia : Self-organizing_map


No comments: