Indie Lagu :: Lagu Tarbaru

Wednesday, April 15, 2009

Mengenal Sistem Pengenalan Suara

Diagram Sistem Pengenalan Suara


Front End

Contoh alat yang termasuk dalam komponen ini adalah soundcard. Komponen ini akan mengkonversi sinyal analog (voice) ke dalam bentuk sinyal digital melalui proses sampling dan quantification. Sinyal analog dalam domain waktu akan dikonversi ke dalam domain frekuensi. Untuk bisa melakukan hal ini, kita memperhatikan voice dalam interval waktu yang sempit menggunakan window function. Sinyal dalam window ini akan dikonversi ke dalam domain frekuensi menggunakan transformasi Forier. Sinyal yang telah dicuplik harus bisa direkonstruksi ulang untuk itu berdasarkan teori pencuplikan Niquist-Shannon, frekuensi pencuplik yang digunakan adalah >= 2B, di mana B adalah frekuensi tertinggi dari sinyal asli.

Acoustic Model
Pendekatan dasar yang digunakan untuk membuat sistem pengenalan suara adalah menggunakan teori probabilitas.


Acoustic model, P(Signal|Kata), adalah probabilitas kata di dalam sinyal. Kita dapat menghitung probabilitas ini karena informasi representasi dari sinyal tersimpan di dalam dictionary.

Dictionary

Sinyal input diharapkan mampu dikenali sebagai urutan dari kata, maka kita membutuhkan dictionary yang berisi semua daftar kata yang harus bisa dikenali oleh sistem. Terdapat dua jenis dictionary untuk keperluan pengenalan suara:
  1. Words dictionary. Berisi kata-kata yang perlu untuk dikenali
  2. Phonetic dictionary. Dibutuhkan untuk membangkitkan fonem dari sebuah string. Hal ini penting untuk menentukan cara pengucapan dan untuk mengatasi masalah multiword.

Language Model

Digunakan untuk memprediksi kata berikutnya. Terdapat dua model yang bisa digunakan:

  1. N-Gram language model. Kata berikutnya diprediksi menggunakan history. Sebagai contoh dalam trigrams model, probabilitas dari kata berikutnya ditentukan oleh dua kata terakhir : P(Wi | Wi-1, Wi-2) dimana P : Probabilitias, Wi : Word pada saat ti, Wi-1: Word pada saat ti-1 Wi-2: Word pada saat ti-2
  2. Grammar based language model. Kata berikutnya diprediksi menggunakan pola kalimat yang sudah didefinisikan terlebih dahulu.
Context Model
Berfungsi untuk menentukan jumlah daftar kata/fonem yang perlu disimpan di dalam database. Sebagai contoh untuk sistem pengenalan suara dalam konteks mengenali angka, jumlah kata yang dibutuhkan di dalam database adalah sebanyak 10 (sepuluh) buah untuk kata satu, dua, tiga sampai dengan sepuluh

Decoder

Komponen ini bertugas untuk menemukan urut-urutan kata yang terkandung dalam sinyal input audio (voice)

Reference & sumber gambar:
Prof. Ziegler, Natuerlichsprachliche Interaktion, Duisburg-Essen University, Germany, 2009


No comments: