FAQ

Glasovne tehnologije


Najčešća pitanja o glasovnim tehnologijama

Šta su neuronske mreže i na koji se način koriste u glasovnim tehnologijama?

Veštačka neuronska mreža je računarski model koji se koristi u oblasti mašinskog učenja. Mašinsko učenje podrazumeva kreiranje programa koji za cilj ima da ”nauči” računar da na osnovu poznatih podataka interpretira, proceni ili poveže nove, u suštini nepoznate podatke, i proizvede rezultat koji će, sa visokom preciznošću, služiti u određene svrhe, kao što su glasovno raspoznavanje, prevođenje s jednog jezika na drugi, prepoznavanje objekata unutar slika i klasifikacija objekata na slikama. Ovakav program se sastoji iz niza algoritama primenjenih na strukturi veštačkih neuronskih mreža, koja je inspirisana radom neuronskih mreža koje se nalaze u mozgu. Čitav model je predstavljen kao niz proizvoljnog broja slojeva. Svaki sloj sadrži, takođe, proizvoljan broj čvorova, koji, u poređenju sa prirodnom strukturom mozga, predstavljaju neurone. Čvorovi u različitim slojevima su međusobno povezani, i ovakve veze se mogu uporediti sa sinaptičkim vezama između neurona unutar mozga. Kao i ljudski mozak, tako i ovakav program uči na osnovu informacija koje ima na raspolaganju. Što je veća količina informacija, i rezultati će biti precizniji. Mašinsko učenje je pogodan pristup u slučaju potrebe baratanja velikom količinom podataka kao što je to u slučaju glasovnih tehnologija koje se zasnivaju na analizi i prepoznavanju ključnih karakteristika audio signala, npr. oblik signala u vremenskom ili frekvencijskom domenu. Svaka osoba ima karakterističan način izgovaranja slova, reči ili rečenica, pa i u slučaju istog govornika, oblici signala za isto slovo mogu biti različiti, čime se dobija velika količina podataka za obradu u kratkom vremenskom periodu.

Koje su prednosti korišćenja neuronskih mreža u glasovnom raspoznavanju naspram prethodnih sistema?

Sistem učenja mašina koji koristi neuronske mreže nudi značajno veću preciznost u glasovnom raspoznavanju. Ovo se jasnije vidi u težim uslovima rada, npr. kada se transkribuje komprimovan snimak, kada u pozadini snimka postoji pozadinska buka, kada je zvuk sniman s veće udaljenosti, itd. U takvim slučajevima, neuronska mreža može dati bolje rezultate, pošto je sama po sebi jača od prethodnih verzija sistema.

Može li vaš sistem za glasovno raspoznavanje da uči sam od sebe/samostalno?

Sa gledišta teorije mašinskog učenja, jedna od prednosti neuronskih mreža jeste, da ako su dovoljno duboke, mreža može sama stvarati interne apstraktne indekse između slojeva, koji su bolji od onoga što čovek može stvoriti iz obrađenog signala kroz razne sofisticirane transformacije i algoritme. Medjutim, i prethodni se algoritmi moraju naučiti. Ovo nije novost u neuronskim mrežama. Važno je zapamtiti kako nijedan sistem ne može samostalno učiti. Uvek je potreban učitelj koji omogućava da se znanje primi i primeni.

Koliko je značajan napredak koji nosi neuronska mreža i gde je on vidljiv?

U idealnim uslovima, gde god je prošli sistem dobro radio, možemo očekivati relativni pad u greškama od 1% do 2%. To može povećati preciznost s 90% na od 91% do 92%. U težim uslovima, gde je prošli sistem radio s tačnošću od npr. 40% do 60%, možemo očekivati znatno bolje rezultate, npr. oko 80%.

Kako izgleda proces učenja u neuronskim mrežama i koliko traje?

Učenje pomoću nekoliko stotina sati audio snimaka traje oko 24 sata, koristeći jednu jaku grafičku karticu.

FAQ

NEWTON Dictate


Sve što morate znati o programu za automatsko raspoznavanje diktiranog teksta.

FAQ

NEWTON SpeechGrid


Najčešće postavljana pitanja o rešenju prepisa snimaka.

Kako mogu isprobati SpeechGrid tehnologiju?

NEWTON SpeechGrid možete isprobati na veoma jednostavan način zahvaljujući NteX programu. Program možete skinuti ovde..


Nazovite nas ili nam ostavite poruku. Odgovori ćemo Vam u najkraćem mogućem roku.

RONALAS  Technologies d.o.o.
Miloša Pocerca 3
11 000 Beograd
SRBIJA

e-mail: info@diktiranje.rs