Tesi di: DE CARLO SILVIA matr. n° 411522
RIASSUNTO
La possibilità di memorizzare un segnale audio in un
formato digitale ha aperto nuove prospettive in tutti i campi
di applicazione legati al trattamento ed alla diffusione del suono.
Fra i diversi obiettivi dei ricercatori c'era inizialmente quello
di progettare sistemi in grado di riconoscere automaticamente
il parlato cercando di utilizzare allo scopo le nozioni di acustica-fonetica.
Successivamente tale obiettivo fu perfezionato migliorando le
caratteristiche del segnale vocale per aumentare la possibilità
di distinguere il parlato in presenza del rumore, specialmente
nei canali trasmissivi. A questo obiettivo, inoltre se ne aggiunsero
altri più ambiziosi che solo in tempi recenti stanno trovando
una soluzione come, per esempio, la trascrizione automatica del
parlato in un testo, le progettazioni di sistemi per il Pitch-Detection,
la divisione automatica di parlato-musica-rumore nel campo delle
telecomunicazioni o delle intercettazioni ambientali.
Lo scopo di questa tesi è stato quello di studiare delle
parametrizzazioni che permettano la descrizione dei diversi segnali
fra cui segnali vocali e segnali musicali.
L'algoritmo implementato allo scopo ha come segnali d'ingresso
segnali audio campionati ad una frequenza di campionamento pari
a 11025 Hz in formato WAVE. Una volta acquisito il segnale nel
formato opportuno è stata normalizzata la forma d'onda
quantizzata in un intervallo di valori compresi fra -100 e +100;
successivamente, si è calcolata la frequenza con cui ogni
ampiezza del segnale audio normalizzato si presenta entro una
finestra temporale di dimensione opportuna. Questi valori sono
stati normalizzati dividendoli per il valore massimo trovato.
Il risultato finale che si ottiene è un vettore delle distribuzioni
delle ampiezze valido nell'intervallo di tempo considerato. Una
classe omogenea di distribuzioni delle ampiezze viene calcolata
come media di più finestre temporali del medesimo segnale
o di più segnali timbricamente simili.
Utilizzando questa tecnica si sono create delle classi di parlato
maschile, parlato femminile, musica classica e musica ritmica;
per ognuna di queste classi si sono presi in considerazione circa
due minuti di segnale audio ottenendo così un vettore della
distribuzione di frequenze rappresentativo.
Una volta determinati tali vettori è stato possibile catalogare
un segnale audio sconosciuto come segnale vocale o segnale musicale
usando la misura della distanza entropica dal vettore rappresentativo
di ogni classe. Questi modelli sono stati testati con circa sette
minuti di file audio comprendenti parlato, musica classica e musica
ritmica.
I risultati ottenuti dalla modellizzazione sono stati diversi.
Infatti per quanto riguarda la modellizzazione del parlato su
circa due minuti di ascolto di segnali vocali il risultato conseguito
è stato pari al 93%, mentre per la modellizzazione della
musica classica su circa quattro minuti di ascolto è stato
pari al 97%; lo stesso non si può dire per i casi di difficile
catalogazione come per la musica ritmica. Questo è dovuto
al fatto che l'andamento delle consonanti di un segnale vocale
nel dominio temporale è simile a quello di un segnale percussivo,
come la batteria; perciò, nel caso della musica leggera,
si generano, in una finestra di due secondi, distribuzioni delle
ampiezze quasi indistinguibili se prescindiamo dalla ripetitività
degli impulsi.
Per verificare il successo dell'algoritmo implementato, è
stata condotta, parallelamente, un'indagine analoga utilizzando
l'algoritmo di Saunders. I parametri in ingresso sono i parametri
statistici calcolati sulla frequenza di Zero-Crossing del segnale
e la distribuzione spettrale dell'energia. Ai fini della ricerca
è stata utilizzata una procedura basata sul calcolo della
distanza entropica tra il campione e il segnale considerato. I
risultati ottenuti con tale algoritmo non hanno però mostrato
significative differenze rispetto alla modellizzazione proposta
ed applicata al problema della discriminazione del segnale vocale
e del segnale musicale.