Tesi di: DE CARLO SILVIA matr. n° 411522

RIASSUNTO

La possibilità di memorizzare un segnale audio in un formato digitale ha aperto nuove prospettive in tutti i campi di applicazione legati al trattamento ed alla diffusione del suono.
Fra i diversi obiettivi dei ricercatori c'era inizialmente quello di progettare sistemi in grado di riconoscere automaticamente il parlato cercando di utilizzare allo scopo le nozioni di acustica-fonetica. Successivamente tale obiettivo fu perfezionato migliorando le caratteristiche del segnale vocale per aumentare la possibilità di distinguere il parlato in presenza del rumore, specialmente nei canali trasmissivi. A questo obiettivo, inoltre se ne aggiunsero altri più ambiziosi che solo in tempi recenti stanno trovando una soluzione come, per esempio, la trascrizione automatica del parlato in un testo, le progettazioni di sistemi per il Pitch-Detection, la divisione automatica di parlato-musica-rumore nel campo delle telecomunicazioni o delle intercettazioni ambientali.
Lo scopo di questa tesi è stato quello di studiare delle parametrizzazioni che permettano la descrizione dei diversi segnali fra cui segnali vocali e segnali musicali.
L'algoritmo implementato allo scopo ha come segnali d'ingresso segnali audio campionati ad una frequenza di campionamento pari a 11025 Hz in formato WAVE. Una volta acquisito il segnale nel formato opportuno è stata normalizzata la forma d'onda quantizzata in un intervallo di valori compresi fra -100 e +100; successivamente, si è calcolata la frequenza con cui ogni ampiezza del segnale audio normalizzato si presenta entro una finestra temporale di dimensione opportuna. Questi valori sono stati normalizzati dividendoli per il valore massimo trovato. Il risultato finale che si ottiene è un vettore delle distribuzioni delle ampiezze valido nell'intervallo di tempo considerato. Una classe omogenea di distribuzioni delle ampiezze viene calcolata come media di più finestre temporali del medesimo segnale o di più segnali timbricamente simili.
Utilizzando questa tecnica si sono create delle classi di parlato maschile, parlato femminile, musica classica e musica ritmica; per ognuna di queste classi si sono presi in considerazione circa due minuti di segnale audio ottenendo così un vettore della distribuzione di frequenze rappresentativo.
Una volta determinati tali vettori è stato possibile catalogare un segnale audio sconosciuto come segnale vocale o segnale musicale usando la misura della distanza entropica dal vettore rappresentativo di ogni classe. Questi modelli sono stati testati con circa sette minuti di file audio comprendenti parlato, musica classica e musica ritmica.
I risultati ottenuti dalla modellizzazione sono stati diversi. Infatti per quanto riguarda la modellizzazione del parlato su circa due minuti di ascolto di segnali vocali il risultato conseguito è stato pari al 93%, mentre per la modellizzazione della musica classica su circa quattro minuti di ascolto è stato pari al 97%; lo stesso non si può dire per i casi di difficile catalogazione come per la musica ritmica. Questo è dovuto al fatto che l'andamento delle consonanti di un segnale vocale nel dominio temporale è simile a quello di un segnale percussivo, come la batteria; perciò, nel caso della musica leggera, si generano, in una finestra di due secondi, distribuzioni delle ampiezze quasi indistinguibili se prescindiamo dalla ripetitività degli impulsi.
Per verificare il successo dell'algoritmo implementato, è stata condotta, parallelamente, un'indagine analoga utilizzando l'algoritmo di Saunders. I parametri in ingresso sono i parametri statistici calcolati sulla frequenza di Zero-Crossing del segnale e la distribuzione spettrale dell'energia. Ai fini della ricerca è stata utilizzata una procedura basata sul calcolo della distanza entropica tra il campione e il segnale considerato. I risultati ottenuti con tale algoritmo non hanno però mostrato significative differenze rispetto alla modellizzazione proposta ed applicata al problema della discriminazione del segnale vocale e del segnale musicale.