Relatore: Prof. G. Haus Studente: Davide Alghi
Correlatore: Dr. J. Chareyron Matr.: 322005
Riassunto di tesi di laurea in Scienze dell'Informazione
Anno Accademico 1993/94

Estrazione in tempo reale di parametri di controllo da segnali audio complessi

Il presente lavoro é dedicato all'estrazione di parametri da segnali audio con l'obiettivo futuro di utilizzare tali parametri per il controllo di periferiche in grado di alterare o riprodurre informazione (ad esempio audio, video o altro).
I parametri del segnale che si intendono estrarre sono il volume, l'inviluppo, il pitch e la densità spettrale a quarti d'ottava.
Lo scritto di tesi si apre con una breve descrizione del percorso seguito per arrivare al risultato finale (capitolo 2).
Il capitolo 3 contiene una descrizione formale degli elementi teorici utilizzati nell'ambito del lavoro di tesi, sia quelli noti dalla letteratura più recente che altri originali sviluppati dal candidato.
Le parti principali sono tre che descrivono rispettivamente gli algoritmi per il calcolo
a) dell'inviluppo e del volume,
b) di una FFT reale ridotta
c) del pitch con la densità spettrale.
Il capitolo 4 é strutturalmente identico al precedente con la differenza che é dedicato alla fase implementativa degli algoritmi.
Nel periodo di ricerca si é fatto uso di strumenti software quali l'applicazione "Sound Designer II" della Digidesign che dà la possibilità di manipolare file di campioni audio. Inoltre si é utilizzato un ambiente special purpose per la progettazione di algoritmi per l'elaborazione numerica di segnali audio denominato "DSP Designer" della Zola Technologies integrato nell'ambiente di sviluppo MPW della Apple. Questo permette di effettuare DFT su campioni sonori e di visualizzarne graficamente il contenuto.
L'inviluppo ed il volume vengono calcolati nel dominio del tempo utilizzando una tecnica messa a punto al LIM (Laboratorio di Informatica Musicale di questo Dipartimento) mediante un'analisi comparata fra vari approcci. Si fa uso di quattro soglie adattive che suddividono gli intervalli di quantizzazione del segnale digitale in cinque gruppi. In base a dove un campione "cade" viene considerato appartenente alla fase di attacco, di sostegno, di decadimento, di rilascio o di silenzio.
Il calcolo del pitch viene effettuato nel dominio delle frequenze tramite il calcolo di DFT su 2048 punti utilizzando una tecnica, tratta dal testo di R.A.Roberts e C.T.Mullis: Digital Signal Processing (capitolo dedicato alle trasformate di Fourier veloci), che permette un risparmio di tempo e di memoria di circa il 25% rispetto alla FFT ordinaria.
La DFT permette di calcolare una densità spettrale a quarti d'ottava ed il pitch determinando le armoniche presenti nel segnale per poi associarle in famiglie e stabilire quali siano le note effettivamente suonate.
Il capitolo 5 riporta i test che sono stati eseguiti in laboratorio sull'applicazione: é in grado di lavorare correttamente per il calcolo del pitch e della densità spettrale per frequenze non inferiori al FA#4.
Questa restrizione é dovuta al fatto che ci siamo limitati a costruire un prototipo di strumento che verrà sviluppato secondo i suggerimenti riportati nel capitolo 7 degli sviluppi futuri nel quale é stata inclusa, oltre al metodo per espandere il prototipo a tutta la banda udibile, anche una chiave di ricerca per ovviare ai casi critici in cui gli algoritmi hanno qualche difficoltà a lavorare, difficoltà legate a peculiarità di particolari timbri strumentali.
Il capitolo 6 dedicato alla guida operativa descrive l'uso dell'interfaccia utente ed i criteri di interpretazione dei valori di inizializzazione visibili sullo schermo.
Riassumendo, i risultati raggiunti sono i seguenti:
1) descrizione dell'inviluppo attraverso attacco, sostegno, decadimento e rilascio. Nel caso di segnale monotimbrico vengono descritte le caratteristiche di quello strumento, mentre nel caso polifonico la descrizione riguarda la somma timbrica dei vari strumenti partecipanti alla produzione del segnale. In entrambi i casi il volume é definito come l'ampiezza di picco (che si presenta normalmente alla fine della fase di attacco);
2) calcolo di una FFT reale "rapida";
3) calcolo del pitch non limitato ad una sola nota, ma a più note sovrapposte verticalmente (simultanee) fino ad un numero di 10 (arbitrariamente fissato), comunque varabile a seconda delle eccezioni timbriche. Dalla FFT si ricava anche informazione sulla densità spettrale a quarti d'ottava.

Per finire é stata riportata la bibliografia e un'appendice contenente le tabelle necessarie per una comprensione completa del lavoro e l'ambiente s/w-h/w utilizzato nella ricerca e nell'implementazione.