Relatore: Prof. G. Haus Studente: Davide Alghi
Correlatore: Dr. J. Chareyron Matr.: 322005
Riassunto di tesi di laurea in Scienze dell'Informazione
Anno Accademico 1993/94
Estrazione in tempo reale di parametri di controllo da segnali audio complessi
Il presente lavoro é dedicato all'estrazione di parametri
da segnali audio con l'obiettivo futuro di utilizzare tali parametri
per il controllo di periferiche in grado di alterare o riprodurre
informazione (ad esempio audio, video o altro).
I parametri del segnale che si intendono estrarre sono il volume,
l'inviluppo, il pitch e la densità spettrale a quarti d'ottava.
Lo scritto di tesi si apre con una breve descrizione del percorso
seguito per arrivare al risultato finale (capitolo 2).
Il capitolo 3 contiene una descrizione formale degli elementi
teorici utilizzati nell'ambito del lavoro di tesi, sia quelli
noti dalla letteratura più recente che altri originali
sviluppati dal candidato.
Le parti principali sono tre che descrivono rispettivamente gli
algoritmi per il calcolo
a) dell'inviluppo e del volume,
b) di una FFT reale ridotta
c) del pitch con la densità spettrale.
Il capitolo 4 é strutturalmente identico al precedente
con la differenza che é dedicato alla fase implementativa
degli algoritmi.
Nel periodo di ricerca si é fatto uso di strumenti software
quali l'applicazione "Sound Designer II" della Digidesign
che dà la possibilità di manipolare file di campioni
audio. Inoltre si é utilizzato un ambiente special purpose
per la progettazione di algoritmi per l'elaborazione numerica
di segnali audio denominato "DSP Designer" della Zola
Technologies integrato nell'ambiente di sviluppo MPW della Apple.
Questo permette di effettuare DFT su campioni sonori e di visualizzarne
graficamente il contenuto.
L'inviluppo ed il volume vengono calcolati nel dominio del tempo
utilizzando una tecnica messa a punto al LIM (Laboratorio di Informatica
Musicale di questo Dipartimento) mediante un'analisi comparata
fra vari approcci. Si fa uso di quattro soglie adattive che suddividono
gli intervalli di quantizzazione del segnale digitale in cinque
gruppi. In base a dove un campione "cade" viene considerato
appartenente alla fase di attacco, di sostegno, di decadimento,
di rilascio o di silenzio.
Il calcolo del pitch viene effettuato nel dominio delle frequenze
tramite il calcolo di DFT su 2048 punti utilizzando una tecnica,
tratta dal testo di R.A.Roberts e C.T.Mullis: Digital Signal Processing
(capitolo dedicato alle trasformate di Fourier veloci), che permette
un risparmio di tempo e di memoria di circa il 25% rispetto alla
FFT ordinaria.
La DFT permette di calcolare una densità spettrale a quarti
d'ottava ed il pitch determinando le armoniche presenti nel segnale
per poi associarle in famiglie e stabilire quali siano le note
effettivamente suonate.
Il capitolo 5 riporta i test che sono stati eseguiti in laboratorio
sull'applicazione: é in grado di lavorare correttamente
per il calcolo del pitch e della densità spettrale per
frequenze non inferiori al FA#4.
Questa restrizione é dovuta al fatto che ci siamo limitati
a costruire un prototipo di strumento che verrà sviluppato
secondo i suggerimenti riportati nel capitolo 7 degli sviluppi
futuri nel quale é stata inclusa, oltre al metodo per espandere
il prototipo a tutta la banda udibile, anche una chiave di ricerca
per ovviare ai casi critici in cui gli algoritmi hanno qualche
difficoltà a lavorare, difficoltà legate a peculiarità
di particolari timbri strumentali.
Il capitolo 6 dedicato alla guida operativa descrive l'uso dell'interfaccia
utente ed i criteri di interpretazione dei valori di inizializzazione
visibili sullo schermo.
Riassumendo, i risultati raggiunti sono i seguenti:
1) descrizione dell'inviluppo attraverso attacco, sostegno, decadimento
e rilascio. Nel caso di segnale monotimbrico vengono descritte
le caratteristiche di quello strumento, mentre nel caso polifonico
la descrizione riguarda la somma timbrica dei vari strumenti partecipanti
alla produzione del segnale. In entrambi i casi il volume é
definito come l'ampiezza di picco (che si presenta normalmente
alla fine della fase di attacco);
2) calcolo di una FFT reale "rapida";
3) calcolo del pitch non limitato ad una sola nota, ma a più
note sovrapposte verticalmente (simultanee) fino ad un numero
di 10 (arbitrariamente fissato), comunque varabile a seconda delle
eccezioni timbriche. Dalla FFT si ricava anche informazione sulla
densità spettrale a quarti d'ottava.
Per finire é stata riportata la bibliografia e un'appendice
contenente le tabelle necessarie per una comprensione completa
del lavoro e l'ambiente s/w-h/w utilizzato nella ricerca e nell'implementazione.