Introduzione - descrizione del problema
L'informazione che si trova all'interno di un brano musicale
può essere rappresentata in diversi livelli di astrazione.
Il livello di astrazione più basso è il segnale
audio, dove il brano musicale è rappresentato come sequenza
di campioni dell'onda sonora prodotta dall'esecuzione del brano
stesso. Ad un livello gerarchico superiore troviamo il livello
simbolico, nel quale il brano è descritto sotto forma delle
sequenze di note musicali che vengono eseguite. Al livello di
astrazione più alto troviamo il livello strutturale, nel
quale si descrivono le relazioni fra i frammenti musicali che
compongono il brano, quali, ad esempio, le strutture di fuga,
canone, ecc.
Lo scopo di questo studio è l'analisi dell'informazione
musicale al livello più basso, il segnale audio, per cercare
di ricostruire l'informazione al livello simbolico, individuando
cioè l'altezza, l'intensità e la posizione sull'asse
temporale delle note musicali che vengono eseguite all'interno
del brano.
Il problema dell'identificazione dell'altezza delle note, che
in inglese viene denominato pitch-tracking, è stato studiato
fin dalla fine degli anni '60. I primi studi, tuttavia, si erano
concentrati sul segnale vocale, e il riconoscimento del pitch
era utilizzato come analisi preliminare nell'ambito di problemi
più generali quali l'identificazione dello speaker, la
compressione/miglioramento della voce nelle linee trasmissive,
il riconoscimento del parlato. Essendo ottimizzati per il segnale
vocale, questi algoritmi utilizzano delle caratteristiche del
segnale tipiche della voce, che li rendono pressoché inutilizzabili
quando applicati a segnali più generici, specialmente se
polifonici.
A partire dalla fine degli anni '70 cominciano a comparire degli
algoritmi più generali, sviluppati per l'analisi di segnali
musicali: un lavoro fondamentale in questo senso è stato
sviluppato da Moorer ([Moorer, 1977]). Nonostante la proliferazione
di molti algoritmi di pitch-tracking, non si è ancora arrivati
ad un metodo di validità generale, soprattutto per quanto
riguarda i segnali polifonici e politimbrici: il problema è
ancora in ampia fase di ricerca e ciò giustifica questo
lavoro.
Le aree coinvolte sono l'elaborazione numerica del segnale (in
particolare la stima spettrale) e le nozioni sulla fisica di base
della produzione dei suoni, mentre non verranno utilizzate le
conoscenze di teoria musicale ad alto livello (ad esempio le regole
di formazione e successione degli accordi, le informazioni strutturali
sulle relazioni fra i vari frammenti del brano musicale). Verranno
tralasciate, inoltre, le problematiche relative all'identificazione
del timbro.
I segnali analizzati saranno della natura più generale:
il caso monofonico, il caso polifonico monotimbrico e il caso
polifonico politimbrico.
L'importanza del lavoro è legata alle possibili applicazioni,
fra le quali ricordiamo:
- automatic music transcription (trascrizione automatica della
musica): il procedimento col quale si cerca di ricostruire uno
spartito musicale a partire dal segnale audio dell'esecuzione
del brano;
- melody retrieval (ricerca/ritrovamento di melodie): interrogazione
di archivi musicali basata su parametri estratti direttamente
dai dati;
- compressione/trasmissione di segnali audio (lo standard MPEG
4 prevede, fra le sue componenti, una sezione dedicata al pitch-tracking).
Il presente lavoro si sviluppa in tre parti: nella prima parte
verrà presentata una rassegna degli studi esistenti in
letteratura che riguardano sia direttamente il problema del pitch-tracking
che altri argomenti più generali nell'ambito della modellizzazione
del segnale musicale e dell'elaborazione numerica del segnale.
Nella seconda parte verrà presentato il modello che abbiamo
utilizzato per descrivere il segnale e il metodo sviluppato per
risolvere il problema; verranno inoltre presentati i risultati
ottenuti su segnali di prova. La terza parte è dedicata
alle appendici e alla bibliografia, dove verrà descritto,
fra le altre cose, il sistema software che implementa il metodo
di pitch-tracking sviluppato.