Introduzione
Il continuo e rapido sviluppo delle tecnologie legate agli elaboratori
elettronici e alla reti, ha permesso l'introduzione dell'audio
come tipo di dato in molte applicazioni. Ciò nonostante,
le informazioni audio continuano ad essere trattate come una semplice
sequenza di bytes, etichettati con nome, formato del file e pochi
altri attributi come, per esempio, la frequenza di campionamento.
Al crescere delle dimensioni degli archivi multimediali o delle
librerie musicali, questo modo di procedere si rivela del tutto
inadeguato. Pensiamo, per esempio, alle dimensioni di un archivio
contenente le registrazioni audio/video di una televisione o ad
una libreria di suoni di un produttore multimediale o musicale:
appare evidente che reperire i file desiderati tramite le classiche
interrogazioni testuali può divenire improponibile! Questi
problemi sorgono per l'impossibilità di riferirsi direttamente
a ciò che gli oggetti audio contengono. Mentre le parole
possono essere usate il più delle volte come chiavi di
ricerca efficaci nel reperimento di informazioni testuali, nell'area
multimediale, e in particolare nel caso dell'audio, può
essere molto più utile una ricerca basata su parametri
estratti direttamente dai dati (content-based-retrieval).
Per implementare sistemi di questo genere, è indispensabile
studiare nuovi metodi per analizzare e classificare il materiale
audio, sia dal punto di vista fisico-acustico (segnale audio),
che dal punto di vista percettivo (peso soggettivo delle proprietà
acustiche del suono), configurando così un tipico ambiente
di ricerca multidisciplinare. Anche le applicazioni che nascerebbero
grazie a queste nuove capacità di analisi appartengono
ai contesti più disparati: andiamo dalla possibilità
di reperire l'audio per similarità, alla classificazione
di un segnale musicale per genere; dalla segmentazione automatica
dell'audio, alla ricerca di frammenti di segnale vocale contenente
un testo noto; dalla sonorizzazione di parametri non audio (es.
parametri medici), alla identificazione di un' "impronta
digitale" vocale o musicale.
L'Elaborazione Numerica dei Segnali (Digital Signal Processing),
in quanto disciplina che si occupa della rappresentazione dei
segnali mediante sequenze di numeri o simboli e della elaborazione
di tali sequenze allo scopo di estrarne parametri caratteristici,
è sicuramente un riferimento obbligato per tutte le ricerche
che coinvolgano l'audio. Infatti, tra i suoi primissimi campi
di applicazione, figurano l'acustica e la comunicazione/comprensione
del parlato e, a partire dalla seconda metà degli anni
'70, anche l'elaborazione dei segnali musicali.
In tempi più recenti, la prospettiva della ricerca sui
segnali audio si è ulteriormente allargata, coinvolgendo
aspetti puramente acustici del suono, con altri più propriamente
percettivi (esempio: percezione del timbro). In generale, si sta
assistendo ad una globale unificazione delle problematiche coinvolte
nell'elaborazione dei segnali audio, nel tentativo di realizzare
sistemi in grado non solo di lavorare con segnali qualsiasi, estraendo
l'informazione ritenuta di volta in volta necessaria, ma anche
di riconoscere ed elaborare schemi di alto livello da parametri
puramente acustici.
A tutto ciò si deve aggiungere che le elevate capacità
di calcolo racchiuse in ogni personal computer e il World Wide
Web rendono possibile distribuire oggetti multimediali attraverso
Internet, incrementando di fatto la già alta domanda di
informazione e , di conseguenza, anche la domanda di organizzazione
di grandissime quantità di dati. Per questo, la Scienza
dell'Informazione deve fare da anello di congiunzione tra tutte
le discipline che analizzano ed elaborano parametri attinenti
ad ogni tipo di dato, e da esse mutuare le conoscenze necessarie
alla loro gestione.
Il presente lavoro si propone di indagare nuovi metodi di analisi, classificazione e reperimento dei dati audio e di concretizzare i risultati di questa indagine nell'implementazione di prototipi software. Nel capitolo 2 verrà fornito un preciso quadro di riferimento in cui la presente ricerca si colloca; in particolare, tratteremo il caso delle librerie musicali per le quali una valida strategia di reperimento delle informazioni è quella basata sul contenuto melodico dei brani (Melody-Retrieval). Si prevede, cioè, che l'interrogazione dell'utente di questo tipo di archivi sia una melodia, e che la risposta del sistema consista nei brani simili ad essa. Quindi, è necessario progettare un sistema in grado di misurare il grado di similitudine esistente fra due file audio dal punto di vista del loro contenuto melodico. Per raggiungere questo obiettivo, sarà necessario separare la problematica dell'acquisizione della melodia da un file audio, da quella di comparazione fra melodie. Infatti, da una parte -acquisizione melodia- operiamo nel contesto della Fisica Acustica e dell'Elaborazione Numerica dei Segnali, dall'altra -comparazione melodie- nell'ambito dello String-Matching. Per questo, la trattazione proseguirà nel Capitolo3 con un'analisi dei sistemi per il Pitch-Tracking esistenti e nel Capitolo 4 con il prototipo per l'acquisizione delle melodie sviluppato; al problema String-Matching con finalità di Melody-Retrieval e al prototipo sviluppato per la comparazione di melodie saranno riservati, rispettivamente, il Capitolo 5 e 6. I limiti e le possibili alternative di sviluppo saranno commentati nel Capitolo 7. Le Appendici dedicate ai dettagli del software sviluppato e la Bibliografia concluderanno il lavoro.