Introduzione


Il continuo e rapido sviluppo delle tecnologie legate agli elaboratori elettronici e alla reti, ha permesso l'introduzione dell'audio come tipo di dato in molte applicazioni. Ciò nonostante, le informazioni audio continuano ad essere trattate come una semplice sequenza di bytes, etichettati con nome, formato del file e pochi altri attributi come, per esempio, la frequenza di campionamento.
Al crescere delle dimensioni degli archivi multimediali o delle librerie musicali, questo modo di procedere si rivela del tutto inadeguato. Pensiamo, per esempio, alle dimensioni di un archivio contenente le registrazioni audio/video di una televisione o ad una libreria di suoni di un produttore multimediale o musicale: appare evidente che reperire i file desiderati tramite le classiche interrogazioni testuali può divenire improponibile! Questi problemi sorgono per l'impossibilità di riferirsi direttamente a ciò che gli oggetti audio contengono. Mentre le parole possono essere usate il più delle volte come chiavi di ricerca efficaci nel reperimento di informazioni testuali, nell'area multimediale, e in particolare nel caso dell'audio, può essere molto più utile una ricerca basata su parametri estratti direttamente dai dati (content-based-retrieval).
Per implementare sistemi di questo genere, è indispensabile studiare nuovi metodi per analizzare e classificare il materiale audio, sia dal punto di vista fisico-acustico (segnale audio), che dal punto di vista percettivo (peso soggettivo delle proprietà acustiche del suono), configurando così un tipico ambiente di ricerca multidisciplinare. Anche le applicazioni che nascerebbero grazie a queste nuove capacità di analisi appartengono ai contesti più disparati: andiamo dalla possibilità di reperire l'audio per similarità, alla classificazione di un segnale musicale per genere; dalla segmentazione automatica dell'audio, alla ricerca di frammenti di segnale vocale contenente un testo noto; dalla sonorizzazione di parametri non audio (es. parametri medici), alla identificazione di un' "impronta digitale" vocale o musicale.
L'Elaborazione Numerica dei Segnali (Digital Signal Processing), in quanto disciplina che si occupa della rappresentazione dei segnali mediante sequenze di numeri o simboli e della elaborazione di tali sequenze allo scopo di estrarne parametri caratteristici, è sicuramente un riferimento obbligato per tutte le ricerche che coinvolgano l'audio. Infatti, tra i suoi primissimi campi di applicazione, figurano l'acustica e la comunicazione/comprensione del parlato e, a partire dalla seconda metà degli anni '70, anche l'elaborazione dei segnali musicali.
In tempi più recenti, la prospettiva della ricerca sui segnali audio si è ulteriormente allargata, coinvolgendo aspetti puramente acustici del suono, con altri più propriamente percettivi (esempio: percezione del timbro). In generale, si sta assistendo ad una globale unificazione delle problematiche coinvolte nell'elaborazione dei segnali audio, nel tentativo di realizzare sistemi in grado non solo di lavorare con segnali qualsiasi, estraendo l'informazione ritenuta di volta in volta necessaria, ma anche di riconoscere ed elaborare schemi di alto livello da parametri puramente acustici.
A tutto ciò si deve aggiungere che le elevate capacità di calcolo racchiuse in ogni personal computer e il World Wide Web rendono possibile distribuire oggetti multimediali attraverso Internet, incrementando di fatto la già alta domanda di informazione e , di conseguenza, anche la domanda di organizzazione di grandissime quantità di dati. Per questo, la Scienza dell'Informazione deve fare da anello di congiunzione tra tutte le discipline che analizzano ed elaborano parametri attinenti ad ogni tipo di dato, e da esse mutuare le conoscenze necessarie alla loro gestione.

Il presente lavoro si propone di indagare nuovi metodi di analisi, classificazione e reperimento dei dati audio e di concretizzare i risultati di questa indagine nell'implementazione di prototipi software. Nel capitolo 2 verrà fornito un preciso quadro di riferimento in cui la presente ricerca si colloca; in particolare, tratteremo il caso delle librerie musicali per le quali una valida strategia di reperimento delle informazioni è quella basata sul contenuto melodico dei brani (Melody-Retrieval). Si prevede, cioè, che l'interrogazione dell'utente di questo tipo di archivi sia una melodia, e che la risposta del sistema consista nei brani simili ad essa. Quindi, è necessario progettare un sistema in grado di misurare il grado di similitudine esistente fra due file audio dal punto di vista del loro contenuto melodico. Per raggiungere questo obiettivo, sarà necessario separare la problematica dell'acquisizione della melodia da un file audio, da quella di comparazione fra melodie. Infatti, da una parte -acquisizione melodia- operiamo nel contesto della Fisica Acustica e dell'Elaborazione Numerica dei Segnali, dall'altra -comparazione melodie- nell'ambito dello String-Matching. Per questo, la trattazione proseguirà nel Capitolo3 con un'analisi dei sistemi per il Pitch-Tracking esistenti e nel Capitolo 4 con il prototipo per l'acquisizione delle melodie sviluppato; al problema String-Matching con finalità di Melody-Retrieval e al prototipo sviluppato per la comparazione di melodie saranno riservati, rispettivamente, il Capitolo 5 e 6. I limiti e le possibili alternative di sviluppo saranno commentati nel Capitolo 7. Le Appendici dedicate ai dettagli del software sviluppato e la Bibliografia concluderanno il lavoro.