Compressione

Tipi di compressione


Ci sono 2 differenti tipologie di compressione:
  • La compressione statistica
  • La compressione mediante sostituzione

Nella compressione statistica vengono effettuati degli studi preventivi sul formato del dato che si dovrà comprimere. Ad esempio l'algoritmo di Huffman usato per la gestione dei testi, usa uno studio statistico basato sulla frequenza dei caratteri nelle parole.

Nella compressione mediante sostituzione (o dizionario) invece l'algoritmo non ha bisogno di sapere nulla preventivamente, ma lo "scopre" elabrorando il file e le sue caratteristiche. Prorpio per questa duttilità questo tipo di compressione è preferita alla prima.

Anche per gli algoritmi di compressione ci sono due categorie:
  • Lossy (a perdita di informazione)
  • Lossless (senza perdita di informazione)

Compressione Lossless
Loseless significa in inglese "senza perdita" ed infatti questa compressione non comporta alcuna perdita di dati. Il dato compresso può quindi essere ricostruito nella sua interezza senza perdere nemmeno un byte, per questo motivo questi algoritmi hanno largo impiego nella gestione dei dati (testi o database).

Tra gli algoritmi di questo tipo troviamo
Huffman per i file di tipo testuale
LZW (Lempel-Ziv-Welch) utilizzato nella compressione di file GIF.


Compressione Lossy Gli algoritmi che usano questo tipo di compressione, presuppongono una perdita del dato originale che non può più essere ricostruito. Ovviamente non possono essere usati per testi o database in cui l'integrità dell'informazione è fondamentale. L'uso caratteristico dei Lossy è nel campo multimediale. Partendo dal presupposto che l'occhio e l'orecchio umano hanno delle limitazioni, si cerca di togliere dei dettagli del video/audio senza che questo venga notato dall'utente. Nel caso di immagini si cercherà di ridurre il numero dei colori mentre nel caso di file audio si toglieranno i dati relative ad alcune frequenze che vanno oltre il normale range dell'uomo.

Le due immagini sembrano identiche ma in realtà la prima è composta da 16 milioni di colori mentre la seconda da soli 256! La differenza in termini di byte è notevole tra le due ma per il nostro occhio esse sono identiche.

       
L'immagine di sinistra è composta da 16 milioni di colori, quella di destra solo da 256!

Tra gli algoritmi lossy vale la pena di citare
MPEG per la compressione di video
JPG per la compressione di immagini
MP3 per la compressione di audio