Codage de Huffman

L'arbre de Huffman est généré à partir des fréquences exactes du texte « this is an example of a huffman tree ». Le codage de la phrase avec ce code nécessite 135 (ou 147) bits, contre 288 (ou 180) bits si l'on utilisait 36 caractères de 8 (ou 5) bits (ceci suppose que la structure de l'arbre de codage est connue du décodeur et n'a donc pas besoin d'être comptabilisée dans l'information transmise). Les fréquences et les codes de chaque caractère sont indiqués dans le tableau ci-joint.

Carboniser	Fréquence	Code
espace	7	111
un	4	010
e	4	000
f	3	1101
h	2	1010
je	2	1000
m	2	0111
n	2	0010
s	2	1011
t	2	0110
l	1	11001
o	1	00110
p	1	10011
r	1	11000
vous	1	00111
x	1	10010

En informatique et en théorie de l'information , un code de Huffman est un type particulier de code préfixe optimal couramment utilisé pour la compression de données sans perte . Le processus de recherche ou d'utilisation d'un tel code est le codage de Huffman , un algorithme développé par David A. Huffman lorsqu'il était doctorant au MIT , et publié en 1952 dans l'article « A Method for the Construction of Minimum-Redundancy Codes »

Le résultat de l'algorithme de Huffman peut être vu comme une table de codage à longueur variable permettant d'encoder un symbole source (tel qu'un caractère dans un fichier). L'algorithme construit cette table à partir de la probabilité ou de la fréquence d'occurrence estimée ( poids ) de chaque valeur possible du symbole source. Comme dans les autres méthodes de codage entropique , les symboles les plus fréquents sont généralement représentés par moins de bits que les symboles les moins fréquents. La méthode de Huffman peut être implémentée efficacement, trouvant un code en un temps linéaire par rapport au nombre de poids d'entrée si ces poids sont triés. Cependant, bien qu'optimale parmi les méthodes codant les symboles séparément, la méthode de Huffman n'est pas toujours optimale parmi toutes les méthodes de compression ; elle est remplacée par le codage arithmétique si un meilleur taux de compression est requis.

David A. Huffman et ses camarades du cours de théorie de l'information du MIT durent choisir entre un devoir et un examen final . Le professeur Robert M. Fano leur confia un devoir portant sur la recherche du code binaire le plus efficace. Huffman, incapable de démontrer qu'un code était le plus efficace, était sur le point d'abandonner et de commencer à réviser pour l'examen final lorsqu'il eut l'idée d'utiliser un arbre binaire trié par fréquence et démontra rapidement que cette méthode était la plus efficace.

Ce faisant, Huffman a surpassé Fano, qui avait collaboré avec Claude Shannon à l'élaboration d'un code similaire. La construction de l'arbre de bas en haut garantissait l'optimalité, contrairement à l'approche descendante du codage de Shannon-Fano .

Terminologie

Le codage de Huffman utilise une méthode spécifique pour choisir la représentation de chaque symbole, ce qui donne un code préfixe (parfois appelé « code sans préfixe », c'est-à-dire que la chaîne binaire représentant un symbole particulier n'est jamais un préfixe de la chaîne binaire représentant un autre symbole). Le codage de Huffman est une méthode si répandue pour créer des codes préfixes que le terme « code de Huffman » est souvent utilisé comme synonyme de « code préfixe », même lorsqu'un tel code n'est pas produit par l'algorithme de Huffman.

Définition du problème

Construction d'un arbre de Huffman

description informelle

Donné: Un ensemble de symboles et pour chaque symbole , la fréquence représentant la fraction de symboles dans le texte qui sont égaux à .
Trouver: Un code binaire sans préfixe (un ensemble de mots de code) avec une longueur de mot de code minimale attendue (de manière équivalente, un arbre avec une longueur de chemin pondérée minimale à partir de la racine ).

Description formalisée

Entrée . Alphabet , qui est l'alphabet des symboles de taille . Tuple , qui est le tuple des poids (positifs) des symboles (généralement proportionnels aux probabilités), c'est-à-dire . Sortie . Code , qui est le tuple de mots de code (binaires), où est le mot de code pour . Objectif . Soit la longueur du chemin pondéré du code . Condition : pour tout code .

Exemple

Nous donnons un exemple du résultat du codage de Huffman pour un code à cinq caractères et des poids donnés. Nous ne vérifierons pas s'il minimise L pour tous les codes, mais nous calculerons L et le comparerons à l' entropie de Shannon H de l'ensemble de poids donné ; le résultat est quasi optimal.

Entrée ( A , W )

Symbole (

Sortie C

Mots de code (

Longueur du mot de code (en bits) (

Optimalité

Budget de probabilité (

Codage de Huffman

Terminologie

Définition du problème

description informelle

Description formalisée

Exemple

technique de base

Compression

Décompression

Optimalité

Variations

Codage de Huffman n -aire

Codage de Huffman adaptatif

Codage de Huffman à longueur limitée/codage de Huffman à variance minimale

Codage de Huffman avec des coûts de lettres inégaux

Arbres binaires alphabétiques optimaux (codage Hu-Tucker)

Le code Huffman canonique

Applications

Plus d articles de Worldlex Wiki