Bildstatistik: Entropie und Entropiecodierung (Huffman-Code)?

Neue Frage »

Auf diesen Beitrag antworten »
AVSTS Bildstatistik: Entropie und Entropiecodierung (Huffman-Code)?

Meine Frage:
Hallo Leute, kann mir jemand den unterschied und Zusammenhang von Bindstatistik, Entropie, Entropiekodierung und der Huffman Kodierung-verraten?

Meine Ideen:
Mit Hilfe von Bildstatistik kann man ja die Grauwert Verteilung berechnen (in meinem Zusammenhang). Mit der Entropie den mittleren Informationsgehalt einer Nachricht. Die Entropiekodierung ist eine Methode zur Datenkompression und die Huffman-Kodierung ist die Ausführung der Methode quasi.
Aber ich versteh einfach nicht inwiefern das alles zusammenhängt. Und so richtig verstehen tu ich es auch nicht :S Das einzige was ich kann, sind die Rechnungen...
Kann mir jemand weiterhelfen?
Liebe Grüße
 
Auf diesen Beitrag antworten »
as_string

Naja, wenn Du eine Reihe von Zeichen hast, in denen sich nie ein Muster wiederholt, dann ist da mehr Informationsgehalt drin, als wenn Du eine gleich lange Reihe von Zeichen hast, in der immer nur der Buchstabe "a" vielfach wiederholt vorkommt. Um die erste Reihe zu beschreiben, wirst Du kaum drum rum kommen, jedes einuzelne Zeichen zu nennen, bei dem anderen kannst Du einfach sagen: "1000 mal der Buchstaben a" und hast tausend Zeichen schon eindeutig beschrieben .

Beispiel: Du telefonierst mit jemandem und willst eine Bank-Kontonummer durchgeben. Wenn die Kontonummer nur aus zehnmal der Ziffer 2 besteht, geht das relativ schnell und einfach zu sagen: "zehnmal die 2", wenn die Reihenfolge aber wild durcheinander ist, musst Du jede einzelne Ziffer einzeln sagen und nochmal vergleichen, ob es auch wirklich richtig übertragen wurde und so weiter. Selbst wenn es viermal die 2 und sechsmal die 7 wären, könnte man das relativ schnell und einfach sagen, allerdings ist es dann schon mehr, was man beschreiben muss.
Wenn Du eine Ziffernfolge mit wie "1212121212" hast, kannst Du sagen: fünfmal hintereinander die Folge "12". Der Informationsinhalt ist also eigentlich nicht viel größer, als Du es auch schon in dei Folge "12" gepackt hast, nur noch ergänzt um die Anzahl "fünf".
Wenn also gleiche Zeichenfolgen (oder Ziffernfolgen bei den Kontozahlen oder so) sich immer wieder wiederholen, kann man diese zusammen packen und muss nicht jedes mal dieselbe Folge übertragen. Das spart natürlich Speicherplatz oder Zeit, wenn die Daten durch eine Leitung übertragen werden müssen, etc. Deshalb kann man Dateien damit gut komprimieren, z. B. ist auch ZIP eine solche Entropiekodierung (glaube auch basierend auf der Huffman, keine Ahnung)

Du hast ja sicher schon gemerkt, dass manche Dateien sich mit ZIP besser komprimieren lassen, als andere. Das liegt eben wie oben beschrieben daran, dass bei manchen sich einige Muster immer wieder wiederholen. Z. B. habe ich hier sehr oft das Wort "wiederholen" geschrieben. Wenn man sich dafür eine eindeutige Abkürzung einfallen lassen würde, könnte man alle damit ersetzen und der Text wäre viel kürzer. Überhaupt wiederholt sich bei Text einer natürlichen Sprache vieles immer wieder. Einige Worte wie "und" werden häufig verwendet, aber auch Buchstaben wie ein "e" ist häufiger als andere. Das führt dazu, dass sich solche Texte besser komprimieren lassen, als viele anderen Daten.
Normalerweise sind z. B. deutsche Texte mit demselben Inhalt, wie ein entsprechender englischer Text (wenn der eine z. B. eine Übersetzung des anderen ist), länger. Englsiche Worte sind oft kürzer oder haben nicht so lange Endungen etc. Es gibt im Englischen oft kürzere Ausdrucksweisen für manche Dinge. Aber der Informationsinhalt sollte ja trotzdem derselbe sein, egal ob Englisch oder Deutsch. Sie sollten also dieselbe Entropie haben. Wenn man sie beide komprimiert, sollte sich der Deutsche Text besser komprimieren lassen. So wäre die komprimierte Datei vom englischen und deutschen Text in etwa gleich groß, obwohl der deutsche Text ursprünglich größer war.

Der Rest, den man nicht mehr weiter kompromieren kann, ist letztendlich der Informationsinhalt oder eben Entropie der Daten. Da wo alle unnötigen Redundanzen entfernt sind.

Bei den Bildern kann man natürlich auch eine solche Entropie berechnen. Wenn mehr Struktur in einem Bild ist, sollte es mehr Informationen haben und dann auch eine höhere Entropie.

Entropiekodierung ist eigentlich der Überbegriff, solche Redundanzen (also sich wiederholenden Zeichenfolgen, oder sogar Bitfolgen) zusammen zu fassen, eine Abkürzung dafür zu definieren und dann nur noch die Abkürzungen zu übertragen. Wie man das aber genau in eine Datei speichert, wie man z. B. auch die Abkürzungen angibt (man muss ja zuerst eine Tabelle aufbauen von diesen Abkürzungen und irgendwie definieren, in welcher Form man diese in die Datei speichert), ob man immer Blöcke von einer bestimmten größe betrachtet, dafür die Abkürzungen bestimmt und diese dann immer wieder überträgt, das alles ist dann in so etwas wie der Huffman-Kodierung noch zusätzlich festgelegt. Die Huffman-Kodierung ist also eine spezielle Entropiekodierung, die einige Details, wie die Daten dann konkret aussehen sollen nach der Komprimierung, noch zusätzlich definiert, Verschiedener solcher konkreten Kodierungs-Arten fasst man unter dem Begriff "Entropiekodierung" zusammen.

Hoffe das hilft etwas. Aber im Internet gibt es zu dem Thema ja Unmengen an Texten. Ich denke, auch Wikipedia sollte da gutes Material haben. Oft ist die englsiche Wikipedia übrigens bei solchen Dingen besser, als die deutsche.

Gruß
Marco
 
Neue Frage »
Antworten »


Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »