UTF Decodieren

Neue Frage »

Auf diesen Beitrag antworten »
PeterPanter UTF Decodieren

Meine Frage:
Hi!

Die Aufgabe lautet:
"Decodieren sie die im UTF-Format vorliegende Binärfolge 11011100 10011100. Was fällt ihnen auf? Wie kann das Problem behoben werden?

Meine Ideen:
Wegen 110xx... und 10xx... dürfte die Binärfolge UTF-8 Codiert sein. Umgestellt ergibt das 0000 00000111 00011100 als Unicode, also U+071C. Das wiederum ist laut UTF-8 Tabelle der Buchstabe "SYRIAC LETTER TETH GARSHUNI". Riecht ja förmlich nach Fehler, zumal mir, abgesehen vom unglaubwürdigen Ergebnis, kein Problem aufgefallen ist.

Meine Vermutung ist, dass es sich um eine Fehlerhafte Codierung handelt, da man die Zeichen ja auf verschiedene Art und Weise codieren kann, wobei dann aber immer die kürzere richtig ist. (s. http://de.wikipedia.org/wiki/UTF-8#Kodierung unter "Zu Beachten:" ).

Habe allerdings keinen Plan, wie ich aufs richtige Ergebnis kommen soll, bzw. welches Problem gemeint ist, meine Vermutung ist eher geraten als gefolgert.

Danke schonmal,


D.

/Edit

Eventuell könnte ich die Zahl auch als UTF-16 Interpretieren. Allerdings liegt U+DC9C im low surrogates Bereich, welcher laut Wikipedia aus irgendwelchen Ersatzzeichen besteht...
 
Auf diesen Beitrag antworten »
Karlito

Hallo,

ich bin auch nicht so fit in UTF. Deine Dekodierung ist richtig. Eine alternative Dekodierung ist meiner Meinung nach nicht möglich, da das zu Kodierende Zeichen eine zu lange Binärfolge hat.

Ich tippe, dass das Problem ist, dass du erst einmal herausfinden musst, um welche Art UTF es sich handelt. Es gibt ja verschiedene UTF kodierungen (UTF-7 (veraltet), UTF-8, UTF-16, UTF-32) und dann noch die Unterarten, welche durch das Byte-Ordering zustandekommen.

VG,

Karlito
Auf diesen Beitrag antworten »
PeterPanter

Also wäre die Aufgabe quasi mit der Antwort, dass die 110xxx.. gefolgt von 10xxx... ein Indikator für UTF-8 ist erledigt?


Vielen Dank schonmal Augenzwinkern
Auf diesen Beitrag antworten »
Karlito

Jo. Etwas anderes kann ich mir nicht vorstellen. Wenn Du genaueres weißt. wäre es nett, wenn Du die Lösung postest.

Edit: Fehlt noch, wie man das Problem lösen könnte...

VG,

Karlito
 
Auf diesen Beitrag antworten »
PeterPanter

Alles klar, ich hoffe, dass ich nächste Woche dran denke, wenn das Erebnis vorgestellt wird.


/Edit 14.11.2012


War ein Fehler auf dem Übungsblatt, es ging tatsächlich um die verschiedenen Möglichkeiten der Codierung von ASCII Zeichen. Die Folge sollte eigentlich dem großen Z entsprechen, für welches man nur ein Byte braucht und deshalb eine Codierung a la 110xxxxx 10xxxxxx nicht nötig ist.
 
Neue Frage »
Antworten »


Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »