UTF Decodieren |
PeterPanter
Jungspund
Dabei seit: 06.11.2012
Beiträge: 16
|
|
Meine Frage:
Hi!
Die Aufgabe lautet:
"Decodieren sie die im UTF-Format vorliegende Binärfolge 11011100 10011100. Was fällt ihnen auf? Wie kann das Problem behoben werden?
Meine Ideen:
Wegen 110xx... und 10xx... dürfte die Binärfolge UTF-8 Codiert sein. Umgestellt ergibt das 0000 00000111 00011100 als Unicode, also U+071C. Das wiederum ist laut UTF-8 Tabelle der Buchstabe "SYRIAC LETTER TETH GARSHUNI". Riecht ja förmlich nach Fehler, zumal mir, abgesehen vom unglaubwürdigen Ergebnis, kein Problem aufgefallen ist.
Meine Vermutung ist, dass es sich um eine Fehlerhafte Codierung handelt, da man die Zeichen ja auf verschiedene Art und Weise codieren kann, wobei dann aber immer die kürzere richtig ist. (s. http://de.wikipedia.org/wiki/UTF-8#Kodierung unter "Zu Beachten:" ).
Habe allerdings keinen Plan, wie ich aufs richtige Ergebnis kommen soll, bzw. welches Problem gemeint ist, meine Vermutung ist eher geraten als gefolgert.
Danke schonmal,
D.
/Edit
Eventuell könnte ich die Zahl auch als UTF-16 Interpretieren. Allerdings liegt U+DC9C im low surrogates Bereich, welcher laut Wikipedia aus irgendwelchen Ersatzzeichen besteht...
Dieser Beitrag wurde 1 mal editiert, zum letzten Mal von PeterPanter: 06.11.2012 14:27.
|
|
06.11.2012 14:20 |
|
|
Karlito
Kaiser
Dabei seit: 11.04.2011
Beiträge: 1.461
|
|
Hallo,
ich bin auch nicht so fit in UTF. Deine Dekodierung ist richtig. Eine alternative Dekodierung ist meiner Meinung nach nicht möglich, da das zu Kodierende Zeichen eine zu lange Binärfolge hat.
Ich tippe, dass das Problem ist, dass du erst einmal herausfinden musst, um welche Art UTF es sich handelt. Es gibt ja verschiedene UTF kodierungen (UTF-7 (veraltet), UTF-8, UTF-16, UTF-32) und dann noch die Unterarten, welche durch das Byte-Ordering zustandekommen.
VG,
Karlito
|
|
07.11.2012 13:14 |
|
|
PeterPanter
Jungspund
Dabei seit: 06.11.2012
Beiträge: 16
|
|
Also wäre die Aufgabe quasi mit der Antwort, dass die 110xxx.. gefolgt von 10xxx... ein Indikator für UTF-8 ist erledigt?
Vielen Dank schonmal
|
|
07.11.2012 13:20 |
|
|
Karlito
Kaiser
Dabei seit: 11.04.2011
Beiträge: 1.461
|
|
Jo. Etwas anderes kann ich mir nicht vorstellen. Wenn Du genaueres weißt. wäre es nett, wenn Du die Lösung postest.
Edit: Fehlt noch, wie man das Problem lösen könnte...
VG,
Karlito
|
|
07.11.2012 13:33 |
|
|
|