Registrierung Kalender Mitgliederliste Teammitglieder Suche Häufig gestellte Fragen Zur Startseite

Informatiker Board » Themengebiete » Technische Informatik » UTF Decodieren » Hallo Gast [Anmelden|Registrieren]
Letzter Beitrag | Erster ungelesener Beitrag Druckvorschau | An Freund senden | Thema zu Favoriten hinzufügen
Neues Thema erstellen Antwort erstellen
Zum Ende der Seite springen UTF Decodieren
Autor
Beitrag « Vorheriges Thema | Nächstes Thema »
PeterPanter
Jungspund


Dabei seit: 06.11.2012
Beiträge: 16

UTF Decodieren Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Meine Frage:
Hi!

Die Aufgabe lautet:
"Decodieren sie die im UTF-Format vorliegende Binärfolge 11011100 10011100. Was fällt ihnen auf? Wie kann das Problem behoben werden?

Meine Ideen:
Wegen 110xx... und 10xx... dürfte die Binärfolge UTF-8 Codiert sein. Umgestellt ergibt das 0000 00000111 00011100 als Unicode, also U+071C. Das wiederum ist laut UTF-8 Tabelle der Buchstabe "SYRIAC LETTER TETH GARSHUNI". Riecht ja förmlich nach Fehler, zumal mir, abgesehen vom unglaubwürdigen Ergebnis, kein Problem aufgefallen ist.

Meine Vermutung ist, dass es sich um eine Fehlerhafte Codierung handelt, da man die Zeichen ja auf verschiedene Art und Weise codieren kann, wobei dann aber immer die kürzere richtig ist. (s. http://de.wikipedia.org/wiki/UTF-8#Kodierung unter "Zu Beachten:" ).

Habe allerdings keinen Plan, wie ich aufs richtige Ergebnis kommen soll, bzw. welches Problem gemeint ist, meine Vermutung ist eher geraten als gefolgert.

Danke schonmal,


D.

/Edit

Eventuell könnte ich die Zahl auch als UTF-16 Interpretieren. Allerdings liegt U+DC9C im low surrogates Bereich, welcher laut Wikipedia aus irgendwelchen Ersatzzeichen besteht...

Dieser Beitrag wurde 1 mal editiert, zum letzten Mal von PeterPanter: 06.11.2012 14:27.

06.11.2012 14:20 PeterPanter ist offline E-Mail an PeterPanter senden Beiträge von PeterPanter suchen Nehmen Sie PeterPanter in Ihre Freundesliste auf
Karlito Karlito ist männlich
Kaiser


Dabei seit: 11.04.2011
Beiträge: 1.461

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo,

ich bin auch nicht so fit in UTF. Deine Dekodierung ist richtig. Eine alternative Dekodierung ist meiner Meinung nach nicht möglich, da das zu Kodierende Zeichen eine zu lange Binärfolge hat.

Ich tippe, dass das Problem ist, dass du erst einmal herausfinden musst, um welche Art UTF es sich handelt. Es gibt ja verschiedene UTF kodierungen (UTF-7 (veraltet), UTF-8, UTF-16, UTF-32) und dann noch die Unterarten, welche durch das Byte-Ordering zustandekommen.

VG,

Karlito
07.11.2012 13:14 Karlito ist offline E-Mail an Karlito senden Beiträge von Karlito suchen Nehmen Sie Karlito in Ihre Freundesliste auf
PeterPanter
Jungspund


Dabei seit: 06.11.2012
Beiträge: 16

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Also wäre die Aufgabe quasi mit der Antwort, dass die 110xxx.. gefolgt von 10xxx... ein Indikator für UTF-8 ist erledigt?


Vielen Dank schonmal Augenzwinkern
07.11.2012 13:20 PeterPanter ist offline E-Mail an PeterPanter senden Beiträge von PeterPanter suchen Nehmen Sie PeterPanter in Ihre Freundesliste auf
Karlito Karlito ist männlich
Kaiser


Dabei seit: 11.04.2011
Beiträge: 1.461

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Jo. Etwas anderes kann ich mir nicht vorstellen. Wenn Du genaueres weißt. wäre es nett, wenn Du die Lösung postest.

Edit: Fehlt noch, wie man das Problem lösen könnte...

VG,

Karlito
07.11.2012 13:33 Karlito ist offline E-Mail an Karlito senden Beiträge von Karlito suchen Nehmen Sie Karlito in Ihre Freundesliste auf
PeterPanter
Jungspund


Dabei seit: 06.11.2012
Beiträge: 16

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Alles klar, ich hoffe, dass ich nächste Woche dran denke, wenn das Erebnis vorgestellt wird.


/Edit 14.11.2012


War ein Fehler auf dem Übungsblatt, es ging tatsächlich um die verschiedenen Möglichkeiten der Codierung von ASCII Zeichen. Die Folge sollte eigentlich dem großen Z entsprechen, für welches man nur ein Byte braucht und deshalb eine Codierung a la 110xxxxx 10xxxxxx nicht nötig ist.

Dieser Beitrag wurde 1 mal editiert, zum letzten Mal von PeterPanter: 14.11.2012 15:35.

07.11.2012 13:46 PeterPanter ist offline E-Mail an PeterPanter senden Beiträge von PeterPanter suchen Nehmen Sie PeterPanter in Ihre Freundesliste auf
Baumstruktur | Brettstruktur
Gehe zu:
Neues Thema erstellen Antwort erstellen
Informatiker Board » Themengebiete » Technische Informatik » UTF Decodieren