Umrechner für Zeichenkodierung und Codes von Zeichen

Es kann vorkommen, dass man für ein Zeichen die Zeichenkodierung ermitteln möchte oder relevante Codes eines Zeichens benötigt. Diese können hilfreich sein, da eine Tastatur nur eine begrenzte Anzahl an Tasten verfügt und eine Direkteingabe von Sonderzeichen oder ausländischen Schriftzeichen häufig nicht möglich ist. Auch bei einem Defekt einer Taste können die Codes hilfreich sein, da man über diesen Umweg eine Eingabe trotzdem bewerkstelligen kann. Mit dem folgenden Script kann man die nachfolgend aufgeführten Informationen über ein Zeichen ermitteln.

  • Zeichenkodierung (dezimal, binär, hexadezimal und oktal)
  • HTML-Code für die Anzeige auf Websites (dezimal, hexadezimal)
  • Codepoint für Unicode-Zeichen
  • Alt-Code für die Eingabe von Unicode-Zeichen über hexadezimalen Wert
  • Alt-Code für die Eingabe von ASCII-, Win 1252- und Latin 1-Zeichen über dezimalen Wert

Aktiviertes JavaScript im Browser ist Voraussetzung für das Script. Weitere Hinweise zur Bedienung und zu den Ergebnissen.

 
HTML dez.
 
HTML hex.
 
U-Codepoint
 
ALT-Code hex.
 
ALT-Code dez.
 

Hinweise zur Bedienung und zu den Ergebnissen

In zahlreichen Tests funktionierte das Script zwar ordnungsgemäß. Jedoch können Fehler nicht ausgeschlossen werden und daher wird für die Richtigkeit der Ergebnisse keine Gewähr übernommen. Bei älteren Browsern kann es sein, dass das Script nicht ordnungsgemäß funktioniert. Ein Update des Browsers kann für Abhilfe sorgen.

Im großen, quadratischen Eingabefeld wird das aktuelle Zeichen angezeigt. Es ist möglich, das Zeichen über die Tastatur selbst einzugeben. In dem Fall wird die Zeichenkodierung in den Eingabefeldern Dez, Bin, Hex und Okt angezeigt. Weitere Zeichencodes werden darunter eingeblendet. Das Script reagiert auf Tastendrücke. Sollte das Zeichen nur mit Hilfe der Maus (per Rechtsklick über das Kontextmenü) eingefügt werden, muss nach dem Einfügen die ENTER-Taste gedrückt werden.

Im ersten Schritt sollte der Zeichensatz gewählt werden. Zur Auswahl stehen ASCII, Win 1252 und UTF. Hierbei gibt es einige Besonderheiten bei der Belegung der Zeichen zu beachten, insbesondere im Bereich 128 bis 160.

0 - 127

  • Alle drei Zeichensätze sind von 0 bis 127 identisch.

128 - 159

  • ASCII reicht nur bis 127, ist somit unrelevant.
  • Bei Win 1252 sind diese Positionen mit Zeichen belegt.
  • Bei UTF sind diese Positionen nicht mit Zeichen belegt.
  • Bei Latin 1 (auch ISO-8859-1 genannt) sind diese Positionen ebenfalls nicht belegt.

160 - 255

  • Win 1252, Latin 1 und UTF sind identisch.

Ab 256

  • Win 1252 und Latin 1 reichen nur bis 255. Ab 256 ist daher nur UTF relevant.

Somit verhält sich Latin 1 im Bereich 128 - 159 wie UTF. Trotzdem ist im Auswahlmenü Latin 1 in Klammern dem Zeichensatz Win 1252 zugeordnet worden. Der Grund hierfür ist, dass Latin 1 und Win 1252 ansonsten identisch belegt sind und beide 8 Bit Zeichensätze (0 - 255) sind. Außerdem wurde in den HTML-Standards festgelegt, dass wenn für eine HTML-Seite die Zeichenkodierung Latin 1 (ISO-8859-1) gewählt wurde, die HTML-Seite als Win 1252 behandelt werden soll. Deshalb wurde im Auswahlmenü Latin 1 zu Win 1252 zugeordnet, obwohl sie von 128 - 159 eigentlich nicht identisch sind.

Der Zeichensatz UTF umfasst eine sehr große Anzahl an Zeichen. Daher ist es möglich, wenn als Zeichensatz UTF ausgewählt wurde, einen UTF-Bereich zu wählen und das Script fährt ab der entsprechenden Stelle fort.

Über die Plus- und Minus-Schaltflächen kann man ab der aktuellen Position weiter navigieren. Mit der Schaltfläche Leeren wird das Script in den Ausgangszustand zurückgesetzt. Falls man direkt zu einem Zeichen auf dieser Seite einen Link setzen möchte, kann man die URL aus dem Eingabefeld unterhalb des Zeichens kopieren.

Es ist auch möglich, Eingaben in den Feldern Dez, Bin, Hex oder Okt vorzunehmen. In dem Fall wird über eine Rückwärts-Suche das Zeichen anhand der Zeichenkodierung ermittelt und angezeigt. Falls ein ungültiges Zeichen eingegeben wird, z.B. Ziffern größer als 1 im Feld für die binäre Eingabe, wird das Script zurückgesetzt.

Der ALT-Code hex. ist für die Eingabe eines Unicode-Zeichens über den hexadezimalen Codepoint. Das funktioniert jedoch nur bedingt, da bei vielen Programmen beim Drücken der ALT-Taste sowie eines Buchstabens ein Menü geöffnet wird und das unterbricht den Vorgang der Eingabe. Außerdem ist die Eingabe über den Codepoint nur möglich, wenn in der Registry der folgende Eintrag existiert und mit dem Wert 1 belegt ist.

  • HKEY_CURRENT_USER > Control Panel > Input Method > EnableHexNumpad

Der ALT-Code dez. ist für die Eingabe eines Zeichens, das abhängig vom Tastatur-Layout ist. Auf Windows-Rechnern ist das gewöhnlich Win 1252. In dem Script wird der Ziffernfolge immer eine 0 vorangestellt und häufig trifft man auf ALT-Codes ohne der führenden 0. Diese sind zwar oft identisch, sodass es keinen Unterschied ausmacht, ob man die 0 mit angibt oder nicht, es gibt jedoch einige Unterschiede. Wenn man die führende 0 auslässt, dann wird nicht das Tastatur-Layout (Win 1252) zugrunde gelegt, sondern der systemweite Zeichensatz (Codepage 850). Den Unterschied merkt man, wenn man einmal ALT + 128 eingibt und einmal ALT + 0128. Im ersten Fall wird das Zeichen Ç eingegeben. Mit der führenden 0 gibt man dagegen das Eurozeichen ein.