Ein normaler Zeichensatz umfaßt nur 256 Zeichen von denen die ersten 32 als Steuerzeichen verwendet werden, so daß nur 224 nutzbar sind.
Selbst wenn man sich nur lateinische Schriftzeichen beschränkt, reichen 224 Zeichen nicht aus, um alle auf der Welt benutzen Schriftzeichen unterzubringen. Unter MS-DOS kommen noch die Blockgrafik-Zeichen hinzu.
Als Ausweg wurden verschiedene Zeichensätze entworfen, die die für eine oder mehrere Sprachen benötigten Zeichen enthalten. Gemeinsam sind allen die ersten 127 Zeichen (ASCII).
Beispiele:
Im englischen dürfte es die geringste Anzahl an Sonderzeichen geben - dementsprechend verschwenderisch wurde in der Codepage 437 mit Blockgrafik-Zeichen umgegangen. Aber auch an die deutsche und französiche Sprache wurde gedacht - die Umlaute, das 'ß' und eine Reihe Akzent-Zeichen (é, à usw.) sind enthalten.
Die Codepage 865 für Norwegisch und Dänisch ist mit 437 weitgehend identisch. Lediglich zwei unwichtige Zeichen mußten dem 'ø' und 'Ø' weichen.
In Codepage 850 wurden gegenüber 437 eine Reihe Blockgrafik-Zeichen (insbesondere Übergänge von einfach auf doppelt) zugunsten von Sonderzeichen geopfert, die im mitteleuropäischen Raum benötigt werden, z.B. ã, Ð, Þ. Da deutsche Versionen von DOS und Windows standardmäßig Codepage 850 aktivieren,
sieht man recht häufig verunstaltete Blockgrafiken, wie z.B. beim Norton-Commander 2.0, s.
Screenshot vom NC2 mit Codepage 850.
Codepage 852 enthält die im slawischen benötigten Zeichen.
In Codepage 862 gibt es 27 hebräische Zeichen. Hier hat man sich offenbar keinerlei Mühe gegeben,
unwichtige Zeichen durch hebräische zu ersetzen - es wurden einfach die Zeichen 128 bis 154 genommen, der Rest entspricht Codepage 437. Kleine lateinische Buchstaben mit Accent aigu haben den Kahlschlag zufällig überstanden, andere Akzentzeichen und die deutschen Umlaute sind dahin...
Codepage 866 ist für kyrillisch, für lateinische Akzentzeichen und Umlaute war kein Platz mehr.
Unter deutschem und englischem Windows ist die Codepage 1252 Standard. Die deutschen Umlaute, das 'ß'
und Akzentzeichen befinden sich an anderen Postitionen als im DOS-Zeichensatz (Codepage 437 oder 850) - daher die Probleme beim Öffenen von MS-DOS-Texten unter Windows.
Da Windows eine grafische Oberfläche ist, werden hier keine Blockgrafikzeichen benötigt -
es ist viel Platz für Sonderzeichen, die unter MS-DOS auf mehrere Codepages verteilt wurden.
Deshalb konnten in diesem Text Zeichen aus verschiedensten DOS-Codepages benutzt werden...
Einige Zeichen aus dem slawischen Raum fanden keinen Platz - dafür gibts Codepage 1250. Für
kyrillisch gibt es die 1251, für griechisch 1253, hebräisch 1255, arabisch 1256 usw. usf...
Die Liste der existierenden Codepages ist lang, einen kurzen Überblick gibts z.B. hier:
http://www.kostis.net/charsets
Allgemeine Infos zu Zeichen und Zeichensätzen gibt hier (englisch):
Characters and encodings
Und hier noch eine hoch informative Seite zum Thema Unicode, die auch das Drumrum ausführlich beschreibt:
http://let.imperia.org/howto/de/unicode/index.html
Nicht weniger informativ ist dieser Abriß der Geschichte der Computer-Zeichen:
http://www.c-plusplus.de/forum/viewtopic-var-t-is-161855.html
Und hier noch ein c't Arikel aus Ausgabe 9/2006:
Kleine Geschichte der Zeichensätze
|