unicode(7) Manpage

Der internationale Standard ISO 10646 definiert das Universal Character Set (UCS). UCS enthält sämtliche Zeichen sämtlicher anderen Zeichensatzstandards. Es garantiert auch round-trip compatibility, d.h. es können Konvertierungstabellen auf eine Art erstellt werden, daß beim Konvertieren eines Strings zwischen einer anderen Kodierung und UCS keinerlei Information verlorengeht.

UCS enthält Zeichen zur Repräsentation beinahe jeder bekannten Sprache. Das beinhaltet neben den vielen Sprachen, die Erweiterungen der lateinischen Schrift benutzen, auch die folgenden Schriften und Sprachen: Griechisch, Kyrillisch, Hebräisch, Arabisch, Armenisch, Gregorianisch, Japanisch, Chinesisch, Hiragana, Katakana, Koreanisch, Hangul, Devangari, Bengalisch, Gurmukhi, Gujarati, Oriya, Tamilisch, Telugu, Kannada, Malayam, Thai, Lao, Bopomofo und einige andere. Zur Zeit wird daran gearbeitet, weitere Schriften wie Tibetanisch, Khmer, Runen, Äthiopisch, Hieroglyphen, verschiedene Indo-Europäische Sprachen und viele andere ebenfalls zu erfassen. Bei den meisten der letzteren Schriften war bis zum Zeitpunkt der Veröffentlichung des Standards 1993 noch nicht geklärt, wie sie am besten kodiert werden könnten. Zusätzlich zu den von diesen Schriften benötigten Zeichen wurde auch eine große Anzahl von graphischen, typographischen, mathematischen und wissenschaftlichen Symbolen wie etwa denen von TeX, PostScript, MS-DOS, Macintosh, Videotext, OCR und vielen Textverarbeitungen integriert, außerdem spezielle Codes, die round-trip compability mit allen existierenden Zeichensätzen garantieren.

Der UCS Standard (ISO 10646) beschreibt eine 31-bittige Zeichensatzarchitektur. Bisher wurde jedoch erst den ersten 65534 Positionen (0x0000 bis 0xfffd), der Basic Multilingual Plane (BMP), Zeichen zugewiesen, und es wird erwartet, daß nur sehr exotische Zeichen (z.B. Hieroglyphen) für besondere wissenschaftliche Zwecke jemals außerhalb dieser 16-Bit BMP plaziert werden.

Die UCS Zeichen 0x0000 bis 0x007f sind mit denen des klassischen US-ASCII Zeichensatzes, und die Zeichen im Bereich von 0x0000 bis 0x00ff mit denen des ISO 8859-1 Latin-1 Zeichensatzes identisch.

Stufe 1	Kombinationszeichen und Hangul Jamo-Zeichen (eine besondere, kompliziertere Kodierung der koreanischen Schrift, in der Hangul-Silben als zwei bis drei Unterzeichen kodiert werden) werden nicht unterstützt.
Stufe 2	Wie Stufe 1, außer daß in einigen Schriften einige Kombinationszeichen nicht erlaubt sind (z.B. in Hebräisch, Arabisch, Devangari, Bengalisch, Gurmukhi, Gujarati, Oriya, Tamil, Telugo, Kannada, Malayalam, Thai und Lao).
Stufe 3	Alle UCS Zeichen werden unterstützt.

“	If you have a problem and you think awk(1) is the solution, then you have two problems.	”
— David Tilbrook

Manpage — UNICODE

BEZEICHNUNG

INHALT

BESCHREIBUNG

KOMBINATIONSZEICHEN

IMPLEMENTATIONSSTUFEN

UNICODE UNTER LINUX

PRIVATBEREICH

LITERATUR

BUGS

AUTOR

ÜBERSETZUNG

SIEHE AUCH

*	Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane. International Standard ISO 10646-1, International Organization for Standardization, Genf, 1993. Dies ist die offizielle Spezifikation von UCS. Ziemlich offiziell, ziemlich dick und auch ziemlich teuer. Informationen zur Bestellung gibt es auf http://www.iso.ch/.
*	The Unicode Standard - Worldwide Character Encoding Version 1.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 1991. Unicode 1.1.4 ist bereits verfügbar. Die Änderungen gegenüber dem 1.0er-Buch sind auf ftp://ftp.unicode.org/ erhältlich. Unicode 2.0 wird 1996 erneut als Buch veröffentlicht werden.
*	S. Harbison, G. Steele. C - A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3. Ein gutes Referenzbuch über die Programmiersprache C. Die vierte Auflage behandelt jetzt auch das Amendment 1 von 1994 zum ISO C-Standard (ISO/IEC 9899:1990), das eine große Anzahl neuer C-Bibliotheksfunktionen zum Umgang mit Zeichensätzen von mehr als 8 Bit pro Zeichen hinzufügt.