tocAnnexes
Chinesisch

8105 characters
Page: uniall intro 0 1 2 3 4 5 6 7

Um zu vermitteln, dürfen die chinesischen Schriftzeichen nicht die Kenntnis des Chinesischen voraussetzen. Da das voraussetzungslose Alphabet hier entfällt, war es vielleicht eine weise Entscheidung der Chinesen, das aus rund 8.000 Zeichen bestehende vereinfachte Chinesisch numerisch zu organisieren.

Haben sich die chinesischen Kaiser vor der Welt abgeschlossen, so schließt der derzeitige Aufbau der chinesischen Schriftzeichen in Unicode/ISO-10646 diese von der nichtmaschinellen Welt der Lernenden ab. Denn die auf 16 verschiedene Orte von plane 00 und plane 02 verteilten rund 100.000 Zeichen machen keinen Mut, sich näher mit dieser Schrift zu befassen.

Hier befinden wir uns im Stadium der Sammler und Jäger, die das Ordnen nach dem Sammeln und Sichten hätten vornehmen müssen, es aber wegen der Menge des Sammelgutes während des Sammelns tun mussten.

Es kommt noch ein Problem hinzu. Die Schöpfer des Weltalphabets wollten oder konnten sich mit den Chinesen bei der Erstellung nicht an einen Tisch setzen und ein gemeinsames Alphabet erstellen. So gibt es nun zwei, Unicode/ISO-10646 und das Chinese Coded Character set, den chinesischen Standard GB 18030-2005, in dem die gleichen chinesischen Zeichen wie in Unicode an anderen Positionen stehen. Und bei den chinesischen Zeichen kommt noch das Problem hinzu, dass sie auch von den Japanern, Koreanern und Vietnamesen benutzt und in ihre Standards integriert werden. Unicode spricht hier von »purely local needs« der drei (vier?) nationalen Standards, um seine unification des chinesischen Teils der drei Sprachen zu verteidigen. Aber was würden wir sagen, wenn die Chinesen auf die Idee kämen, ein Wörterbuch zu erstellen, in dem alle deutschen, französischen und englischen Wörter verzeichnet wären, die mit A anfangen, die mit B anfangen …die mit Z anfangen und dies als desparately needed GFE unificatioan verkaufen und das Beharren der Fanzosen, Engländer und Deutschen auf ihren eigenen Wörterbüchern als purely local needs abtun würden? Denn die Wörter fangen ja alle Mit A an, mit B an usw. so dass diese Neuerung more than justified ist. Zugegeben, der Vergleich hinkt, aber die derzeitige Verfassung des Chinesischen im Weltalphabet kann nicht das letzte Wort sein.

Gut, dass SGML hier vorgesorgt hat und warten kann, bis es das wirkliche Weltalphabet gibt.

Dank der SDATA entity sets sind die nachträgliche Neuordnung und Auswahl keine Probleme. Denn der entity name und der entity text einer SDATA entity werden unabhängig von irgendwelchen code positions, althergebrachten oder vereinfachten Formen oder nationalen Befindlichkeiten festgelegt. Für die Darstellung ist allein das lokale System verantwortlich, so dass in China, Japan, Korea, Vietnam oder bei uns die drei, vier oder mehr inter/nationalen Standards dasselbe Zeichen in der gewünschten Form darstellen, ohne dass die entity sich ändern muss.

Die dezimale numerische Ordnung von 0001 bis 8105 des 2013 von den Chinesen erstellten vereinfachten chinesischen Schriftsatzes geht vom Einfachen zum Zusammengesetzten. Die ersten Schriftzeichen bestehen aus einem Strich, die letzten aus 26 Strichen. Die dezimale Ordnung ist nicht nur für das Lernen einer großen Menge von Zeichen gut, sondern auch für die Vergabe der entity names und die ihnen folgende Tabellenstruktur.

Die ersten sieben der nachstehenden acht Tabellen bestehen aus je 1.000 entity declarations. Ihre Reihen sind durchnumeriert von

<tr rowname="0001"> bis <tr rowname="1000">,

<tr rowname="1001"> bis <tr rowname="2000"> usw. bis

<tr rowname="7001"> bis <tr rowname="8105">,

wobei die letzte Tabelle 1.105 Zeilen hat. Die Nummer jeder Tabellenzeile ist also identisch mit der Zeichen-Nummer der chinesischen Tabelle.

Jede Tabelle hat 14 Spalten, die in allen Zellen mit

<td colname="1">,

<td colname="2"> usw. bis

<td colname="14">

durchnumeriert sind.

Der Wert "nnnn" des rowname ist identisch mit den beiden Texten nnnn des colname="3" und des colname ="7", so dass die Nummer der chinesischen Tabelle in jeder Zeile dreimal steht.

Aus diesen Tabellen werden die entity declarations erstellt. Die erste lautet

<!ENTITY GS0001 SDATA "GS0001" -- … -->

Die fünfte lautet

<!ENTITY GS0005 SDATA "GS0005" -- … -->

Die letzte lautet

<!ENTITY GS8105 SDATA "GS8105" -- … -->

Der entity name besteht aus den Zellen der beiden Spalten 2+3, GS+nnnn. Der entity text besteht aus den Zellen der Spalten 5+6+7+8, lit+GS+nnnn+lit. GS+nnnn sind in name und text identisch.

Now browsers only need to know that they have to display for the entity reference &GS0001; or for &GS0005; and so on up to for the entity reference &GS8105;.

Ob sich hinter der Darstellung der entity references ein chinesischer, japanischer, koreanischer oder grönländischer Standard verbirgt, geht SGML nichts an.

8105 characters
Page: uniall intro 0 1 2 3 4 5 6 7