Einführung in den HTML-Standard für chinesische Zeichenkodierung

Einführung in den HTML-Standard für chinesische Zeichenkodierung

In HTML müssen Sie die von der Webseite verwendete Kodierung angeben. Die allgemeine Vorgehensweise zur Angabe ist:

<meta http-equiv="Inhaltstyp" content="text/html;charset=UTF-8">

In der neuen Version von HTML5 können Sie auch einen einfacheren Weg verwenden:

<meta charset="UTF-8">

Da weltweit viele Sprachen und Schriften verwendet werden, entwickelte die internationale Organisation zur Erfüllung der Anforderungen an sprach- und plattformübergreifende Textkonvertierung und -verarbeitung die Unicode-Kodierung, die 1994 offiziell angekündigt und kontinuierlich verbessert wurde. Sie bietet 1.114.112 Codepunkte und definiert einen Zeichensatz aller für Menschen lesbaren Zeichen, einschließlich alter Schriftsymbole. Um jedoch so viele Zeichen darstellen zu können, verwendet die Unicode-Kodierung normalerweise 32 Bit (also 4 Byte), um ein Zeichen darzustellen, was relativ viel Speicherplatz beansprucht. Häufig verwendete Zeichen (wie ASCII) erfordern auch längere Kodierungen, und die Effizienz der Speichernutzung ist relativ gering.

Zu diesem Zweck wird ein Kodierungsformat mit variabler Breite, UTF-8, unter Verwendung von 8-Bit-Codeeinheiten definiert. Bei der UTF-8-Kodierung können einige häufig verwendete Zeichen mit weniger Bytes dargestellt werden, während für weniger häufig verwendete Zeichen mehr Bytes verwendet werden, was die Effizienz der Kodierung des Speicherplatzbedarfs verbessert. Beispielsweise wird der ASCII-Code immer noch durch ein Byte dargestellt. Dies wird durch die Identifizierung einiger höherwertiger Bits in der Kodierung erreicht, wodurch eine Brücke zwischen der ASCII-Kodierung und Unicode gebaut wird. Die spezifische Kodierungsmethode ist:
0000~007F: 0xxxxxxx, als ein Byte gespeichert, mit 7 Bits zur Darstellung verschiedener Zeichen, entspricht im Allgemeinen ASCII-Zeichen
0080~07FF: 110xxxxx, 10xxxxxx, gespeichert als zwei Bytes, 11 Bits können unterschiedliche Zeichen darstellen
0800~FFFF: 1110xxxx, 10xxxxxx, 10xxxxxx, gespeichert als 3 Bytes, 16 Bits werden verwendet, um verschiedene Zeichen darzustellen
10000~1FFFFF: 11110xxx, 10xxxxxx, 10xxxxxx, 10xxxxxx, gespeichert als 4 Bytes, wobei 21 Bits unterschiedliche Zeichen darstellen. Sie können das Muster erkennen: Wenn das höchste Bit nicht 0 ist, stellt die Zahl vor 0 in der Zahl die Anzahl der in einer Sequenz enthaltenen Codeelemente dar. Alle Codewörter nach dem ersten Codewort in einer Sequenz haben das Präfix 10. Zur Unicode-Kodierung gibt es noch weitere Kodierungsformate wie UTF-16 und UTF-32, gebräuchlicher ist jedoch UTF-8, das ebenfalls alle Kodierungssätze darstellen kann.

In der Vergangenheit war GB2312, das 1980 veröffentlicht wurde, die am häufigsten verwendete Kodierung zur Darstellung chinesischer Schriftzeichen in Computern. Der vollständige Name lautet „Chinese Character Coded Character Set for Information Interchange – Basic Set“. Es verwendet zwei Bytes zur Darstellung eines chinesischen Schriftzeichens und umfasst insgesamt 6763 chinesische Schriftzeichen und 682 nicht-chinesische Grafikzeichen, die mit dem ASCII-Zeichensatz kompatibel sind. Allerdings enthält diese Kodierung relativ wenige chinesische Schriftzeichen und kann die traditionellen chinesischen Schriftzeichen, die in Hongkong und Taiwan verwendet werden, nicht darstellen. Auch einige ungewöhnliche Schriftzeichen und Schriftzeichen aus alten Büchern kann sie nicht darstellen, was in der praktischen Anwendung zu zahlreichen Unannehmlichkeiten führt. Später wurde GB2312 zum GBK-Kodierungsstandard erweitert, der traditionelle chinesische Schriftzeichen und einige Varianten davon darstellen kann, und sein Anwendungsbereich wurde erweitert.

Um einem breiteren Anwendungsbereich gerecht zu werden, wurde der Kodierungsstandard GB18030 veröffentlicht. GB18030-2000 umfasst 27.533 chinesische Schriftzeichen und GB18030-2005 umfasst 70.244 chinesische Schriftzeichen und beinhaltet außerdem Tibetisch, Mongolisch, Dai, Yi, Koreanisch, Uigurisch und andere Minderheitensprachen. Der gesamte Kodierungsraum von GB18030 übersteigt 1,5 Millionen Codepositionen. Die Kodierung verwendet Einzelbyte-, Doppelbyte- und Vierbyte-Kodierung für Zeichen. Der Einzelbyte-Teil verwendet die Kodierungsstruktur und -regeln von GB/T11383 und verwendet Codepositionen von 0x00 bis 0x7F, die den entsprechenden Codepositionen des ASCII-Codes entsprechen. Für den Doppelbyte-Teil reicht die erste Bytecodeposition von 0x81 bis 0xFE und die letzten Bytecodepositionen sind 0x40 bis 0x7E bzw. 0x80 bis 0xFE. Der Vierbyte-Teil verwendet 0x30 bis 0x39, was von GB/T11383 nicht als Suffix zur Erweiterung der Doppelbyte-Kodierung verwendet wird. Die erweiterte Vierbyte-Kodierung hat einen Bereich von 0x81308130 bis 0xFE39FE39. Der Code GB18030 wird noch erweitert.

Um mehr chinesische Schriftzeichen und einige Sonderzeichen darstellen zu können und für eine bessere Kompatibilität in Zukunft, empfiehlt es sich, für neu erstellte Webseiten den GB18030-Standard zu verwenden, d. h. die Kodierung mit einer der folgenden beiden Methoden anzugeben:

<meta http-equiv="Inhaltstyp" content="text/html;charset=gb18030">
<meta charset="gb18030">

Um die Anzeige fremdsprachiger Zeichen zu erleichtern, können Sie natürlich auch die international akzeptierte UTF-8-Kodierung verwenden.

<<:  Ausführliche Erläuterung der HTML-Grundlagen (Teil 2)

>>:  So verwenden Sie griechische Buchstaben in HTML-Seiten

Artikel empfehlen

Vue + Openlayer realisiert den Drag- und Rotationsverformungseffekt von Grafiken

Inhaltsverzeichnis Vorwort Ressourcen zum Thema E...

Die unangemessenen MaxIdleConns von MySQL führen zu kurzen Verbindungen

1 Hintergrund Vor kurzem sind im Online-Geschäft ...

Analyse zweier Verwendungen des A-Tags in HTML-Post-Anfragen

Zwei Beispiele für die Verwendung des „a“-Tags in...

Detaillierte Erläuterung der MySQL sql_mode-Abfrage und -Einstellung

1. Führen Sie SQL aus, um anzuzeigen wählen Sie @...

Docker-Grundlagen-Tutorial: Detaillierte Erklärung der Dockerfile-Syntax

Vorwort Dockerfile ist ein vom Docker-Programm in...

So erstellen Sie manuell ein neues Image mit Docker

In diesem Artikel wird die Methode zum manuellen ...

Das WeChat-Applet implementiert die Aufnahmefunktion

In diesem Artikel wird der spezifische Code für d...

Analyse des rel-Attributs in HTML

.y { background: url(//img.jbzj.com/images/o_y.pn...

Windows 10 1903 Fehler 0xc0000135 Lösung [empfohlen]

Windows 10 1903 ist die neueste Version des Windo...

Lösung für das Problem des Speicherns des Formats in HTML TextArea

Das Format des Textbereichs kann beim Speichern in...

Detaillierte Erläuterung der Vue-Projektverpackung

Inhaltsverzeichnis 1. Zugehörige Konfiguration Fa...

Detaillierte Erläuterung des Anwendungsbeispiels für den JQuery-Tag-Selektor

In diesem Artikelbeispiel wird der spezifische Co...

Sehen Sie sich den Befehl zum Ändern der MySQL-Tabellenstruktur an

Kurzbeschreibung Der Editor hat häufig Probleme m...

Entpackte Version der MySQL-Installation und aufgetretene Fehler und Lösungen

1 Installation Laden Sie die entsprechende entpac...