Einführung in den HTML-Standard für chinesische Zeichenkodierung

In HTML müssen Sie die von der Webseite verwendete Kodierung angeben. Die allgemeine Vorgehensweise zur Angabe ist:

<meta http-equiv="Inhaltstyp" content="text/html;charset=UTF-8">

In der neuen Version von HTML5 können Sie auch einen einfacheren Weg verwenden:

<meta charset="UTF-8">

Da weltweit viele Sprachen und Schriften verwendet werden, entwickelte die internationale Organisation zur Erfüllung der Anforderungen an sprach- und plattformübergreifende Textkonvertierung und -verarbeitung die Unicode-Kodierung, die 1994 offiziell angekündigt und kontinuierlich verbessert wurde. Sie bietet 1.114.112 Codepunkte und definiert einen Zeichensatz aller für Menschen lesbaren Zeichen, einschließlich alter Schriftsymbole. Um jedoch so viele Zeichen darstellen zu können, verwendet die Unicode-Kodierung normalerweise 32 Bit (also 4 Byte), um ein Zeichen darzustellen, was relativ viel Speicherplatz beansprucht. Häufig verwendete Zeichen (wie ASCII) erfordern auch längere Kodierungen, und die Effizienz der Speichernutzung ist relativ gering.

Zu diesem Zweck wird ein Kodierungsformat mit variabler Breite, UTF-8, unter Verwendung von 8-Bit-Codeeinheiten definiert. Bei der UTF-8-Kodierung können einige häufig verwendete Zeichen mit weniger Bytes dargestellt werden, während für weniger häufig verwendete Zeichen mehr Bytes verwendet werden, was die Effizienz der Kodierung des Speicherplatzbedarfs verbessert. Beispielsweise wird der ASCII-Code immer noch durch ein Byte dargestellt. Dies wird durch die Identifizierung einiger höherwertiger Bits in der Kodierung erreicht, wodurch eine Brücke zwischen der ASCII-Kodierung und Unicode gebaut wird. Die spezifische Kodierungsmethode ist:
0000~007F: 0xxxxxxx, als ein Byte gespeichert, mit 7 Bits zur Darstellung verschiedener Zeichen, entspricht im Allgemeinen ASCII-Zeichen
0080~07FF: 110xxxxx, 10xxxxxx, gespeichert als zwei Bytes, 11 Bits können unterschiedliche Zeichen darstellen
0800~FFFF: 1110xxxx, 10xxxxxx, 10xxxxxx, gespeichert als 3 Bytes, 16 Bits werden verwendet, um verschiedene Zeichen darzustellen
10000~1FFFFF: 11110xxx, 10xxxxxx, 10xxxxxx, 10xxxxxx, gespeichert als 4 Bytes, wobei 21 Bits unterschiedliche Zeichen darstellen. Sie können das Muster erkennen: Wenn das höchste Bit nicht 0 ist, stellt die Zahl vor 0 in der Zahl die Anzahl der in einer Sequenz enthaltenen Codeelemente dar. Alle Codewörter nach dem ersten Codewort in einer Sequenz haben das Präfix 10. Zur Unicode-Kodierung gibt es noch weitere Kodierungsformate wie UTF-16 und UTF-32, gebräuchlicher ist jedoch UTF-8, das ebenfalls alle Kodierungssätze darstellen kann.

In der Vergangenheit war GB2312, das 1980 veröffentlicht wurde, die am häufigsten verwendete Kodierung zur Darstellung chinesischer Schriftzeichen in Computern. Der vollständige Name lautet „Chinese Character Coded Character Set for Information Interchange – Basic Set“. Es verwendet zwei Bytes zur Darstellung eines chinesischen Schriftzeichens und umfasst insgesamt 6763 chinesische Schriftzeichen und 682 nicht-chinesische Grafikzeichen, die mit dem ASCII-Zeichensatz kompatibel sind. Allerdings enthält diese Kodierung relativ wenige chinesische Schriftzeichen und kann die traditionellen chinesischen Schriftzeichen, die in Hongkong und Taiwan verwendet werden, nicht darstellen. Auch einige ungewöhnliche Schriftzeichen und Schriftzeichen aus alten Büchern kann sie nicht darstellen, was in der praktischen Anwendung zu zahlreichen Unannehmlichkeiten führt. Später wurde GB2312 zum GBK-Kodierungsstandard erweitert, der traditionelle chinesische Schriftzeichen und einige Varianten davon darstellen kann, und sein Anwendungsbereich wurde erweitert.

Um einem breiteren Anwendungsbereich gerecht zu werden, wurde der Kodierungsstandard GB18030 veröffentlicht. GB18030-2000 umfasst 27.533 chinesische Schriftzeichen und GB18030-2005 umfasst 70.244 chinesische Schriftzeichen und beinhaltet außerdem Tibetisch, Mongolisch, Dai, Yi, Koreanisch, Uigurisch und andere Minderheitensprachen. Der gesamte Kodierungsraum von GB18030 übersteigt 1,5 Millionen Codepositionen. Die Kodierung verwendet Einzelbyte-, Doppelbyte- und Vierbyte-Kodierung für Zeichen. Der Einzelbyte-Teil verwendet die Kodierungsstruktur und -regeln von GB/T11383 und verwendet Codepositionen von 0x00 bis 0x7F, die den entsprechenden Codepositionen des ASCII-Codes entsprechen. Für den Doppelbyte-Teil reicht die erste Bytecodeposition von 0x81 bis 0xFE und die letzten Bytecodepositionen sind 0x40 bis 0x7E bzw. 0x80 bis 0xFE. Der Vierbyte-Teil verwendet 0x30 bis 0x39, was von GB/T11383 nicht als Suffix zur Erweiterung der Doppelbyte-Kodierung verwendet wird. Die erweiterte Vierbyte-Kodierung hat einen Bereich von 0x81308130 bis 0xFE39FE39. Der Code GB18030 wird noch erweitert.

Um mehr chinesische Schriftzeichen und einige Sonderzeichen darstellen zu können und für eine bessere Kompatibilität in Zukunft, empfiehlt es sich, für neu erstellte Webseiten den GB18030-Standard zu verwenden, d. h. die Kodierung mit einer der folgenden beiden Methoden anzugeben:

<meta http-equiv="Inhaltstyp" content="text/html;charset=gb18030">
<meta charset="gb18030">

Um die Anzeige fremdsprachiger Zeichen zu erleichtern, können Sie natürlich auch die international akzeptierte UTF-8-Kodierung verwenden.

<<: Ausführliche Erläuterung der HTML-Grundlagen (Teil 2)

>>: So verwenden Sie griechische Buchstaben in HTML-Seiten

Detaillierte Erklärung der Lösung für das Problem, dass der Inhalt, auf den der src des Iframes verweist, nicht aktualisiert wird

Artikel

Callback-Funktionen in JavaScript verstehen und verwenden

Einführung in den HTML-Standard für chinesische Zeichenkodierung

Mit CSS3 implementierte Text-Popup-Effekte

Zabbix überwacht die Konfiguration der Docker-Anwendung

So bedienen Sie Datei- und Ordnerberechtigungen unter Linux

Detaillierte Erklärung der Lösung für das Problem, dass der Inhalt, auf den der src des Iframes verweist, nicht aktualisiert wird

Callback-Funktionen in JavaScript verstehen und verwenden

Definition und Verwendung des MySQL-Cursors

Zusammenfassung von vier Situationen gemeinsamer Abfragen zwischen zwei Tabellen in MySQL

Installations- und Konfigurationsmethode für komprimierte MySQL Community Server-Pakete

Verwenden Sie Docker, um ein Git-Image mithilfe des Klon-Repositorys zu erstellen

So fügen Sie Spalten in einer MySQL-Datenbank hinzu, löschen und ändern sie

Artikel empfehlen

Über das WeChat Mini-Programm zur Implementierung von Cloud-Zahlungen

Detaillierte Erklärung der Verwendung des Fuser-Befehls in Linux

MySQL 5.7.20 Zip-Installations-Tutorial

Was bedeutet das n nach int(n) in MySQL?

Methode zur Implementierung von Website-Hintergrundmusik

Lösung für das Fehlen einer chinesischen Eingabemethode in Ubuntu

CSS Polarkoordinaten Beispielcode

Liste der HTML-Tags und Hinweise zur Verwendung

Detaillierte Erklärung der Verwendung und Unterschiede von MySQL-Ansichten und -Indizes

Einführung in die Installation des Vim-Plugins unter Linux

Detaillierte Erläuterung der MySQL-Mehrtabellenabfrage

So verwenden Sie Nexus, um JAR-Pakete zu privaten Servern hinzuzufügen

Datagrip2020 kann MySQL-Treiber nicht herunterladen

So importieren/speichern/laden/löschen Sie Bilder lokal in Docker

Detaillierter Installationsprozess und Prinzip des Vue-Routers