Der Unterschied zwischen GB2312, GBK und UTF-8 in der Webseitenkodierung

Der Unterschied zwischen GB2312, GBK und UTF-8 in der Webseitenkodierung

Zunächst müssen wir verstehen, dass GB2312, GBK und UTF-8 allesamt Zeichenkodierungen sind. Darüber hinaus gibt es noch viele weitere Zeichenkodierungen. Es ist nur so, dass diese drei Codes für unsere chinesischen Websites häufiger verwendet werden. Um kurz zu erklären, warum wir eine Kodierung benötigen: In Computern wird ASCII-Code zum Speichern von Textinformationen verwendet und jedes Zeichen entspricht einem eindeutigen ASCII-Code. Computer wurden ursprünglich in den USA erfunden. Auch dort wurden Tastaturen und die darauf befindlichen Buchstaben verwendet, sodass die ASCII-Zeichen leicht zu entziffern waren. In China ist das jedoch anders: Jedes chinesische Zeichen muss einem eindeutigen ASCII-Code entsprechen. So entstanden die staatlich formulierten Zeichenkodierungsstandards: GB2312, GBK usw. Auch andere Länder und andere Sprachen haben ihre entsprechenden Kodierungsstandards. GB steht für Nationaler Standard. GB2312 und GBK werden hauptsächlich zur Kodierung chinesischer Schriftzeichen verwendet, während UTF-8 weltweit verwendet wird. Das bedeutet, wenn Ihre Webseiten hauptsächlich für Chinesen bestimmt sind, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen ist klein und es gibt einige Vorteile. Wenn Ihre Webseite für die ganze Welt bestimmt ist und Sie GB2312 und GBK als Webseiten-Kodierung verwenden, unterstützen einige Browser auf Computern diese Kodierung nicht und die chinesischen Schriftzeichen auf Ihrer Webseite werden zu unkenntlichen, verstümmelten Zeichen. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet, zum Beispiel:, um anzuzeigen, dass diese Seite die GB2312-Kodierung verwendet. Diese Informationen sind für den Browser sichtbar und der Browser verwendet zum Dekodieren der Webseite vorrangig die aus dem Header der Webseite extrahierten Kodierungsinformationen. Natürlich können wir den Browser auch zwingen, eine bestimmte Codierung zur Interpretation der Webseite zu verwenden, damit wir den legendären verstümmelten Code sehen können.

GBK, GB2312 usw. und UTF8 müssen durch Unicode-Kodierung ineinander konvertiert werden:

GBK, GB2312-Unicode-UTF8
UTF8-Unicode-GBK, GB2312

Wenn eine Website oder ein Forum viele englische Zeichen enthält, empfiehlt es sich, aus Platzgründen UTF-8 zu verwenden. Allerdings unterstützen viele Foren-Plugins mittlerweile generell nur noch GBK.
Wenn es sich um eine chinesische Website handelt, wird GB2312 GBK empfohlen, aber manchmal gibt es trotzdem einige Probleme. Um alle Probleme mit verstümmeltem Code zu vermeiden, sollte UTF-8 verwendet werden. Dies ist auch sehr praktisch, um die Internationalisierung in der Zukunft zu unterstützen. UTF-8 kann als großer Zeichensatz betrachtet werden, der die Kodierung der meisten Texte umfasst.

Ein Vorteil der Verwendung von UTF-8 besteht darin, dass Benutzer in anderen Regionen (wie Hongkong und Taiwan) Ihren Text ohne verstümmelte Zeichen normal anzeigen können, ohne Unterstützung für vereinfachtes Chinesisch installieren zu müssen*. *

gb2312 ist der Code für vereinfachtes Chinesisch
gbk unterstützt vereinfachtes Chinesisch und traditionelles Chinesisch
big5 unterstützt traditionelles Chinesisch
UTF-8 unterstützt fast alle Zeichen

Der am häufigsten verwendete Code auf dem chinesischen Festland ist GBK18030. Darüber hinaus gibt es GBK und GB2312. Die Beziehung zwischen diesen Codes ist wie folgt. Der früheste chinesische Zeichencode war GB2312, der 6763 chinesische Zeichen und 682 weitere Symbole umfasste. Der Code wurde 1995 überarbeitet und GBK1.0 genannt, was insgesamt 21.886 Symbole umfasste. Später wurde die GBK18030-Kodierung eingeführt, die insgesamt 27.484 chinesische Schriftzeichen sowie wichtige Minderheitensprachen wie Tibetisch, Mongolisch und Uigurisch umfasste. Jetzt muss die WINDOWS-Plattform die GBK18030-Kodierung unterstützen.

Der GB2312-Code enthält etwa 6000 chinesische Schriftzeichen (ohne Sonderzeichen). Der Kodierungsbereich ist b0-f7 für die erste Ziffer und a1-fe für die zweite Ziffer (wenn die erste Ziffer cf ist, ist die zweite Ziffer a1-d3). Die Berechnung der Anzahl chinesischer Schriftzeichen ergibt 6762. Natürlich gibt es auch noch andere Charaktere. Einschließlich Steuertasten und anderer Zeichen gibt es etwa 7573 Zeichencodes. Der GBK-Code ist eine Erweiterung des GB2312-Codes, der mehr chinesische Zeichen aufnehmen kann, aber es handelt sich nur um eine Erweiterung ohne qualitative Änderung. Alle GB2312-Codes bleiben erhalten und der Codebereich wird auf dieser Grundlage erweitert. Insgesamt werden 22014 Zeichencodes (einschließlich Sonderzeichen) unterstützt. Der Code gb18030 ist eine Erweiterung auf Basis des gbk-Codes. Da es mehr chinesische Zeichen gibt, können mit nur 2-Bit-Codes nicht mehr alle erforderlichen chinesischen Zeichen unterstützt werden. Daher wird eine 2\4-Bit-Mischmethode verwendet, um mehr chinesische Zeichencodes zu unterstützen. Und es behält die ursprüngliche 2-Byte-GBK-Kodierung bei, die mit GB2312- und GBK-kodierten Dateien kompatibel ist. Es bietet Platz für ungefähr 55.657 Codes (einschließlich Sonderzeichen). Unicode-Code (auch als UTF-Code bekannt): Allgemein als Universalcode bekannt, dient er der Verwendung einheitlicher Kodierungsstandards zum Darstellen von Texten verschiedener Länder. Um mehr Text auszudrücken, verwendet UTF-8 eine 2/3-gemischte Kodierungsmethode. Der Bereich der derzeit unterstützten chinesischen Schriftzeichen ist kleiner als der der GBK-Kodierung. Und die Verarbeitung von Chinesisch im 3-Byte-Modus bringt Kompatibilitätsprobleme mit sich. Die ursprünglichen gbk-, GB2312- und gb18030-Kodierungsdateien können nicht normal verarbeitet werden. Es ist noch ein langer Weg.

Was sind die Unterschiede zwischen gbk und gb2312

Zunächst muss jeder verstehen, was GBK ist. Was ist GB2312? Wir müssen wissen, dass es sich bei allen um eine Art Zeichenkodierung handelt. Natürlich gibt es viele Arten der Zeichenkodierung.

Wir können die Zeichenkodierung wie folgt verstehen:

Computer speichern Binärwerte von 0 und 1.

8 Bit entsprechen einem Byte, welches üblicherweise hexadezimal ausgedrückt wird.

Wie können wir dies also erreichen, wenn wir statt der verschiedenen Zahlen 0 und 1 die gewünschten Zeichen auf dem Computer angezeigt sehen möchten?

Hier müssen wir den Computer dazu bringen, die entsprechenden gespeicherten Hexadezimalwerte in entsprechende Zeichen umzuwandeln, einschließlich Zeichen anderer Sprachen wie Englisch und Chinesisch, und sie dann auf dem Bildschirm auszugeben.

Unter Kodierung versteht man also das Definieren eines Regelsatzes, um festzulegen, welche Werte welchen Zeichen entsprechen.

Anschließend wird mit der Zeichenkodierung ein Regelwerk definiert, das festlegt, welcher der vielen im Computer gespeicherten Werte welchem ​​auf dem Computerbildschirm angezeigten Buchstaben entspricht.

Zusammenfassend sollte jeder verstehen, dass GBK und GB2312 eine Art Zeichenkodierung sind.

Lassen Sie uns im Folgenden ausführlich auf ihre Unterschiede und Gemeinsamkeiten eingehen:

Ähnlichkeiten:

1. GBK und GB2312 sind beide 16 Bit!

2. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet.

Unterschiede:

1. Die GBK-Zeichenkodierung unterstützt vereinfachtes und traditionelles Chinesisch!

GBK steht für „Chinese Internal Code Extension Specification“ (GBK steht für den Anfangsbuchstaben von „nationaler Standard“ und „Erweiterung“ des chinesischen Pinyin, und der englische Name lautet Chinese Internal Code Specification). Es wurde am 1. Dezember 1995 vom Nationalen Technischen Komitee für Informationstechnologie-Standardisierung der Volksrepublik China formuliert. Die Standardisierungsabteilung der Staatlichen Verwaltung für technische Überwachung und die Abteilung für Wissenschaft, Technologie und Qualitätsüberwachung des Ministeriums für Elektronikindustrie haben es am 15. Dezember 1995 in Form des Dokuments Nr. 229 des Technischen Überwachungsschreibens 1995 gemeinsam als Leitdokument für technische Spezifikationen identifiziert.

2. GB2312 unterstützt nur vereinfachtes Chinesisch!

„Chinese Character Coded Character Set for Information Interchange“ ist ein Satz nationaler Standards, der 1980 von der General Administration of Standards of China herausgegeben und am 1. Mai 1981 implementiert wurde. Die Standardnummer ist GB 2312-1980.
Der GB 2312-Standard umfasst insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Ebene und 3008 chinesische Schriftzeichen der zweiten Ebene. Gleichzeitig umfasst GB 2312 682 Zeichen in voller Breite, darunter lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische kyrillische Buchstaben.

Wenn Ihre Webseiten hauptsächlich für Chinesen bestimmt sind, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen ist klein und es gibt einige Vorteile. Wenn Ihre Webseite für die ganze Welt bestimmt ist und Sie GB2312 und GBK als Webseiten-Kodierung verwenden, unterstützen einige Browser auf Computern diese Kodierung nicht und die chinesischen Schriftzeichen auf Ihrer Webseite werden zu unkenntlichen, verstümmelten Zeichen.

<<:  Detaillierte Erläuterung der vorkompilierten CSS-Sprachen und ihrer Unterschiede

>>:  Detaillierte Erläuterung des Zahlungsfunktionscodes des Vue-Projekts

Artikel empfehlen

Zehn Erfahrungen bei der Präsentation chinesischer Webinhalte

<br /> Ich habe mich auf die drei Aspekte Te...

Wir zeigen Ihnen einen Trick, um einen Textvergleich unter Linux durchzuführen

Vorwort Während des Schreibens des Codes werden w...

Detaillierte Erläuterung des vite2.0-Konfigurationslernens (Typescript-Version)

einführen Die ursprünglichen Worte von You Yuxi. ...

Vue implementiert Drag & Drop für mehrspaltiges Layout

In diesem Artikel wird der spezifische Code von V...

JavaScript-Entwurfsmuster – Muster der Verantwortungskette

Inhaltsverzeichnis Überblick Code-Implementierung...

Lösung für „Ubuntu kann keine Verbindung zum Netzwerk herstellen“

Effektive Lösung für Ubuntu, wenn in einer virtue...

Angular Cookie Lese- und Schreibvorgangscode

Lese- und Schreibvorgänge bei Angular Cookies, de...

Detaillierte Erläuterung der Docker Swarm-Dienstorchestrierungsbefehle

1. Einleitung Docker verfügt über ein Orchestrier...

Anweisungen zur Verwendung der Option --rm von Docker Run

Wenn der Docker-Container beendet wird, bleibt da...

Einfaches Anwendungsbeispiel für MySQL-Trigger

Dieser Artikel veranschaulicht anhand von Beispie...

Einführung in die MySQL-Entsperr- und Sperrtabelle

MySQL Lock-Übersicht Im Vergleich zu anderen Date...

Implementierungs- und Nutzungsszenarien der JS-Anti-Shake-Drosselungsfunktion

Inhaltsverzeichnis 1. Was ist die Anti-Shake-Funk...

Tutorial zur MySQL-Datensicherungsmethode mit Multi-Master und One-Slave

Überblick Vorgänge, die auf einer Datenbank ausge...