Warum wird für die Webseitenkodierung UTF-8 statt GBK oder GB2312 verwendet?

Warum wird für die Webseitenkodierung UTF-8 statt GBK oder GB2312 verwendet?

Wenn Sie die Wahl haben, sollten Sie UTF-8 verwenden

Tatsächlich sind die Programme des Windows-Systems bereits vollständig auf Unicode umgestiegen und GBK ist lediglich eine Notlösung, um mit den chinesischen Standards klarzukommen.

Die Textkodierung von GBK wird in Doppelbyte ausgedrückt, d. h. sowohl chinesische als auch englische Zeichen werden in Doppelbyte ausgedrückt, aber um Chinesisch zu unterscheiden, wird das höchste Bit auf 1 gesetzt.

Die UTF-8-Kodierung ist eine Multibyte-Kodierung zur Auflösung internationaler Zeichen. Sie verwendet 8 Bit (ein Byte) für Englisch und 24 Bit (drei Byte) für Chinesisch. Für Foren mit mehr englischen Zeichen wird aus Platzgründen UTF-8 verwendet.

GBK enthält alle chinesischen Schriftzeichen.

UTF-8 enthält Zeichen, die von allen Ländern der Welt benötigt werden.

GBK ist ein Standard, der nach der Erweiterung auf Grundlage des nationalen Standards GB2312 mit GB2312 kompatibel ist (es scheint, dass es noch kein nationaler Standard ist).

UTF-8-codierter Text kann in Browsern verschiedener Länder angezeigt werden, die den UTF-8-Zeichensatz unterstützen.
Wenn es sich beispielsweise um eine UTF8-Kodierung handelt, kann Chinesisch im englischen Internet Explorer von Ausländern angezeigt werden, ohne dass diese das Supportpaket für die chinesische Sprache für den IE herunterladen müssen.

Daher werden bei Foren mit mehr Englisch bei Verwendung von GBK 2 Bytes pro Zeichen belegt, während bei Verwendung von UTF-8 nur ein Byte benötigt wird.

Bitte beachten: Obwohl die UTF-8-Version eine gute internationale Kompatibilität aufweist, benötigt die chinesische Version 50 % mehr Datenbankspeicherplatz als die GBK/BIG5-Version. Daher wird sie nicht empfohlen und ist nur für Benutzer gedacht, die besondere Anforderungen an die internationale Kompatibilität haben.

Einfach ausgedrückt:
Für Foren mit viel chinesischem Text empfiehlt es sich, die GBK-Kodierung zu verwenden, um Datenbankspeicherplatz zu sparen.
Für Foren mit mehr englischen Inhalten empfiehlt sich die Verwendung von UTF-8, um Datenbankspeicherplatz zu sparen.

Was sind die Unterschiede zwischen gbk und gb2312

Zunächst muss jeder verstehen, was GBK ist. Was ist GB2312? Wir müssen wissen, dass es sich bei allen um eine Art Zeichenkodierung handelt. Natürlich gibt es viele Arten der Zeichenkodierung.

Wir können die Zeichenkodierung wie folgt verstehen:

Computer speichern Binärwerte von 0 und 1.

8 Bit entsprechen einem Byte, welches üblicherweise hexadezimal ausgedrückt wird.

Wie können wir dies also erreichen, wenn wir statt der verschiedenen Zahlen 0 und 1 die gewünschten Zeichen auf dem Computer angezeigt sehen möchten?

Hier müssen wir den Computer dazu bringen, die entsprechenden gespeicherten Hexadezimalwerte in entsprechende Zeichen umzuwandeln, einschließlich Zeichen anderer Sprachen wie Englisch und Chinesisch, und sie dann auf dem Bildschirm auszugeben.

Unter Kodierung versteht man also das Definieren eines Regelsatzes, um festzulegen, welche Werte welchen Zeichen entsprechen.

Anschließend wird mit der Zeichenkodierung ein Regelwerk definiert, das festlegt, welcher der vielen im Computer gespeicherten Werte welchem ​​auf dem Computerbildschirm angezeigten Buchstaben entspricht.

Zusammenfassend sollte jeder verstehen, dass GBK und GB2312 eine Art Zeichenkodierung sind.

Lassen Sie uns im Folgenden ausführlich auf ihre Unterschiede und Gemeinsamkeiten eingehen:

Ähnlichkeiten:

1. GBK und GB2312 sind beide 16 Bit!

2. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet.

Unterschiede:

1. Die GBK-Zeichenkodierung unterstützt vereinfachtes und traditionelles Chinesisch!

GBK steht für „Chinese Internal Code Extension Specification“ (GBK steht für den Anfangsbuchstaben von „nationaler Standard“ und „Erweiterung“ des chinesischen Pinyin, und der englische Name lautet Chinese Internal Code Specification). Es wurde am 1. Dezember 1995 vom Nationalen Technischen Komitee für Informationstechnologie-Standardisierung der Volksrepublik China formuliert. Die Standardisierungsabteilung der Staatlichen Verwaltung für technische Überwachung und die Abteilung für Wissenschaft, Technologie und Qualitätsüberwachung des Ministeriums für Elektronikindustrie haben es am 15. Dezember 1995 in Form des Dokuments Nr. 229 des Technischen Überwachungsschreibens 1995 gemeinsam als Leitdokument für technische Spezifikationen identifiziert.

2. GB2312 unterstützt nur vereinfachtes Chinesisch!

„Chinese Character Coded Character Set for Information Interchange“ ist ein Satz nationaler Standards, der 1980 von der General Administration of Standards of China herausgegeben und am 1. Mai 1981 implementiert wurde. Die Standardnummer ist GB 2312-1980.
Der GB 2312-Standard umfasst insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Ebene und 3008 chinesische Schriftzeichen der zweiten Ebene. Gleichzeitig umfasst GB 2312 682 Zeichen in voller Breite, darunter lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische kyrillische Buchstaben.

Wenn Ihre Webseiten hauptsächlich für Chinesen bestimmt sind, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen ist klein und es gibt einige Vorteile. Wenn Ihre Webseite für die ganze Welt bestimmt ist und Sie GB2312 und GBK als Webseiten-Kodierung verwenden, unterstützen einige Browser auf Computern diese Kodierung nicht und die chinesischen Schriftzeichen auf Ihrer Webseite werden zu unkenntlichen, verstümmelten Zeichen.

<<:  So verwenden Sie position:sticky, um das Problem kleiner Programme, die an der Decke haften, perfekt zu lösen

>>:  Teilen einiger wunderbarer Verwendungsmöglichkeiten von wxs-Dateien im WeChat-Applet

Artikel empfehlen

JS verwendet die Methode „reduce()“, um Baumstrukturdaten zu verarbeiten

Inhaltsverzeichnis Definition Grammatik Beispiele...

mysql erhält statistische Daten innerhalb eines bestimmten Zeitraums

mysql erhält statistische Daten innerhalb eines b...

Exquisiter Snake-Implementierungsprozess in JavaScript

Inhaltsverzeichnis 1. HTML-Struktur erstellen 2. ...

Lösen Sie schnell das Problem des langsamen Tomcat-Starts, super einfach

Heute habe ich einem Klassenkameraden geholfen, e...

Zusammenfassung der Grundsätze zum Schreiben von HTML-Seiten für E-Mails

Da HTML-E-Mail keine unabhängige HOST-Seite auf di...

Schreiben Sie einen formellen Blog mit XHTML CSS

Der vollständige Name von Blog sollte Weblog sein...

HTML-Grundlagen - Einfaches Beispiel zum Festlegen des Hyperlink-Stils

*** Beispiel für das Festlegen des Stils eines Hy...

Beispiel für die Implementierung des Lastausgleichs mit Nginx+SpringBoot

Einführung in den Lastenausgleich Bevor wir die L...

JavaScript zum Erzielen eines einfachen Karusselleffekts

Was ist ein Karussell? Karussell: In einem Modul ...

Sechsstufiger Beispielcode für eine JDBC-Verbindung (Verbindung zu MySQL)

Sechs Schritte von JDBC: 1. Registrieren Sie den ...

Mysql | Detaillierte Erklärung der Fuzzy-Abfrage mit Platzhaltern (wie, %, _)

Wildcard-Kategorien: %Prozent-Platzhalter: Gibt a...

So erhalten und verwenden Sie die Zeit im Linux-System

Es gibt zwei Arten von Linux-Systemzeiten. (1) Ka...

So lösen Sie das Problem, dass Seata die MySQL 8-Version nicht verwenden kann

Mögliche Gründe: Der Hauptgrund, warum Seata MySQ...