In HTML müssen Sie die von der Webseite verwendete Kodierung angeben. Die allgemeine Vorgehensweise zur Angabe ist:
In der neuen Version von HTML5 können Sie auch einen einfacheren Weg verwenden:
Da weltweit viele Sprachen und Schriften verwendet werden, entwickelte die internationale Organisation zur Erfüllung der Anforderungen an sprach- und plattformübergreifende Textkonvertierung und -verarbeitung die Unicode-Kodierung, die 1994 offiziell angekündigt und kontinuierlich verbessert wurde. Sie bietet 1.114.112 Codepunkte und definiert einen Zeichensatz aller für Menschen lesbaren Zeichen, einschließlich alter Schriftsymbole. Um jedoch so viele Zeichen darstellen zu können, verwendet die Unicode-Kodierung normalerweise 32 Bit (also 4 Byte), um ein Zeichen darzustellen, was relativ viel Speicherplatz beansprucht. Häufig verwendete Zeichen (wie ASCII) erfordern auch längere Kodierungen, und die Effizienz der Speichernutzung ist relativ gering. Zu diesem Zweck wird ein Kodierungsformat mit variabler Breite, UTF-8, unter Verwendung von 8-Bit-Codeeinheiten definiert. Bei der UTF-8-Kodierung können einige häufig verwendete Zeichen mit weniger Bytes dargestellt werden, während für weniger häufig verwendete Zeichen mehr Bytes verwendet werden, was die Effizienz der Kodierung des Speicherplatzbedarfs verbessert. Beispielsweise wird der ASCII-Code immer noch durch ein Byte dargestellt. Dies wird durch die Identifizierung einiger höherwertiger Bits in der Kodierung erreicht, wodurch eine Brücke zwischen der ASCII-Kodierung und Unicode gebaut wird. Die spezifische Kodierungsmethode ist: In der Vergangenheit war GB2312, das 1980 veröffentlicht wurde, die am häufigsten verwendete Kodierung zur Darstellung chinesischer Schriftzeichen in Computern. Der vollständige Name lautet „Chinese Character Coded Character Set for Information Interchange – Basic Set“. Es verwendet zwei Bytes zur Darstellung eines chinesischen Schriftzeichens und umfasst insgesamt 6763 chinesische Schriftzeichen und 682 nicht-chinesische Grafikzeichen, die mit dem ASCII-Zeichensatz kompatibel sind. Allerdings enthält diese Kodierung relativ wenige chinesische Schriftzeichen und kann die traditionellen chinesischen Schriftzeichen, die in Hongkong und Taiwan verwendet werden, nicht darstellen. Auch einige ungewöhnliche Schriftzeichen und Schriftzeichen aus alten Büchern kann sie nicht darstellen, was in der praktischen Anwendung zu zahlreichen Unannehmlichkeiten führt. Später wurde GB2312 zum GBK-Kodierungsstandard erweitert, der traditionelle chinesische Schriftzeichen und einige Varianten davon darstellen kann, und sein Anwendungsbereich wurde erweitert. Um einem breiteren Anwendungsbereich gerecht zu werden, wurde der Kodierungsstandard GB18030 veröffentlicht. GB18030-2000 umfasst 27.533 chinesische Schriftzeichen und GB18030-2005 umfasst 70.244 chinesische Schriftzeichen und beinhaltet außerdem Tibetisch, Mongolisch, Dai, Yi, Koreanisch, Uigurisch und andere Minderheitensprachen. Der gesamte Kodierungsraum von GB18030 übersteigt 1,5 Millionen Codepositionen. Die Kodierung verwendet Einzelbyte-, Doppelbyte- und Vierbyte-Kodierung für Zeichen. Der Einzelbyte-Teil verwendet die Kodierungsstruktur und -regeln von GB/T11383 und verwendet Codepositionen von 0x00 bis 0x7F, die den entsprechenden Codepositionen des ASCII-Codes entsprechen. Für den Doppelbyte-Teil reicht die erste Bytecodeposition von 0x81 bis 0xFE und die letzten Bytecodepositionen sind 0x40 bis 0x7E bzw. 0x80 bis 0xFE. Der Vierbyte-Teil verwendet 0x30 bis 0x39, was von GB/T11383 nicht als Suffix zur Erweiterung der Doppelbyte-Kodierung verwendet wird. Die erweiterte Vierbyte-Kodierung hat einen Bereich von 0x81308130 bis 0xFE39FE39. Der Code GB18030 wird noch erweitert. Um mehr chinesische Schriftzeichen und einige Sonderzeichen darstellen zu können und für eine bessere Kompatibilität in Zukunft, empfiehlt es sich, für neu erstellte Webseiten den GB18030-Standard zu verwenden, d. h. die Kodierung mit einer der folgenden beiden Methoden anzugeben:
Um die Anzeige fremdsprachiger Zeichen zu erleichtern, können Sie natürlich auch die international akzeptierte UTF-8-Kodierung verwenden. |
<<: Ausführliche Erläuterung der HTML-Grundlagen (Teil 2)
>>: So verwenden Sie griechische Buchstaben in HTML-Seiten
Inhaltsverzeichnis Vorwort Ressourcen zum Thema E...
1 Hintergrund Vor kurzem sind im Online-Geschäft ...
Zwei Beispiele für die Verwendung des „a“-Tags in...
1. Führen Sie SQL aus, um anzuzeigen wählen Sie @...
Vorwort Dockerfile ist ein vom Docker-Programm in...
In diesem Artikel wird die Methode zum manuellen ...
In diesem Artikel wird der spezifische Code für d...
.y { background: url(//img.jbzj.com/images/o_y.pn...
Windows 10 1903 ist die neueste Version des Windo...
Datenbankanwendungen sind ein unverzichtbarer Bes...
Das Format des Textbereichs kann beim Speichern in...
Inhaltsverzeichnis 1. Zugehörige Konfiguration Fa...
In diesem Artikelbeispiel wird der spezifische Co...
Kurzbeschreibung Der Editor hat häufig Probleme m...
1 Installation Laden Sie die entsprechende entpac...