Unicode-Signatur-BOM-Problem (Byte Order Mark) für UTF-8-Dateien

Beim Debuggen einer chinesischen Zen Cart-Website mit UTF8-Kodierung ist mir kürzlich etwas Merkwürdiges aufgefallen. Der Text auf der Webseite wurde normal angezeigt, aber als ich die Quelldatei mit IE anzeigte (ich öffnete sie mit Notepad), fand ich verstümmelte Zeichen. Bei Firefox trat dieses Problem nicht auf. Nach vielen Online-Überprüfungen und Tests war das Problem gelöst. Es handelte sich tatsächlich um ein Problem mit der Unicode-Signatur BOM (Byte Order Mark) der UTF-8-Datei.

BOM (Byte Order Mark) ist eine Standardmarkierung, die zur Identifizierung der Kodierung im UTF-Kodierungsschema verwendet wird. In UTF-16 war es ursprünglich FF FE und in UTF-8 wird es zu EF BB BF. Dieses Flag ist optional und da UTF8-Bytes keine Reihenfolge haben, kann es verwendet werden, um zu erkennen, ob ein Bytestrom UTF-8-codiert ist. Microsoft führt diese Erkennung durch, manche Software tut dies jedoch nicht und behandelt es als normales Zeichen.

Microsoft fügt vor seinen eigenen UTF-8-Textdateien drei Bytes EF BB BF hinzu. Programme wie Notepad unter Windows verwenden diese drei Bytes, um zu bestimmen, ob eine Textdatei ASCII oder UTF-8 ist. Dies ist jedoch nur eine von Microsoft im Geheimen vorgenommene Markierung. Andere Plattformen haben keine solche Markierung für UTF-8-Textdateien.

Das bedeutet, dass eine UTF-8-Datei eine BOM haben kann oder auch nicht. Wie kann man sie also unterscheiden? Drei Methoden. 1. Öffnen Sie die Datei mit UltraEdit-32, wechseln Sie in den hexadezimalen Bearbeitungsmodus und prüfen Sie, ob der Dateikopf EF BB BF enthält. 2. Öffnen Sie es mit Dreamweaver, überprüfen Sie die Seiteneigenschaften und sehen Sie nach, ob vor „Unicode-Signatur-BOM einschließen“ ein Häkchen gesetzt ist. 3. Öffnen Sie die Datei mit dem Windows-Editor, wählen Sie „Speichern unter“ und prüfen Sie, ob die Standardkodierung der Datei UTF-8 oder ANSI ist. Wenn es ANSI ist, wird die Datei kein BOM haben.

Ich habe html_header.php in der Zen Cart-Vorlagendatei gefunden und festgestellt, dass die Datei kein BOM hatte. Ich habe sie mit UltraEdit-32 gespeichert, das BOM hinzugefügt und dann html_header.php hochgeladen. Alles war normal.

Beachten Sie, dass beim Konvertieren einer gb2312-Datei in eine UTF-8-Datei mit Convertz die Standardeinstellung darin besteht, BOM nicht einzuschließen. Die oben genannten verstümmelten Zeichen können ohne BOM erscheinen. Wenn BOM jedoch enthalten ist, sollten Sie mit PHP-Include-Dateien vorsichtig sein, da EF BB BF vor dem PHP-Bytestream hinzugefügt wird. Die vorherige Ausgabe auf dem Display kann zu Programmfehlern führen. Eine Lösung besteht darin, alle enthaltenen Dateien als ANSI zu speichern, und die Hauptdatei kann UTF-8 sein. Um die BOM aus einer Datei zu entfernen, öffnen Sie sie mit UlterEdit, wechseln Sie in den hexadezimalen Bearbeitungsmodus, ersetzen Sie die ersten drei Bytes (das verdammte EF BB BF) durch 20, speichern Sie die Datei (denken Sie daran, beim Speichern die automatische Sicherungsfunktion auszuschalten), wechseln Sie dann in den Standardbearbeitungsmodus und entfernen Sie die ersten drei Leerzeichen.

Ich habe auch einiges über die Kodierung gelernt: Die sogenannten in Unicode gespeicherten Dateien sind eigentlich UTF-16, was zufällig dasselbe ist wie der Unicode-Code, aber konzeptionell sind Unicode und UTF zwei verschiedene Dinge. Unicode ist ein Darstellungsschema für die Speicherkodierung und UTF ist ein Schema zum Speichern und Übertragen von Unicode. UTF-16 ist in zwei Typen unterteilt: High Byte First (LE) und High Byte Last (BE). Zur offiziellen UTF-Kodierung gehört auch UTF-32, welches ebenfalls in LE und BE unterteilt wird. Zur nicht-Unicode-offiziellen UTF-Kodierung gehört auch UTF-7, das vor allem für die E-Mail-Übertragung genutzt wird. Der Einzelbyte-Teil von UTF-8 ist mit ISO-8859-1 kompatibel. Dies liegt hauptsächlich daran, dass einige alte Systeme und Bibliotheksfunktionen UTF-16 nicht richtig verarbeiten können und daher nicht mehr verwendet werden. Bei englischen Zeichen wird dadurch auch Dateispeicherplatz gespart (auf Kosten der Platzverschwendung bei nicht-englischen Zeichen). Bei Verwendung von iso-8859-1 werden sowohl utf8 als auch iso-8859-1 durch ein Byte dargestellt. Bei der Darstellung anderer Zeichen verwendet utf-8 zwei oder drei Bytes.

<<: Three.js realisiert den dynamischen 3D-Logoeffekt von Facebook Metaverse

>>: Sammlung gemeinsamer DIV-Attribute

Implementierung von Zehntausenden gleichzeitigen Verbindungen auf einer einzigen Maschine mit nginx+lua

Artikel empfehlen

CSS-Techniken zum Erreichen eines mehrspaltigen Layouts gleicher Höhe, das das Frontend beherrschen sollte

1. Einleitung Beim Schreiben einer Seite stoßen w...

Zusammenfassung von 28 gängigen JavaScript-String-Methoden und Verwendungstipps

Inhaltsverzeichnis Vorwort 1. Ermitteln Sie die L...

Lösen Sie das Problem der fehlenden Datei msvcr100.dll beim Erstellen von MySQL im Windows Service 2012 Alibaba Cloud Server

Lösung 1: Laden Sie die Datei msvcr100.dll herunt...

Unicode-Signatur-BOM-Problem (Byte Order Mark) für UTF-8-Dateien

Implementierung von Zehntausenden gleichzeitigen Verbindungen auf einer einzigen Maschine mit nginx+lua

So ändern Sie MySQL, um Remoteverbindungen zuzulassen

Der Unterschied und die Verwendung von json.stringify() und json.parse()

Detailliertes Tutorial zum verteilten Betrieb von JMeter in der Docker-Umgebung

Die entsprechenden Attribute und Verwendung von XHTML-Tags in CSS

So erzwingen Sie die vertikale Anzeige auf mobilen Seiten

Analyse des Prinzips und der Methode zur Implementierung einer Linux-Festplattenpartition

Webentwicklungs-Tutorial: domänenübergreifende Lösung – detaillierte Erläuterung

Detaillierte Erklärung zur Implementierung des sekundären Caches mit MySQL und Redis

Detaillierte Erklärung der MySQL Master-Slave-Inkonsistenz und Lösungen

Artikel empfehlen

CSS-Techniken zum Erreichen eines mehrspaltigen Layouts gleicher Höhe, das das Frontend beherrschen sollte

Zusammenfassung von 28 gängigen JavaScript-String-Methoden und Verwendungstipps

Lösen Sie das Problem der fehlenden Datei msvcr100.dll beim Erstellen von MySQL im Windows Service 2012 Alibaba Cloud Server

Implementierung des Hochladens großer Dateien und des durch Haltepunkte fortsetzbaren Hochladens in Vue

So beheben Sie Dateisystemfehler in Linux mit „fsck“

Vue3.0 implementiert die Kapselung des Dropdown-Menüs

11 Linux-KDE-Anwendungen, die Sie nicht kannten

Importieren Sie die CSV-Datei mit Navicat in MySQL

Beispielcode zum Erzielen eines kleinen Dreiecksrahmeneffekts mit reinem CSS3+DIV

Wie gut kennen Sie sich mit reinen HTML-Tags aus?

Detaillierte Erklärung zur passiven Überprüfung des Überlebensstatus des Servers durch Nginx

Kenntnisse zur Überwachung der MySQL-Indexnutzung (es lohnt sich, sie zu erwerben!)

Beschreiben Sie kurz den Unterschied zwischen Redis und MySQL

Grafisches Tutorial zur Installation und Konfiguration von MySQL 8.0.11 und MacOS 10.13

So richten Sie einen freigegebenen Ordner auf einer virtuellen VMware16-Maschine ein