Implementierung des MySQL Shell import_table-Datenimports

Inhaltsverzeichnis

1. Einführung in import_table
2. Beispiele für die Funktion „Daten laden“ und „Tabelle importieren“

2.1 Datenimport mit „Load Data“
2.2 Datenimport mit import_table

3. import_table-spezifische Funktionen

3.1 Mehrfachdateiimport (Fuzzy Matching)
3.2 Gleichzeitiger Import
3.3 Einfuhrmengenkontrolle
3.4 Benutzerdefinierte Blockgröße

4. Leistungsvergleich zwischen „Load Data“ und „import_table“

5. Technische Zusammenfassung

1. Einführung in import_table

Im letzten technischen Austausch haben wir 4 gängige Methoden von MySQL Load Data zum Importieren von Textdaten in MySQL vorgestellt. In dieser Ausgabe werden wir weiterhin ein weiteres effizienteres Datenimporttool vorstellen, import_table im MySQL Shell-Tool-Set. Der vollständige Name dieses Tools lautet Parallel Table Import Utility . Wie der Name schon sagt, unterstützt es den gleichzeitigen Datenimport. Nach MySQL Shell Version 8.0.23 ist die Funktion dieses Tools vollständiger. Im Folgenden sind die Kernfunktionen dieses Tools aufgeführt

Deckt grundsätzlich alle Funktionen von MySQL Data Load ab und kann als Ersatz verwendet werden
Gleichzeitiger Import wird standardmäßig unterstützt (unterstützt benutzerdefinierte Blockgröße)
Unterstützt Platzhalterübereinstimmung, um mehrere Dateien gleichzeitig in eine Tabelle zu importieren (sehr gut geeignet, um Daten mit derselben Struktur in einer Tabelle zusammenzufassen)
Unterstützt Geschwindigkeitsbegrenzungen (sehr gut geeignet für Szenarien mit hohen Bandbreitenanforderungen)
Unterstützt die Verarbeitung komprimierter Dateien
Unterstützt den Import in MySQL 5.7 und höher

2. Beispiele für die Funktion „Daten laden“ und „Tabelle importieren“

Dieser Abschnitt enthält Befehlsbeispiele für dieselben Funktionen wie „Tabelle importieren“ und „Daten laden“. Wir verwenden weiterhin die Beispieldaten der Mitarbeitertabelle als Beispiel, um das umfassende Szenario des Ladens von MySQL-Daten zu demonstrieren.

Importieren Sie Daten in benutzerdefinierter Reihenfolge
Datenfunktionsverarbeitung
Benutzerdefinierter Datenwert

## Beispieldaten sind wie folgt [root@10-186-61-162 tmp]# cat employees_01.csv
"10001","1953-09-02","Georgi","Facello","M","1986-06-26"
"10003","1959-12-03","Parto","Bamford","M","1986-08-28"
"10002","1964-06-02","Bezalel","Simmel","F","1985-11-21"
"10004","1954-05-01","Christian","Koblick","M","1986-12-01"
"10005","1955-01-21","Kyoichi","Maliniak","M","1989-09-12"
"10006","1953-04-20","Anneke","Preusig","F","1989-06-02"
"10007","1957-05-23","Tzvetan","Zielinski","F","1989-02-10"
"10008","19.02.1958","Saniya","Kalloufi","M","15.09.1994"
"10009","1952-04-19","Sumant","Peac","F","1985-02-18"
"10010","1963-06-01","Duangkaew","Piveteau","F","1989-08-24"

## Beispieltabellenstruktur 10.186.61.162:3306 Mitarbeiter SQL > desc emp;
+-------------+------------------+------+-----+---------+---------+-------+
| Feld | Typ | Null | Schlüssel | Standard | Extra |
+-------------+------------------+------+-----+---------+---------+-------+
| emp_no | int | NEIN | PRI | NULL | |
| Geburtsdatum | Datum | NEIN | | NULL | |
| Vorname | varchar(14) | NEIN | | NULL | |
| Nachname | varchar(16) | NEIN | | NULL | |
| full_name | varchar(64) | JA | | NULL | | -- Neu hinzugefügtes Feld in der Tabelle, existiert nicht in der exportierten Datendatei | gender | enum('M','F') | NEIN | | NULL | |
| Einstellungsdatum | Datum | NEIN | | NULL | |
| modify_date | datetime | JA | | NULL | | -- Der Tabelle wird ein neues Feld hinzugefügt, das in der exportierten Datendatei nicht vorhanden ist.| delete_flag | varchar(1) | JA | | NULL | | -- Der Tabelle wird ein neues Feld hinzugefügt, das in der exportierten Datendatei nicht vorhanden ist.+-------------+---------------+------+-----+---------+---------+

2.1 Datenimport mit „Load Data“

Die spezifische Bedeutung der Parameter wird hier nicht erläutert. Wenn Sie die Syntaxregeln und Bedeutungen verstehen müssen, lesen Sie bitte den vorherigen Artikel in der Reihe <Mehrfachverwendung von MySQL-Ladedaten>

Daten in Datei laden '/data/mysql/3306/tmp/employees_01.csv'
in die Tabelle employee.emp
Zeichensatz utf8mb4
Felder, die mit ',' abgeschlossen sind
umschlossen von '"'
Zeilen, die mit '\n' beendet sind
(@C1,@C2,@C3,@C4,@C5,@C6)
setze emp_no=@C1,
    Geburtsdatum=@C2,
    Vorname=Obername(@C3),
    Nachname=Untername(@C4),
    vollständiger_name=concat(Vorname,' ',Nachname),
    Geschlecht=@C5,
    Einstellungsdatum=@C6 ,
    change_date = jetzt(),
    delete_flag=wenn(Einstellungsdatum<'1988-01-01','J','N');

2.2 Datenimport mit import_table

util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
    ],
    {
        "Schema": "Mitarbeiter", 
        "Tabelle": "emp",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## Verwende so viele Seriennummern wie Spalten in der Datei vorhanden sind "decodeColumns": {
            "emp_no": "@1", ## entspricht der ersten Spalte in der Datei "Birth_date": "@2", ## entspricht der zweiten Spalte in der Datei "First_name": "Upper (@3)" "concat (@3, '',@4)", ## verschmilzt die dritte und vierte Spalte in der Datei, um den Feldwert in der Tabelle "Geschlecht" zu generieren, ## entspricht der fünften Spalte in der Datei "Hire_date": "@6", ## ## ## # # # # # # der fieldate "modify_date": ":" now "" "" "" "": "now" "" "" "" ":" now "" "" "" "" ":" now "" "" "" "" "": "now" "" "" "" if (@6 <'1988-01-01', 'y', 'n') "## machen ein logisches Urteil, das auf der sechsten Spalte in der Datei basiert, und generieren den entsprechenden Feldwert in der Tabelle}
    })

3. import_table-spezifische Funktionen

3.1 Mehrfachdateiimport (Fuzzy Matching)

## Vor dem Importieren habe ich 3 separate Mitarbeiterdateien generiert und die exportierten Strukturen sind konsistent [root@10-186-61-162 tmp]# ls -lh
Gesamtnutzung: 1,9 G
-rw-r----- 1 mysql mysql 579 24. März 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 24. März 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 24. März 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1,9 G 26. März 17:15 sbtest1.csv

## Importbefehl, bei dem employees_* für Fuzzy-Matching verwendet wird util.import_table(
    [
        "/data/mysql/3306/tmp/employees_*",
    ],
    {
        "Schema": "Mitarbeiter", 
        "Tabelle": "emp",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## Verwende so viele Seriennummern wie Spalten in der Datei vorhanden sind "decodeColumns": {
            "emp_no": "@1", ## entspricht der ersten Spalte in der Datei "Birth_date": "@2", ## entspricht der zweiten Spalte in der Datei "First_name": "Upper (@3)" "concat (@3, '',@4)", ## verschmilzt die dritte und vierte Spalte in der Datei, um den Feldwert in der Tabelle "Geschlecht" zu generieren, ## entspricht der fünften Spalte in der Datei "Hire_date": "@6", ## ## ## # # # # # # der fieldate "modify_date": ":" now "" "" "" "": "now" "" "" "" ":" now "" "" "" "" ":" now "" "" "" "" "": "now" "" "" "" if (@6 <'1988-01-01', 'y', 'n') "## machen ein logisches Urteil, das auf der sechsten Spalte in der Datei basiert, und generieren den entsprechenden Feldwert in der Tabelle}
    })
    
## Importbefehl, in dem der Pfad der zu importierenden Datei eindeutig angegeben wird util.import_table(
    [
        "/data/mysql/3306/tmp/employees_01.csv",
        "/data/mysql/3306/tmp/employees_02.csv",
        "/data/mysql/3306/tmp/employees_03.csv"
    ],
    {
        "Schema": "Mitarbeiter", 
        "Tabelle": "emp",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "columns": [1,2,3,4,5,6], ## Verwende so viele Seriennummern wie Spalten in der Datei vorhanden sind "decodeColumns": {
            "emp_no": "@1", ## entspricht der ersten Spalte in der Datei "Birth_date": "@2", ## entspricht der zweiten Spalte in der Datei "First_name": "Upper (@3)" "concat (@3, '',@4)", ## verschmilzt die dritte und vierte Spalte in der Datei, um den Feldwert in der Tabelle "Geschlecht" zu generieren, ## entspricht der fünften Spalte in der Datei "Hire_date": "@6", ## ## ## # # # # # # der fieldate "modify_date": ":" now "" "" "" "": "now" "" "" "" ":" now "" "" "" "" ":" now "" "" "" "" "": "now" "" "" "" if (@6 <'1988-01-01', 'y', 'n') "## machen ein logisches Urteil, das auf der sechsten Spalte in der Datei basiert, und generieren den entsprechenden Feldwert in der Tabelle}
    })

3.2 Gleichzeitiger Import

Bevor wir mit dem gleichzeitigen Importieren experimentieren, erstellen wir eine 10 Millionen sbtest1-Tabelle (ca. 2G Daten), um die Parallelität zu simulieren. Der Parameter import_table verwendet threads als Parallelitätskonfiguration und der Standardwert ist 8 Parallelität.

## Exportieren Sie die für den Test benötigten sbtest1-Daten [root@10-186-61-162 tmp]# ls -lh
Gesamtnutzung: 1,9 G
-rw-r----- 1 mysql mysql 579 24. März 19:07 employees_01.csv
-rw-r----- 1 mysql mysql 584 24. März 18:48 employees_02.csv
-rw-r----- 1 mysql mysql 576 24. März 18:48 employees_03.csv
-rw-r----- 1 mysql mysql 1,9 G 26. März 17:15 sbtest1.csv

## Aktivieren Sie 8 Threads gleichzeitig util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ],
    {
        "Schema": "Demo", 
        "Tabelle": "sbtest1",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "Threads": "8"
    })

3.3 Einfuhrmengenkontrolle

Sie können maxRate und threads verwenden, um die Importdaten jedes gleichzeitigen Threads zu steuern. Wenn die aktuelle Konfiguration beispielsweise 4 Threads hat und die Rate jedes Threads 2 M/s beträgt, wird das Maximum 8 M/s nicht überschreiten.

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ],
    {
        "Schema": "Demo", 
        "Tabelle": "sbtest1",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "Threads": "4",
        "maxRate": "2M"
    })

3.4 Benutzerdefinierte Blockgröße

Die Standardblockgröße beträgt 50 MB. Wir können die Blockgröße anpassen, um die Transaktionsgröße zu verringern. Wenn wir beispielsweise die Blockgröße auf 1 MB anpassen, wird auch die Datenmenge, die jedes Mal von jedem Thread importiert wird, entsprechend reduziert.

util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ],
    {
        "Schema": "Demo", 
        "Tabelle": "sbtest1",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4",
        "Threads": "4",
        "bytesPerChunk": "1M",
        "maxRate": "2M"
    })

4. Leistungsvergleich zwischen „Load Data“ und „import_table“

Verwenden Sie dieselbe Bibliothekstabelle
Es erfolgt keine spezielle Verarbeitung der Daten. Sie werden einfach so importiert, wie sie sind
Ändern Sie die Standardparameter nicht, geben Sie nur die erforderlichen Parameter an.

-- Daten laden-Anweisung lädt Daten in Datei '/data/mysql/3306/tmp/sbtest1.csv'
in Tabelle demo.sbtest1
Zeichensatz utf8mb4
Felder, die mit ',' abgeschlossen sind
umschlossen von '"'
Zeilen, die mit '\n' beendet sind

-- import_table-Anweisung util.import_table(
    [
        "/data/mysql/3306/tmp/sbtest1.csv",
    ],
    {
        "Schema": "Demo", 
        "Tabelle": "sbtest1",
        "Dialekt": "csv-unix",
        "skipRows": 0,
        "showProgress": Wahr,
        "Zeichensatz": "utf8mb4"
    })

Wie Sie sehen, dauert das Laden von Daten etwa 5 Minuten, während import_table weniger als die Hälfte der Zeit zum Abschließen des Datenimports benötigt, was mehr als doppelt so effizient ist (unter der Bedingung einer begrenzten Festplatten-E/A-Kapazität in der virtuellen Maschinenumgebung).

5. Technische Zusammenfassung

import_table beinhaltet fast alle Funktionen von Load Data
import_table import ist effizienter als Load Data
import_table unterstützt eine detaillierte Kontrolle über Importgeschwindigkeit, Parallelität und die Größe jeder importierten Datei.
Der Importfortschrittsbericht von import_table ist detaillierter, was für die Fehlerbehebung und Zeitschätzung praktisch ist, einschließlich
- Importgeschwindigkeit
- Gesamte Importzeit
- Die Menge der in jedem Stapel importierten Daten, ob Warnungen vorhanden sind usw.
- Importieren des abschließenden zusammenfassenden Berichts

Dies ist das Ende dieses Artikels über die Implementierung des MySQL import_table-Datenimports. Weitere relevante Inhalte zum MySQL import_table-Datenimport finden Sie in den vorherigen Artikeln von 123WORDPRESS.COM oder in den folgenden verwandten Artikeln. Ich hoffe, dass jeder 123WORDPRESS.COM in Zukunft unterstützen wird!

Das könnte Sie auch interessieren:

MySQL-Befehlszeile importiert SQL-Daten
MySQL-Datenbank-Import- und -Exportbefehle
Zusammenfassung der Lösungen für chinesische Zeichenverzerrungen beim Importieren und Exportieren von MySQL-Daten
So importieren und exportieren Sie Daten aus MySQL-Textdateien
So importieren Sie eine Datendateilösung im CSV-Format in MySQL
So importieren Sie SQL-Dateien in Linux (mithilfe der Befehlszeile zum Übertragen einer MySQL-Datenbank)
So importieren und exportieren Sie Datenbanken und Datentabellen in MySQL
Einführung in MySQL-Import- und -Exportdatenbanken, Funktionen und gespeicherte Prozeduren
MySQL-Big-Data-Import

<<: Lösung für das Problem der unvollständigen Anzeige des Inhalts der ausgewählten Dropdown-Box in HTML und der teilweisen Abdeckung

>>: Eine detaillierte Einführung in die Neugestaltung der Weibo-Komponente auf der Website (Bilder und Text)

Eine kurze Diskussion über die Optimierung von MySQL-Paging für Milliarden von Daten

Implementierung des MySQL Shell import_table-Datenimports

Inhaltsverzeichnis

1. Einführung in import_table

2. Beispiele für die Funktion „Daten laden“ und „Tabelle importieren“

2.1 Datenimport mit „Load Data“

2.2 Datenimport mit import_table

3. import_table-spezifische Funktionen

3.1 Mehrfachdateiimport (Fuzzy Matching)

3.2 Gleichzeitiger Import

3.3 Einfuhrmengenkontrolle

3.4 Benutzerdefinierte Blockgröße

4. Leistungsvergleich zwischen „Load Data“ und „import_table“

5. Technische Zusammenfassung

Eine kurze Diskussion über die Optimierung von MySQL-Paging für Milliarden von Daten

Implementierung der MySQL-Datendesensibilisierung (Telefonnummer, ID-Karte)

Grundlegendes Einführungstutorial zu MySQL-Partitionstabellen

So betreiben Sie eine MySQL-Datenbank mit dem ORM-Modell-Framework

Detaillierte Erklärung zur Verwendung des Befehls tcpdump zum Erfassen und Analysieren von Datenpaketen in Linux

Dateiupload über HTML5 auf Mobilgeräten

So installieren Sie den Elasticsearch7.6-Cluster im Docker und legen ein Kennwort fest

Analyse des Problems der Bereitstellung eines Vue-Projekts und der Konfiguration eines Proxys in Nginx

W3C Tutorial (4): W3C XHTML Aktivitäten

503 Dienst nicht verfügbar Fehlerlösungserklärung

Artikel empfehlen

Konfigurationshandbuch für den Lastenausgleich auf Ebene 4 von Nginx

Detaillierte Erläuterung der Apache-Website-Dienstkonfiguration basierend auf Linux

So implementieren Sie das Abfangen von URIs im Nginx-Standort

Detaillierte Erklärung zum Anzeigen und Festlegen von Dateiberechtigungen auf dem Mac

Verwendung des Linux-Dateibefehls

Ausnahmefehler beim Packen von Webpack-Dateien

Detaillierte Erklärung der Datenmengen von Docker-Containern

Detaillierte Erläuterung der neuen relationalen Datenbankfunktionen in MySQL 8.0

Lösungen für das Problem der Tabellenschachtelung und Rahmenzusammenführung

Allgemeine Datentypen in MySQL 5.7

Beispielcode für die Django+MySQL-Konfiguration und einfache Bedienung der Datenbank

Der Excel-Export schlägt in der Docker-Umgebung immer fehl

5 Gründe, warum sich Responsive Webdesign nicht lohnt

Beispielcode zur Implementierung der Google-Anmeldung über Drittanbieter in Vue

MySQL implementiert Protokollverwaltung, Sicherung und Wiederherstellung auf Unternehmensebene – praktisches Tutorial