So verwenden Sie eine Multi-Core-CPU, um Ihre Linux-Befehle zu beschleunigen (GNU Parallel)

Mussten Sie schon einmal sehr große Datenmengen (Hunderte von GB) verarbeiten? Oder darin suchen oder eine andere Operation durchführen – etwas, das nicht parallelisiert werden kann. Datenexperten, ich spreche mit Ihnen. Sie verfügen möglicherweise über eine CPU mit 4 oder mehr Kernen, aber unsere entsprechenden Tools wie grep, bzip2, wc, awk, sed usw. sind Single-Thread-Tools und können nur einen CPU-Kern verwenden.

Um die Zeichentrickfigur Cartman zu paraphrasieren: „Wie kann ich diese Kerne verwenden?“

Damit Linux-Befehle alle CPU-Kerne nutzen, müssen wir den GNU Parallel-Befehl verwenden, der es allen CPU-Kernen ermöglicht, magische Map-Reduce-Operationen in einer einzigen Maschine durchzuführen. Natürlich erfordert dies auch die Hilfe des selten verwendeten Parameters –pipes (auch –spreadstdin genannt). Auf diese Weise wird Ihre Last tatsächlich gleichmäßig auf die CPUs verteilt.

BZIP2

bzip2 ist ein besseres Komprimierungstool als gzip, aber es ist langsam! Keine Sorge, wir haben eine Möglichkeit, dieses Problem zu lösen.

Bisherige Praxis:

cat bigfile.bin | bzip2 --best > komprimierteDatei.bz2

Jetzt so:

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > komprimierte Datei.bz2

Insbesondere für bzip2 ist GNU Parallel auf Multi-Core-CPUs superschnell. Ehe man es weiß, ist es erledigt.

GREP

Wenn Sie eine sehr große Textdatei haben, haben Sie möglicherweise bereits Folgendes getan:

grep-Muster bigfile.txt

Jetzt können Sie Folgendes tun:

cat bigfile.txt | parallel --pipe grep 'Muster'

Oder so:

cat bigfile.txt | parallel --block 10M --pipe grep 'Muster'

Bei dieser zweiten Verwendung wird der Parameter --block 10M verwendet, was bedeutet, dass jeder Kern 10 Millionen Zeilen verarbeitet. Mit diesem Parameter können Sie anpassen, wie viele Datenzeilen von jedem CPU-Kern verarbeitet werden.

AWK

Unten sehen Sie ein Beispiel für die Verwendung des awk-Befehls zum Berechnen einer sehr großen Datendatei.

Allgemeine Verwendung:

Katze rands20M.txt | awk '{s+=$1} END {print s}'

Jetzt so:

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}'

Dies ist etwas kompliziert: Der Parameter --pipe im parallelen Befehl unterteilt die Cat-Ausgabe in mehrere Blöcke und leitet sie an den Awk-Aufruf weiter, wodurch viele Unterberechnungsvorgänge entstehen. Diese Unterberechnungen werden über eine zweite Pipeline in denselben awk-Befehl weitergeleitet, der das Endergebnis ausgibt. Das erste awk hat drei Backslashes, die von GNU parallel zum Aufruf von awk benötigt werden.

Möchten Sie die Anzahl der Zeilen in einer Datei so schnell wie möglich zählen?

Traditioneller Ansatz:

wc -l großeDatei.txt

Jetzt sollten Sie Folgendes haben:

cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}'

Sehr clever: Verwenden Sie zunächst den parallelen Befehl, um eine große Anzahl von wc -l-Aufrufen in Unterberechnungen zu „zuordnen“, und senden Sie sie schließlich zur Aggregation über die Pipe an awk.

SED

Möchten Sie den Befehl sed verwenden, um viele Ersetzungsvorgänge in einer großen Datei durchzuführen?

Konventionelle Praxis:

sed s^alt^neu^g bigfile.txt

Jetzt können Sie:

cat bigfile.txt | parallel --pipe sed s^alt^neu^g

… und dann können Sie die Pipe verwenden, um die Ausgabe in einer bestimmten Datei zu speichern.

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird.

Das könnte Sie auch interessieren:

15-minütiges paralleles Artefakt GNU Parallel Erste Schritte

<<: So installieren Sie die grüne Version von MySQL Community Server 5.7.16 und implementieren die Remote-Anmeldung

>>: Einfache Analyse von EffectList in React

Demo für 10-Farbverlaufshintergrund des CSS-Containers (linear-gradient())

Zusammenfassung der Konfigurationsmethoden für Linux-Umgebungsvariablen (Unterschiede zwischen .bash_profile und .bashrc)

Artikel

Benutzerdefinierte Docker-Netzwerkcontainer-Verbindung

So verwenden Sie eine Multi-Core-CPU, um Ihre Linux-Befehle zu beschleunigen (GNU Parallel)

Demo für 10-Farbverlaufshintergrund des CSS-Containers (linear-gradient())

Implementierung der Bindungskonfiguration für duale Netzwerkkarten im Linux-System

Beispiel für die Implementierung einer To-Do-Anwendung mit Vue

Zusammenfassung der Konfigurationsmethoden für Linux-Umgebungsvariablen (Unterschiede zwischen .bash_profile und .bashrc)

Benutzerdefinierte Docker-Netzwerkcontainer-Verbindung

So installieren Sie das Modul „lua-nginx-module“ in Nginx

So verwenden Sie CSS-Pseudoelemente, um den Stil mehrerer aufeinanderfolgender Elemente zu steuern

React Native realisiert den Auf- und Ab-Pull-Effekt der Überwachungsgeste

JavaScript-Tipps zur Verbesserung Ihrer Programmierkenntnisse

JavaScript zum Implementieren des Click-to-Switch-Bestätigungscodes und der Bestätigung

Artikel empfehlen

So öffnen Sie Port 8080 auf dem Alibaba Cloud ECS-Server

So verwalten Sie mehrere Projekte auf dem CentOS SVN-Server

Detaillierte Erklärung der Kodierungsprobleme bei MySQL-Befehlszeilenoperationen

Tutorial-Analyse zur Installation und Nutzung des Linux-Leistungsüberwachungstools nmon

Schnelle Implementierung der Schritte zur Bereitstellung von Docker-Images in Intellij IDEA

Detaillierte Erklärung der MySQL-Datenbank (basierend auf Ubuntu 14.0.4 LTS 64 Bit)

Detaillierte Erläuterung der Docker-Container-Cross-Host-Multi-Netzwerksegment-Kommunikationslösung

Beispiele für die Verwendung einer Link-Aktualisierungsseite und einer JS-Aktualisierungsseite

Benutzerdefiniertes Auswahlfeld für die Webseite Auswählen

Das Hintergrundbild der Tabelleneinstellung kann nicht zu 100 % angezeigt werden. Lösung

HTML-Zeichnungsbenutzer-Registrierungsseite

So setzen Sie Ihr Linux-Passwort zurück, wenn Sie es verloren haben

Docker-Installations- und Konfigurationsschritte für RabbitMQ

Detaillierte Erläuterung der Vue-Projektverpackung

Häufig gestellte Fragen zum Webinterview: Prinzipien und Unterschiede zwischen Reflow und Repaint