Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

1. Datendeduplizierung

Bei der täglichen Arbeit kann es zu Datenduplizierung kommen, wenn Sie Hive oder Impala zum Abfragen und Exportieren verwenden, Sie die Abfrage aber nicht erneut ausführen möchten (die Abfragezeit ist etwas lang und der exportierte Dateiinhalt ist groß). Daher denken Sie darüber nach, Linux-Befehle zu verwenden, um doppelte Daten aus dem Dateiinhalt zu entfernen.

Nachfolgend sehen Sie ein Beispiel:

Sie können sehen, dass aaa.txx 3 doppelte Daten hat

Ich möchte die redundanten Daten entfernen und nur eine behalten

sortiere aaa.txt | uniq > bbb.txt

Entfernen Sie doppelte Daten aus der Datei aaa.txt und geben Sie sie in bbb.txt aus.

Sie können sehen, dass in der Datei bbb.txt nur ein Datenelement gespeichert ist

2. Datenschnittmenge, -vereinigung und -differenz

1) Schnittmenge (entspricht user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2) Union (entspricht user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3) Unterschied

Benutzer_2019.txt-Benutzer_2020.txt
sortieren user_2019.txt user_2020.txt user_2020.txt | uniq -u
Benutzer_2020.txt – Benutzer_2019.txt:
sortieren user_2020.txt user_2019.txt user_2019.txt | uniq -u

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird.

Das könnte Sie auch interessieren:

So erkennen Sie die Dateisystemintegrität basierend auf AIDE in Linux
Detaillierte Erläuterung der Befehle zum Lesen und Schreiben von Remotedateien mit Vim im Linux-System
Detaillierte Erläuterung verschiedener praktischer Verwendungen virtueller Gerätedateien im Linux-System
Lösung für die Eingabeaufforderung „Keine solche Datei oder kein solches Verzeichnis“ beim Ausführen ausführbarer Dateien unter Linux
So kopieren Sie schnell große Dateien unter Linux
Detaillierte Erläuterung des Problems, dass der Speicherplatz nach dem Löschen der Linux-Datei nicht freigegeben wird
Beispielanalyse von Linux-Dateiverwaltungsbefehlen [Anzeige, Ansicht, Statistiken usw.]

<<: Tiefgreifendes Verständnis langer MySQL-Transaktionen

>>: js zur Realisierung einer einfachen Scheibenuhr

Mehrere Möglichkeiten zur Implementierung der CSS-Höhenänderung mit Breitenverhältnis

Implementierung der Deduplizierung von Dateiinhalten sowie von Schnittmengen und Unterschieden in Linux

Mehrere Möglichkeiten zur Implementierung der CSS-Höhenänderung mit Breitenverhältnis

Grundlegende Implementierung der AOP-Programmierung in JavaScript

Detaillierte Schritte zur Installation und Konfiguration von MySQL 8.0 auf CentOS 7.4 64-Bit

Eine detaillierte Einführung in die CSS-Namensspezifikation BEM von QQtabBar

Praxis der Verwendung von Vite2+Vue3 zum Rendern von Markdown-Dokumenten

Detaillierte Erklärung von Prototypen und Prototypenketten in JavaScript

Der beste Weg, freigegebene Verzeichnisse beim Start von Ubuntu 16.04 unter Virtualbox automatisch zu mounten

Eine kurze Analyse des Zugriffs auf Windows 10-Hostordner von virtuellen CentOS 8-Maschinen aus

So ändern Sie die SSH-Portnummer in der Centos8-Umgebung

Der Unterschied zwischen Schlüssel und Index in MySQL

Artikel empfehlen

VMware Workstation 14 Pro installiert CentOS 7.0

Beispielcode des Vue-Symbolselektors

Mit dem Swiper.js-Plugin ist die Implementierung von Karussellbildern ganz einfach

Verschiedene Möglichkeiten zum Ändern der Hintergrundbildfarbe mit CSS3

Tomcat meldet einen Fehler beim Starten des Springboot-Projekt-War-Pakets: Fehler beim Starten des untergeordneten

So beheben Sie den MySQL-Fehler 10061

Detaillierte Erklärung und praktische Übungen zum Mysql-Tuning-Erklärtool (empfohlen)

Eine kurze Einführung in das Kommandozeilentool mycli zum Bedienen von MySQL-Datenbanken

CentOS7-Installations-Tutorial für Zabbix 4.0 (Abbildung und Text)

Mehrere Methoden zur Implementierung von Karussellbildern in JS

Initialisieren Sie Ubuntu 16.04 in drei Minuten und stellen Sie Java-, Maven- und Docker-Umgebungen bereit

Einstellen der Engine MyISAM/InnoDB beim Erstellen einer Datentabelle in MySQL

Redo-Dateiwartungsmethode der InnoDB-Engine

Lösung für das Vue-Routing: Diese Seite mit dem Sprung „this.route.push“ wird nicht aktualisiert

Beispielcode zum Konvertieren des Mysql-Abfrageergebnissatzes in JSON-Daten