1. Datendeduplizierung Bei der täglichen Arbeit kann es zu Datenduplizierung kommen, wenn Sie Hive oder Impala zum Abfragen und Exportieren verwenden, Sie die Abfrage aber nicht erneut ausführen möchten (die Abfragezeit ist etwas lang und der exportierte Dateiinhalt ist groß). Daher denken Sie darüber nach, Linux-Befehle zu verwenden, um doppelte Daten aus dem Dateiinhalt zu entfernen. Nachfolgend sehen Sie ein Beispiel: Sie können sehen, dass aaa.txx 3 doppelte Daten hat Ich möchte die redundanten Daten entfernen und nur eine behalten sortiere aaa.txt | uniq > bbb.txt Entfernen Sie doppelte Daten aus der Datei aaa.txt und geben Sie sie in bbb.txt aus. Sie können sehen, dass in der Datei bbb.txt nur ein Datenelement gespeichert ist 2. Datenschnittmenge, -vereinigung und -differenz 1) Schnittmenge (entspricht user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no) 2) Union (entspricht user_2019.user_no union user_2020.user_no) 3) Unterschied
Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, er wird für jedermanns Studium hilfreich sein. Ich hoffe auch, dass jeder 123WORDPRESS.COM unterstützen wird. Das könnte Sie auch interessieren:
|
<<: Tiefgreifendes Verständnis langer MySQL-Transaktionen
>>: js zur Realisierung einer einfachen Scheibenuhr
Übersicht zur Netzwerkkommunikation Bei der Entwi...
1. Nutzung auf höchster Ebene 1. Installieren Sie...
1. 1 Spalte ändern Update Student S, Stadt C setz...
Mixins bieten eine sehr flexible Möglichkeit, wie...
Dieser Artikel stellt den Implementierungscode vo...
In diesem Artikel wird das Deep-Learning-Framewor...
Inhaltsverzeichnis 1. Laden Sie die MySQL-MSI-Ver...
Ein während des Entwicklungsprozesses häufig auft...
undefined Wenn wir in JavaScript feststellen möch...
https://docs.microsoft.com/en-us/windows/wsl/wsl-...
Dieser Artikel stellt einige häufig verwendete Fu...
MySQL-Versionen werden in Enterprise Edition und ...
Hintergrund Das Agile-Modell wird häufig verwende...
Heute stelle ich zwei HTML-Tags vor, die ich nich...
Die Standard-SSH-Portnummer von Linux-Servern ist...