Zusammenfassung der SQL-Deduplizierungsmethoden

Wenn wir SQL zum Extrahieren von Daten verwenden, stoßen wir häufig auf doppelte Werte in der Tabelle. Wenn wir beispielsweise UV (eindeutige Besucher) abrufen möchten, müssen wir Duplikate entfernen.

In MySQL wird normalerweise distinct oder group by verwendet, aber in SQLs, die Fensterfunktionen unterstützen (wie Hive SQL , Oracle usw.), kann zur Deduplizierung auch die Fensterfunktion ROW_NUMBER verwendet werden.

Beispielsweise gibt es eine Tabellenaufgabe wie diese:

Bemerkung:

task_id : Aufgaben-ID;
order_id : Bestell-ID;
start_time : Startzeit

Hinweis : Eine Aufgabe entspricht mehreren Aufträgen

Wir müssen die Gesamtzahl der Aufgaben ermitteln. Da die Task-ID nicht eindeutig ist, müssen wir Duplikate entfernen:

unterscheidbar

 -- Alle eindeutigen Werte der Task-ID auflisten (nach Deduplizierung)

Wählen Sie eine eindeutige Task-ID aus
von der Aufgabe;

--Gesamtzahl der Aufgaben, wählen Sie Anzahl (eindeutige Task-ID) Task-Nummer
von der Aufgabe;

distinct ist normalerweise weniger effizient. Es ist nicht zum Anzeigen bestimmter Werte nach der Deduplizierung geeignet und wird im Allgemeinen zusammen mit count verwendet, um die Anzahl der Einträge zu berechnen.
Wenn distinct verwendet wird, wird es nach select platziert, um die Werte aller nachfolgenden Felder zu deduplizieren. Wenn beispielsweise nach distinct zwei Felder folgen, handelt es sich bei den beiden Datensätzen 1,1 und 1,2 nicht um doppelte Werte.

Gruppieren nach

 -- Alle eindeutigen Werte der Task-ID auflisten (nach der Deduplizierung ist null auch ein Wert)
-- Task-ID auswählen
-- von Task
-- Gruppieren nach Task-ID;

--Gesamtzahl der Aufgaben, wählen Sie Anzahl (Aufgaben-ID) Aufgabennummer
von (Task-ID auswählen)
   von Aufgabe
   Gruppieren nach Task-ID) tmp;

Zeilennummer

row_number ist eine Fensterfunktion mit der folgenden Syntax:

row_number() over (partition by <用于分組的字段名> order by <用于組內排序的字段名>)
partition by kann entfallen.

 - Verwenden Sie select count(case when rn=1 then task_id else null end) task_num in SQL, das Fensterfunktionen unterstützt
von (Task-ID auswählen)
    , row_number() über (Partition nach Task-ID, Sortierung nach Startzeit) rn
  von Task) tmp;

Lassen Sie uns außerdem anhand eines Tabellentests die Verwendung von „distinct“ und „group by“ bei der Deduplizierung erklären:

 -- Das Semikolon unten wird verwendet, um Zeilen zu trennen. Wählen Sie eine eindeutige Benutzer-ID aus.
von Test; -- gibt 1; 2 zurück

Wählen Sie eindeutige Benutzer-ID und Benutzertyp aus
von Test; – gibt 1, 1; 1, 2; 2, 1 zurück

Wählen Sie Benutzer-ID aus
von Test
Gruppieren nach Benutzer-ID; -- gibt 1; 2 zurück

Wählen Sie Benutzer-ID und Benutzertyp aus.
von Test
Gruppieren nach Benutzer-ID, Benutzertyp; – gibt 1, 1; 1, 2; 2, 1 zurück

Wählen Sie Benutzer-ID und Benutzertyp aus.
von Test
Gruppieren nach Benutzer-ID; 
  -- Hive, Oracle usw. melden einen Fehler, aber MySQL kann so geschrieben werden.
– Gibt 1, 1 oder 1, 2; 2, 1 (insgesamt zwei Zeilen) zurück. Nur die Felder nach group by werden dedupliziert, d. h. die Anzahl der am Ende zurückgegebenen Datensätze entspricht der Anzahl der Datensätze in der vorherigen SQL-Anweisung, also 2 Datensätze. Für Felder, die nicht nach group by, sondern in select platziert werden, wird nur ein Datensatz zurückgegeben (normalerweise der erste, aber es sollte kein Muster vorhanden sein).

Dies ist das Ende dieses Artikels mit der Zusammenfassung der SQL-Deduplizierungsmethoden. Weitere relevante SQL-Deduplizierungsmethoden finden Sie in früheren Artikeln auf 123WORDPRESS.COM oder in den folgenden verwandten Artikeln. Ich hoffe, dass jeder 123WORDPRESS.COM in Zukunft unterstützen wird!

Das könnte Sie auch interessieren:

Zusammenfassung der drei Deduplizierungsmethoden in SQL
Detailliertes Beispiel zur Verwendung der distinct-Methode in MySQL
So optimieren Sie den MySQL-Deduplizierungsvorgang maximal
Eine einfache Methode zum Zusammenführen und Entfernen doppelter MySQL-Tabellen
MySQL-Deduplizierungsmethoden
Detaillierte Erklärung zweier Methoden zur Deduplizierung in MySQL und Beispielcode
SQL-Lernhinweise 5: So entfernen Sie Duplikate und weisen neu hinzugefügten Feldern Werte zu

<<: Teilen Sie 10 der neuesten Web-Frontend-Frameworks (Übersetzung)

>>: Beispielcode für reines CSS zum Erzielen eines Popup-Popup-Effekts beim Hovern von Bildern

Detaillierte Erläuterung von zwei Möglichkeiten zum dynamischen Ändern von CSS-Stilen in React

Zusammenfassung der SQL-Deduplizierungsmethoden

Detaillierte Erläuterung von zwei Möglichkeiten zum dynamischen Ändern von CSS-Stilen in React

So legen Sie eine Verzeichnis-Whitelist und eine IP-Whitelist in Nginx fest

Detaillierte Erklärung des Missverständnisses zwischen MySQL und Oracle

Universelle Lösung für den Fehler beim Starten von MySQL unter Windows

Native JS-Implementierung des Ladefortschrittsbalkens

Tipps zum Anzeigen von Verlaufsdatensätzen und Hinzufügen von Zeitstempeln in Linux

Vollständige Schritte zum Bereitstellen einer Front-End- und Back-End-getrennten Nginx-Konfiguration

Eine kurze Analyse der startReactApplication-Methode von React Native

Beschreibung des hr-Tags in verschiedenen Browsern

HTML+jQuery zur Implementierung einer einfachen Anmeldeseite

Artikel empfehlen

Analyse von Beispielen für gemeinsame Abfragevorgänge bei MySQL für mehrere Tabellen

Detaillierte Erklärung zur Verwendung des in Vue.js implementierten Kalender-Plugins

Absatzlayout und Zeilenumbrüche in HTML-Webseiten

10 Aspekte, die beim Entwurf und Aufbau einer umfangreichen Website-Architektur berücksichtigt werden müssen

Drei Scrolling-Effekte für die Benachrichtigungsleiste, implementiert mit reinem CSS

So richten Sie Spring Boot mithilfe der Docker-Schichtenverpackung ein

Detaillierte Erklärung zum Festlegen des Änderungswerts innerhalb einer bestimmten Zeit in Zabbix

Beispielcode, der gängige Grafikeffekte in CSS-Stilen zeigt

Eine "klassische" Falle der MySQL UPDATE-Anweisung

Beispiel für einen Vue-Übergang zum Erreichen eines Animationseffekts

Der gesamte Prozess der Implementierung des Zusammenfassungs-Popup-Fensters mit Vue+Element UI

W3C Tutorial (8): W3C XML Schema Aktivitäten

So konfigurieren Sie die bidirektionale Zertifikatsüberprüfung auf dem Nginx-Proxyserver

JS erzielt Fünf-Sterne-Lobeffekt

Beitrag zur Übermittlung von HTML-Daten_PowerNode Java Academy