Eine SQL-Anweisung schließt die MySQL-Deduplizierung ab und behält eine

Als ich vor einigen Tagen an einer Anforderung arbeitete, musste ich doppelte Datensätze in MySQL bereinigen. Damals dachte ich darüber nach, es durch Code-Traversierung auszuschreiben, aber dann fand ich es zu kompliziert und dachte, das Problem sollte durch eine SQL-Anweisung gelöst werden. Nachdem ich die Informationen überprüft und die Experten konsultiert hatte, kam ich auf eine sehr praktische SQL-Anweisung. Hier teile ich diese SQL-Anweisung und Ideen.

Bedarfsanalyse

Es gibt doppelte Datensätze in der Datenbank. Löschen Sie einen und behalten Sie einen (die Grundlage zur Bestimmung, ob es sich um einen Duplikat handelt, sind mehrere Felder).

Lösung

Als ich auf diese Anforderung stieß, hatte ich wahrscheinlich einige Ideen im Kopf. Das Erste, was mir in den Sinn kommt, ist, dass es mit einer SQL-Anweisung gelöst werden kann, aber ich habe nicht viel Erfahrung mit komplexen SQL-Anweisungen, deshalb möchte ich einen Experten um Hilfe bitten.

Finden Sie jemanden, der Ihnen hilft

Da diese Anforderung etwas dringend ist, dachte ich zuerst daran, einen Kollegen auf diesem Gebiet zu finden, der das Problem lösen kann, und dieses Problem dann mit meinem Kollegen zu teilen. Als Ergebnis hat dieser Typ einfach Baidu aufgerufen und mir eine SQL-Anweisung gegeben, die ich noch nie zuvor verwendet hatte, und mich gebeten, es selbst zu versuchen. Viele Dinge gingen mir durch den Kopf ...

Baidu

Eine SQL-Anweisung gefunden:

LÖSCHEN
AUS
 Vitamin A
WO
 (eine.Personen-ID, eine.Sequenz) IN (
  WÄHLEN
   Personen-ID,
   Folge
  AUS
   Lebenslauf
  GRUPPELN NACH
   Personen-ID,
   Folge
  HABEN
   Anzahl(*) > 1
 )
UND rowid NICHT IN (
 WÄHLEN
  min(Zeilen-ID)
 AUS
  Lebenslauf
 GRUPPELN NACH
  Personen-ID,
  Folge
 HABEN
  Anzahl(*) > 1
)

Diese Anweisung finden Sie im Artikel [Löschen Sie doppelte Daten in MySQL und behalten Sie nur einen]. Die Idee dieser SQL-Anweisung ist sehr klar und besteht aus drei Schritten:

SELECT peopleId, seq FROM vitae GROUP BY peopleId, seq HAVING count(*) > 1 um als Bedingung doppelte Datensätze in der Tabelle zu finden

SELECT min(rowid) FROM vitae GROUP BY peopleId, seq HAVING count(*) > 1 Abfrage des kleinsten ID-Wertes in den doppelten Datensätzen in der Tabelle als zweite Bedingung

Löschen Sie abschließend gemäß den beiden oben genannten Bedingungen die verbleibenden doppelten Datensätze mit Ausnahme der kleinsten ID in den doppelten Datensätzen

Leider ist beim Ausführen dieser Anweisung ein Fehler aufgetreten. Die allgemeine Bedeutung des Fehlers besteht darin, dass die Tabelle nicht gleichzeitig mit der Abfrage aktualisiert werden kann.

Code-Lösung

Basierend auf der obigen SQL-Anweisung ist es möglich, dasselbe Ziel in zwei Schritten durch Code zu erreichen:

Entfernen Sie zuerst die doppelten Datensätze

Entsprechend dem abgefragten Datensatz wird eine Schleife ausgeführt, um die verbleibenden doppelten Daten zu löschen

Ich hatte die Idee und schrieb sie schnell, aber ich war schockiert, als ich sie ausführte. Es dauerte ungefähr 116 Sekunden . Dann dachte ich, ich muss eine SQL-Anweisung finden, die verwendet werden kann. Ich habe den Code und die Ergebnisse der Ausführung gepostet:

Perfektes [Duplikate entfernen und einen behalten] SQL

Schließlich bekam ich in einer technischen Gruppe die perfekte Antwort. Sehen Sie sich diese SQL-Anweisung an:

Verbrauchsdatensatz löschen
AUS
 Verbrauchsdatensatz, 
 (
  WÄHLEN
   min(id)-ID,
   Benutzer-ID,
   monetär,
   verbrauchszeit
  AUS
   Verbrauchsdatensatz
  GRUPPELN NACH
   Benutzer-ID,
   monetär,
   verbrauchszeit
  HABEN
   Anzahl(*) > 1
 ) t2
WO
 consum_record.Benutzer-ID = t2.Benutzer-ID 
 und consum_record.monetary = t2.monetary
 und consum_record.consume_time = t2.consume_time
UND consum_record.id > t2.id;

Wenn Sie sich die obige SQL-Anweisung genau ansehen, ist es nicht schwer, die Idee zu verstehen. Sie kann in drei Schritten verstanden werden:

(SELECT min(id) id, user_id, monetary, consume_time FROM consum_record GROUP BY user_id, monetary, consume_time HAVING count(*) > 1 ) t2 (temporäre Tabelle t2), der die Mindest-ID jedes doppelten Datensatzes enthält

consum_record.user_id = t2.user_id and consum_record.monetary = t2.monetary and consum_record.consume_time = t2.consume_time sind die Felder, die zur Bestimmung der Duplizierungsbasis verwendet werden .

Löschen Sie gemäß den Bedingungen die Datensätze in der Originaltabelle, deren ID größer als die ID in t2 ist

Als ich diesen Satz sah, fand ich ihn erstaunlich. Eine so einfache SQL-Anweisung kann tatsächlich ein so komplexes Problem lösen. Das ist wirklich interessant!

Es läuft auch superschnell. Die Ausführung der ursprünglichen Codeschleife dauert etwa 116 Sekunden , aber hier dauert es nur 0,3 Sekunden . Erstaunlich~

Zusammenfassen

Als PHP-Programmierer ist es naheliegend, dass SQL nicht hinterherhinken sollte. In der Realität gibt es jedoch zu viele Dinge zu tun und mein aktuelles SQL-Niveau ist nur durchschnittlich. Ich werde in Zukunft eine Gelegenheit finden, mein Wissen in diesem Bereich zu verbessern.

Das ist alles für heute.

Das könnte Sie auch interessieren:

MySQL-Entwicklungskenntnisse: JOIN-Update und Datenduplikationsprüfung/Deduplizierung
Implementierungsanweisungen zur Duplikatsprüfung und Deduplizierung von MySQL-Daten
MySQL-Deduplizierungsmethoden
Eine kurze Diskussion zur Deduplizierung in SQL-Datenbanken
Ein kleines Beispiel für SQL-Gruppierung und -Sortierung zum Entfernen von Duplikaten
Detaillierte Erklärung zweier Methoden zur Deduplizierung in MySQL und Beispielcode
Eine praktische Anleitung zum Prüfen und Entfernen doppelter SQL-Befehle

<<: js implementiert eine einfache dreistufige Auswahlkaskade für Provinzen, Gemeinden und Bezirke

>>: Detaillierte Analyse, wann Tomcat das Antwortdatagramm zurückschreibt

js, um einen coolen Feuerwerkseffekt zu erzielen

Artikel

Detaillierte Erläuterung der Gründe und Lösungen für schwebende Elemente, die die Höhe ihrer übergeordneten Elemente reduzieren

Artikel

【Webdesign】Teilen Sie E-WebTemplates exquisite Vorlagen für ausländische Webseiten (FLASH + PSD-Quelldatei + HTML).

Lösung für die Fehlermeldung "java.sql.SQLException: Incorrect string value:'\xF0\x9F\x92\xA9\x0D\x0A...'" beim Speichern von Emoticons in MySQL

Vorwort Dieser Artikel stellt hauptsächlich die L...

Eine SQL-Anweisung schließt die MySQL-Deduplizierung ab und behält eine

js, um einen coolen Feuerwerkseffekt zu erzielen

Detaillierte Erläuterung der Gründe und Lösungen für schwebende Elemente, die die Höhe ihrer übergeordneten Elemente reduzieren

【Webdesign】Teilen Sie E-WebTemplates exquisite Vorlagen für ausländische Webseiten (FLASH + PSD-Quelldatei + HTML).

Detaillierte Erläuterung des Implementierungsprinzips von MySQL-Transaktionen und Spring-Isolationsebenen

Detaillierte Erläuterung des MySQL-Redo-Logs (Redo-Log) und des Rollback-Logs (Undo-Log)

So verwenden Sie die Positionierung, um Elemente zu zentrieren (Tipps zum Webseiten-Layout)

Der Unterschied zwischen Div und Tabelle in HTML (in allen Aspekten ausführlich besprochen)

Remote-Entwicklung mit VSCode und SSH

Vue3 erhält die aktuelle Routingadresse

Tutorial zur Installation des Nginx-RTMP-Streaming-Servers unter Ubuntu 14

Artikel empfehlen

Gogs+Jenkins+Docker automatisierte Bereitstellung von .NetCore-Schritten

So stellen Sie Gitlab mit Docker-Compose bereit

Die Fallstricke beim Erlernen von Vue.js

Detailliertes Tutorial zum Kompilieren und Installieren von mysql8.0.29 in der LNMP-Umgebung von CentOS8

So lassen sich Python-Skripte direkt unter Ubuntu ausführen

Implementierung von MySQL Multi-version Concurrency Control MVCC

Zusammenfassung der Methoden zur Änderung von MySQL-Passwörtern

Lösung für die Fehlermeldung "java.sql.SQLException: Incorrect string value:'\xF0\x9F\x92\xA9\x0D\x0A...'" beim Speichern von Emoticons in MySQL

Detailliertes Tutorial zur Installation der entpackten Version von mysql5.7.28 winx64 unter Windows

MySQL 8.0.20 Installations- und Konfigurations-Tutorial unter Docker

Beispielcode von Vue + Element UI zur Realisierung der Player-Funktion

CSS- und HTML- und Front-End-Technologie-Schichtendiagramm

Zeitzonenprobleme mit im Docker-Container bereitgestelltem Django

Tutorial zur Installation von JDK Tomcat MySQL unter Linux (Fernzugriff über Mac)

Grundlegende Verwendung und Beispiele von yum (empfohlen)