Anwendung von Hadoop-Zählern und Datenbereinigung

Datenbereinigung (ETL)

Vor dem Ausführen des MapReduce-Kernprogramms des Unternehmens müssen häufig zunächst die Daten bereinigt werden, um Daten zu entfernen, die nicht den Benutzeranforderungen entsprechen. Für den Bereinigungsvorgang ist häufig nur die Ausführung des Mapper-Programms und nicht des Reduce-Programms erforderlich.

1. brauchen

Entfernen Sie die Protokolle, deren Feldlänge kleiner oder gleich 11 ist.

(1) Eingabedaten

web.log

(2) Erwartete Produktionsdaten

Die Länge jedes Zeilenfeldes ist größer als 11

2. Bedarfsanalyse

Die Eingabedaten müssen gemäß den Regeln in der Map-Phase gefiltert und bereinigt werden.

3. Implementierungscode

(1) Schreiben Sie die LogMapper-Klasse

Paket com.atguigu.mapreduce.weblog;
importiere java.io.IOException;
importiere org.apache.hadoop.io.LongWritable;
importiere org.apache.hadoop.io.NullWritable;
importiere org.apache.hadoop.io.Text;
importiere org.apache.hadoop.mapreduce.Mapper;
öffentliche Klasse LogMapper erweitert Mapper<LongWritable, Text, Text, NullWritable>{
  Text k = neuer Text();
  @Überschreiben
  geschützte void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   // 1 1 Datenzeile abrufen String line = value.toString();
   // 2 Protokoll analysieren boolesches Ergebnis = parseLog(Zeile,Kontext);
   // 3 Das Log ist unzulässig und wird beendet, wenn (!result) {
     zurückkehren;
   }
   // 4 Taste setzen
   k.set(Zeile);
   // 5 Daten schreiben context.write(k, NullWritable.get());
  }
  // 2 Protokoll analysieren private boolean parseLog(String line, Context context) {
   // 1 Achsenabschnitt String[] Felder = line.split(" ");
   // 2 Protokolle mit einer Länge von mehr als 11 sind zulässig, wenn (Felder.Länge > 11) {
     // Systemzähler context.getCounter("map", "true").increment(1);
     gibt true zurück;
   }anders {
     Kontext.getCounter("map", "false").Inkrement(1);
     gibt false zurück;
   }
  }
}

(2) Schreiben Sie die LogDriver-Klasse

Paket com.atguigu.mapreduce.weblog;
importiere org.apache.hadoop.conf.Configuration;
importiere org.apache.hadoop.fs.Path;
importiere org.apache.hadoop.io.NullWritable;
importiere org.apache.hadoop.io.Text;
importiere org.apache.hadoop.mapreduce.Job;
importiere org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
importiere org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
öffentliche Klasse LogDriver {
  öffentliche statische void main(String[] args) wirft Exception {
// Die Eingabe- und Ausgabepfade müssen entsprechend den tatsächlichen Eingabe- und Ausgabepfaden auf Ihrem Computer eingestellt werden. args = new String[] { "e:/input/inputlog", "e:/output1" };
   // 1 Jobinformationen abrufen Configuration conf = new Configuration();
   Job job = Job.getInstance(conf);
   // 2 Laden Sie das JAR-Paket job.setJarByClass(LogDriver.class);
   // 3 zugehörige Karten
   job.setMapperClass(LogMapper.class);
   // 4 Legen Sie den endgültigen Ausgabetyp fest job.setOutputKeyClass(Text.class);
   : job.setOutputValueClass(NullWritable.class);
   // Setze die Anzahl der Reducetasks auf 0
   : Job.setNumReduceTasks(0);
   // 5 Eingabe- und Ausgabepfade festlegen FileInputFormat.setInputPaths(job, new Path(args[0]));
   FileOutputFormat.setOutputPath(job, neuer Pfad(args[1]));
   // 6 Job übermitteln.waitForCompletion(true);
  }
}

Zusammenfassen

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, dass der Inhalt dieses Artikels einen gewissen Lernwert für Ihr Studium oder Ihre Arbeit hat. Vielen Dank für Ihre Unterstützung von 123WORDPRESS.COM. Wenn Sie mehr darüber erfahren möchten, schauen Sie sich bitte die folgenden Links an

Das könnte Sie auch interessieren:

Hadoop NameNode-Föderation
Erläuterung der neuen Funktion von Hadoop 2.X, der Papierkorbfunktion
Ein praktisches Tutorial zum Erstellen einer vollständig verteilten Hadoop-Umgebung unter Ubuntu 16.4
Hadoop 2.x vs. 3.x 22-Punkte-Vergleich, Hadoop 3.x Verbesserungen gegenüber 2.x
So erstellen Sie eine Hadoop-Clusterumgebung mit Ubuntu Docker
Detaillierte Schritte zum Erstellen von Hadoop in CentOS
Beispielcode für die Wortzählung in Hadoop
Java/Web ruft Hadoop für MapReduce-Beispielcode auf
Erläuterung des Arbeitsmechanismus von Namenode und SecondaryNameNode in Hadoop

<<: Beispiel für die Verwendung von JSX zur Entwicklung einer Markup-Komponente (Front-End-Komponentenbildung)

>>: Detaillierte Erklärung zur Formatierung von Zahlen in MySQL

jQuery ermöglicht nahtloses Scrollen von Tabellen

Lösung für das Problem, dass nach dem Domänennamen zwei Schrägstriche // erscheinen, wenn nginx für den Domänennamenzugriff konfiguriert ist

Artikel

So optimieren Sie den MySQL-Deduplizierungsvorgang maximal

Artikel

Lösung für das Problem, dass die Konfigurationsdatei my.cnf in MySQL aufgrund von Berechtigungsproblemen nicht gestartet werden kann

Artikel

Einfache Prinzipien für die Gestaltung des Webseiten-Layouts

Anwendung von Hadoop-Zählern und Datenbereinigung

jQuery ermöglicht nahtloses Scrollen von Tabellen

Beispielcode zur Implementierung der Formularvalidierung mit reinem CSS

So verwenden Sie den Linux-Befehl whatis

Lösung für das Problem, dass nach dem Domänennamen zwei Schrägstriche // erscheinen, wenn nginx für den Domänennamenzugriff konfiguriert ist

So optimieren Sie den MySQL-Deduplizierungsvorgang maximal

Lösung für das Problem, dass die Konfigurationsdatei my.cnf in MySQL aufgrund von Berechtigungsproblemen nicht gestartet werden kann

Einfache Prinzipien für die Gestaltung des Webseiten-Layouts

Lösung für das Problem der Zeilenhöhe der Elementtabellenkopfzeile

So verteilen Sie mit CSS zwei Schaltflächen auf der linken und rechten Seite desselben übergeordneten Tags

So implementieren Sie Dual-Machine-Master und Backup mit Nginx+Keepalived

Artikel empfehlen

Textmodus im IE! Einführung in die Rolle von DOCTYPE

Detaillierte Erläuterung gängiger Methoden von JavaScript Array

Implementierungsprinzip und Codebeispiele für die Komprimierungsdatei des Linux-Befehls gzip

MySQL Serie 13 MySQL-Replikation

Linux: Fünf-Schritte-Kernel-Build-Baum

Lösen Sie das Problem, dass Sie sich bei der Installation von MySQL auf einem Mac mit Homebrew nicht anmelden können

Der Unterschied zwischen distinct und group by in MySQL

Vue implementiert einen einfachen Laufschrifteffekt

Detaillierte Erklärung des Prinzips des js-Proxys

Zusammenfassung und Beispiele der Kommunikationsmethoden für Vue3-Komponenten

So entfernen Sie das blaue Kästchen, das angezeigt wird, wenn das Bild als Hyperlink verwendet wird

Docker stop stoppt/remove löscht alle Container

So installieren Sie Composer unter Linux

Detaillierte Erläuterung der Berechnungsmethode von Flex-Grow und Flex-Shrink im Flex-Layout

HTML-Formular-Tag-Tutorial (5): Textfeld-Tag