Java und Apache Spark: Ein einfaches Wortzähler-Programm
Entdecke, wie Apache Spark in Java Verwednung findet, um ein effizientes Wortzähler-Programm zu erstellen! Von der Projektsetup bis zur Ausführung – Schritt für Schritt erklärt. Tauche ein in die Welt der Big Data Verarbeitung mit diesem informativen Beitrag!
Einführung in Apache Spark
Apache Spark ist ein Open-Source-Datenverarbeitungsframework, das analytische Operationen auf Big Data in einer verteilten Umgebung durchführen kann. Ursprünglich als ein akademisches Projekt an der UC Berkeley, wurde es 2009 von Matei Zaharia im AMPLab der UC Berkeley ins Leben gerufen. Apache Spark wurde auf Basis eines Cluster-Management-Tools namens Mesos entwickelt und später modifiziert und aktualisiert, um in einer Cluster-basierten Umgebung mit verteilten Verarbeitungsaufgaben zu arbeiten.
Beispielprojekt-Setup
Für die Demonstration ist Maven nützlich, um ein Beispielprojekt zu erstellen. Führen Sie den folgenden Befehl in einem Verzeichnis aus, das Sie als Arbeitsbereich verwenden möchten:
mvn archetype:generate -DgroupId=com.journaldev.sparkdemo -DartifactId=JD-Spark-WordCount -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
Hinzufügen von Maven-Abhängigkeiten
Nachdem Erstellung des Projekts, fügen Sie die entsprechenden Maven-Abhängigkeiten hinzu. Hier ist die `pom.xml`-Datei mit den entsprechenden Abhängigkeiten.
org.apache.spark
spark-core_2.11
1.4.0
Erstellung eines Eingabedatei
Um ein Wortzähler-Programm zu erstellen, legen Sie eine Beispieleingabedatei mit dem Namen `input.txt` im Stammverzeichnis Ihres Projekts an. Verwenden Sie den folgenden Text oder Ihren eigenen:
Hallo, mein Name ist Max und ich bin Autor bei JournalDev. JournalDev ist eine großartige Website, um großartige Lektionen über Java, Big Data, Python und viele weitere Programmiersprachen zu lesen.
Big Data Lektionen sind schwer zu finden, aber bei JournalDev finden Sie einige ausgezeichnete Lektionen zu Big Data.
Fühlen Sie sich frei, beliebigen Text in dieser Datei zu verwenden.
Implementierung des Wortzählers
Jetzt sind wir bereit, unser Programm zu schreiben. Die Hauptlogik wird in der Methode `wordCount` liegen. Hier ist ein Überblick über die Struktur unserer Klasse:
package com.journaldev.sparkdemo;
...import statements...
public class WordCounter {
private static void wordCount(String fileName) {
// Logik hier
}
public static void main(String[] args) {
// Einstiegspunkt
}
}
Ausführung der Anwendung
Um die Anwendung auszuführen, gehen Sie ins Stammverzeichnis des Projekts und führen Sie den folgenden Befehl aus:
mvn exec:java -Dexec.mainClass=com.journaldev.sparkdemo.WordCounter -Dexec.args="input.txt"
Fazit
In diesem Beitrag haben wir gesehen, wie wir Apache Spark in einem Maven-basierten Projekt verwenden können, um ein einfaches, aber effektives Wortzähler-Programm zu erstellen. Weitere Informationen zu Big-Data-Tools und Verarbeitungsframeworks finden Sie in unsaeren anderen Beiträgen.