Java und Apache Spark: Ein einfaches Wortzähler-Programm

Entdecke, wie Apache Spark in Java genutzt wird, um ein effizientes Wortzähler-Programm zu erstellen! Von der Projektsetup bis zur Ausführung – Schritt für Schritt erklärt. Tauche ein in die Welt der Big Data Verarbeitung mit diesem informativen Beitrag!

Einführung in Apache Spark

Apache Spark ist ein Open-Source-Datenverarbeitungsframework, das analytische Operationen auf Big Data in einer verteilten Umgebung durchführen kann. Ursprünglich ein akademisches Projekt an der UC Berkeley, wurde es 2009 von Matei Zaharia im AMPLab der UC Berkeley ins Leben gerufen. Apache Spark wurde auf Basis eines Cluster-Management-Tools namens Mesos entwickelt und später modifiziert und aktualisiert, um in einer Cluster-basierten Umgebung mit verteilten Verarbeitungsaufgaben zu arbeiten.

Beispielprojekt-Setup

Für die Demonstration wird Maven verwendet, um ein Beispielprojekt zu erstellen. Führen Sie den folgenden Befehl in einem Verzeichnis aus, das Sie als Arbeitsbereich verwenden möchten:

 
mvn archetype:generate -DgroupId=com.journaldev.sparkdemo -DartifactId=JD-Spark-WordCount -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false

Hinzufügen von Maven-Abhängigkeiten

Nachdem das Projekt erstellt wurde, fügen Sie die entsprechenden Maven-Abhängigkeiten hinzu. Hier ist die `pom.xml`-Datei mit den entsprechenden Abhängigkeiten.

 

    
    
        org.apache.spark
        spark-core_2.11
        1.4.0
    
    

Erstellung eines Eingabedatei

Um ein Wortzähler-Programm zu erstellen, legen Sie eine Beispieleingabedatei mit dem Namen `input.txt` im Stammverzeichnis Ihres Projekts an. Verwenden Sie den folgenden Text oder Ihren eigenen:

 
Hallo, mein Name ist Max und ich bin Autor bei JournalDev. JournalDev ist eine großartige Website, um großartige Lektionen über Java, Big Data, Python und viele weitere Programmiersprachen zu lesen.

Big Data Lektionen sind schwer zu finden, aber bei JournalDev finden Sie einige ausgezeichnete Lektionen zu Big Data.
Fühlen Sie sich frei, beliebigen Text in dieser Datei zu verwenden.

Implementierung des Wortzählers

Jetzt sind wir bereit, unser Programm zu schreiben. Die Hauptlogik wird in der Methode `wordCount` liegen. Hier ist ein Überblick über die Struktur unserer Klasse:

 
package com.journaldev.sparkdemo;

...import statements...

public class WordCounter {

    private static void wordCount(String fileName) {
        // Logik hier
    }

    public static void main(String[] args) {
        // Einstiegspunkt
    }
}

Ausführung der Anwendung

Um die Anwendung auszuführen, gehen Sie ins Stammverzeichnis des Projekts und führen Sie den folgenden Befehl aus:

 
mvn exec:java -Dexec.mainClass=com.journaldev.sparkdemo.WordCounter -Dexec.args="input.txt"

Fazit

In diesem Beitrag haben wir gesehen, wie wir Apache Spark in einem Maven-basierten Projekt verwenden können, um ein einfaches, aber effektives Wortzähler-Programm zu erstellen. Weitere Informationen zu Big-Data-Tools und Verarbeitungsframeworks finden Sie in unsaeren anderen Beiträgen.

Kostenlosen Account erstellen

Registrieren Sie sich jetzt und erhalten Sie Zugang zu unseren Cloud Produkten.

Das könnte Sie auch interessieren:

centron Managed Cloud Hosting in Deutschland

JSP Exception Handling – Leitfaden

Apache
JSP Exception Handling – Tutorial Um Ausnahmen zu behandeln, die von der JSP-Seite geworfen werden, benötigen wir lediglich eine Fehlerseite und definieren die Fehlerseite in JSP mit der JSP-Seitendirektive. Content1…