Content

Vijona

16. Dezember 2024

Java und Apache Spark: Ein einfaches Wortzähler-Programm

Entdecke, wie Apache Spark in Java Verwednung findet, um ein effizientes Wortzähler-Programm zu erstellen! Von der Projektsetup bis zur Ausführung – Schritt für Schritt erklärt. Tauche ein in die Welt der Big Data Verarbeitung mit diesem informativen Beitrag!

Einführung in Apache Spark

Apache Spark ist ein Open-Source-Datenverarbeitungsframework, das analytische Operationen auf Big Data in einer verteilten Umgebung durchführen kann. Ursprünglich als ein akademisches Projekt an der UC Berkeley, wurde es 2009 von Matei Zaharia im AMPLab der UC Berkeley ins Leben gerufen. Apache Spark wurde auf Basis eines Cluster-Management-Tools namens Mesos entwickelt und später modifiziert und aktualisiert, um in einer Cluster-basierten Umgebung mit verteilten Verarbeitungsaufgaben zu arbeiten.

Beispielprojekt-Setup

Für die Demonstration ist Maven nützlich, um ein Beispielprojekt zu erstellen. Führen Sie den folgenden Befehl in einem Verzeichnis aus, das Sie als Arbeitsbereich verwenden möchten:

Copy Code

mvn archetype:generate -DgroupId=com.journaldev.sparkdemo -DartifactId=JD-Spark-WordCount -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false

Hinzufügen von Maven-Abhängigkeiten

Nachdem Erstellung des Projekts, fügen Sie die entsprechenden Maven-Abhängigkeiten hinzu. Hier ist die `pom.xml`-Datei mit den entsprechenden Abhängigkeiten.

Copy Code

org.apache.spark spark-core_2.11 1.4.0

Erstellung eines Eingabedatei

Um ein Wortzähler-Programm zu erstellen, legen Sie eine Beispieleingabedatei mit dem Namen `input.txt` im Stammverzeichnis Ihres Projekts an. Verwenden Sie den folgenden Text oder Ihren eigenen:

Copy Code

Hallo, mein Name ist Max und ich bin Autor bei JournalDev. JournalDev ist eine großartige Website, um großartige Lektionen über Java, Big Data, Python und viele weitere Programmiersprachen zu lesen. Big Data Lektionen sind schwer zu finden, aber bei JournalDev finden Sie einige ausgezeichnete Lektionen zu Big Data. Fühlen Sie sich frei, beliebigen Text in dieser Datei zu verwenden.

Implementierung des Wortzählers

Jetzt sind wir bereit, unser Programm zu schreiben. Die Hauptlogik wird in der Methode `wordCount` liegen. Hier ist ein Überblick über die Struktur unserer Klasse:

Copy Code


 
package com.journaldev.sparkdemo;

...import statements...

public class WordCounter {

    private static void wordCount(String fileName) {
        // Logik hier
    }

    public static void main(String[] args) {
        // Einstiegspunkt
    }
}

Ausführung der Anwendung

Um die Anwendung auszuführen, gehen Sie ins Stammverzeichnis des Projekts und führen Sie den folgenden Befehl aus:

Copy Code

mvn exec:java -Dexec.mainClass=com.journaldev.sparkdemo.WordCounter -Dexec.args="input.txt"

Fazit

In diesem Beitrag haben wir gesehen, wie wir Apache Spark in einem Maven-basierten Projekt verwenden können, um ein einfaches, aber effektives Wortzähler-Programm zu erstellen. Weitere Informationen zu Big-Data-Tools und Verarbeitungsframeworks finden Sie in unsaeren anderen Beiträgen.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Apache ActiveMQ auf CentOS 7 installieren – Anleitung & Tipps

Apache, Tutorial

vor 3 Monaten

Apache ActiveMQ unter CentOS 7 installieren Apache ActiveMQ ist eine weit verbreitete, quelloffene Plattform zur Nachrichtenübermittlung und Systemintegration in Unternehmensanwendungen. In dieser Anleitung wird erläutert, wie die Binärdistribution von Apache…

Apache Zeppelin auf CentOS 7 installieren und absichern

Apache, Tutorial

vor 4 Monaten

Apache Zeppelin Installationsanleitung für CentOS 7 Apache Zeppelin ist ein webbasiertes, quelloffenes Notebook-Tool für interaktive Datenverarbeitung – darunter Datenaufnahme, Analyse, Auswertung und Visualisierung. Es unterstützt mehr als 20 Programmiersprachen, darunter…

Apache Subversion (SVN) auf Ubuntu 20.04 installieren

Apache, Tutorial

vor 5 Monaten

Apache Subversion (SVN) unter Ubuntu 20.04 installieren Apache Subversion (SVN) ist ein Open-Source-Versionskontrollsystem, das unter der Apache-Lizenz bereitgestellt wird. Entwickler verwenden SVN häufig, um Änderungen an Quellcode und Dateien…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Java und Apache Spark: Ein einfaches Wortzähler-Programm

Einführung in Apache Spark

Beispielprojekt-Setup

Hinzufügen von Maven-Abhängigkeiten

Erstellung eines Eingabedatei

Implementierung des Wortzählers

Ausführung der Anwendung

Fazit

Bleiben Sie auf dem Laufenden!

Haben Sie noch Fragen?

Jetzt 200€ Guthaben sichern

Das könnte Sie auch interessieren:

Apache ActiveMQ auf CentOS 7 installieren – Anleitung & Tipps

Apache Zeppelin auf CentOS 7 installieren und absichern