Ausführen großer Sprachmodelle lokal mit Ollama

Ollama ist eine Open-Source-Lösung, mit der Benutzer große Sprachmodelle (LLMs) direkt auf ihrem eigenen Computer ausführen können. Die Plattform unterstützt verschiedene Open-Source-LLMs wie Llama 3, DeepSeek R1, Mistral, Phi-4 und Gemma 2 und ermöglicht den Betrieb dieser Modelle ohne Internetverbindung. Dies verbessert die Sicherheit, schützt die Privatsphäre und bietet vollständige Kontrolle über die Anpassung und Optimierung der Modellleistung.

Wichtige Funktionen von Ollama

Ollama verfügt über ein integriertes Modell-Repository, das es ermöglicht, LLMs zu suchen, herunterzuladen und lokal auszuführen. Zudem unterstützt es OpenWebUI, eine grafische Benutzeroberfläche für diejenigen, die nicht mit der Befehlszeile arbeiten möchten. Ollama ist mit Linux, Windows und macOS kompatibel und benötigt keine cloudbasierten APIs für den Betrieb.

Ollama installieren und LLMs ausführen

Diese Anleitung beschreibt die Schritte zur Installation von Ollama sowie zur Konfiguration großer Sprachmodelle (LLMs) mit allen erforderlichen Abhängigkeiten auf einem lokalen Computer.

Ollama herunterladen und installieren

Ollama ist für Linux, macOS und Windows verfügbar und kann über das offizielle Installationspaket oder Skript eingerichtet werden. Folgen Sie den untenstehenden Schritten, um die neueste Version auf Ihrem System zu installieren.

Schritt 1: Terminal öffnen

Starten Sie eine neue Terminal-Sitzung auf Ihrem System.

Schritt 2: Ollama auf Linux installieren

Um Ollama auf Linux herunterzuladen und zu installieren, führen Sie den folgenden Befehl aus:

$ curl -fsSL https://ollama.com/install.sh | sh

Schritt 3: Installation überprüfen

Nach der Installation können Sie die erfolgreiche Einrichtung von Ollama durch die Versionsprüfung bestätigen:

Erwartete Ausgabe:

Schritt 4: Verfügbare Modelle auflisten

Um eine Liste aller auf Ihrem Rechner gespeicherten Modelle anzuzeigen, verwenden Sie:

Verwaltung von Ollama als Systemdienst unter Linux

Nach der Installation auf einem Linux-System erstellt Ollama einen Systemdienst namens ollama.service, um seine Ausführung zu steuern. Folgen Sie diesen Schritten, um den Status des Dienstes zu überprüfen und ihn für den automatischen Start beim Booten zu konfigurieren.

Ollama-Dienststatus überprüfen

Um sicherzustellen, dass Ollama aktiv ist, führen Sie folgenden Befehl aus:

$ sudo systemctl status ollama

Erwartete Ausgabe:

● ollama.service - Ollama Service
    Loaded: loaded (/etc/systemd/system/ollama.service; enabled; preset: enabled)
    Active: active (running) since Wed 2025-02-26 13:33:41 UTC; 5min ago
Main PID: 27138 (ollama)
    Tasks: 6 (limit: 2269)
    Memory: 32.2M (peak: 32.7M)
        CPU: 63ms
    CGroup: /system.slice/ollama.service
            └─27138 /usr/local/bin/ollama serve

Ollama für den automatischen Start aktivieren

Um sicherzustellen, dass Ollama bei jedem Systemstart automatisch ausgeführt wird, verwenden Sie diesen Befehl:

$ sudo systemctl enable ollama

Ollama-Dienst neu starten

Falls nötig, kann der Ollama-Dienst mit folgendem Befehl neu gestartet werden:

$ sudo systemctl restart ollama

Optional: AMD-GPU ROCm-Treiber für Ollama installieren

Für Systeme mit AMD-Grafikprozessoren kann eine spezielle Version von Ollama mit ROCm-Unterstützung heruntergeladen und installiert werden:

$ curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz
$ sudo tar -C /usr/ -xzf ollama-linux-amd64-rocm.tgz

Ollama auf macOS installieren

Folgen Sie diesen Schritten, um Ollama auf einem Mac zu installieren:

  1. Rufen Sie die offizielle Ollama-Website auf.
  2. Klicken Sie auf „Download“ und wählen Sie das neueste macOS-Paket aus.
  3. Entpacken Sie die heruntergeladene .zip-Datei.
  4. Verschieben Sie Ollama.app in den Ordner Programme.

Installation überprüfen

Um sicherzustellen, dass Ollama erfolgreich installiert wurde, öffnen Sie das Terminal und führen Sie folgende Befehle aus:

$ ollama -v
$ ollama list
$ ollama serve

Ollama auf Windows installieren

Um Ollama auf einem Windows-Rechner zu installieren, folgen Sie diesen Schritten:

  1. Öffnen Sie die offizielle Ollama-Website.
  2. Laden Sie die neueste Version der .exe-Installationsdatei herunter.
  3. Führen Sie die Installationsdatei aus und klicken Sie auf „Installieren“, um die Einrichtung abzuschließen.

Installation überprüfen

Nach der Installation starten Sie Windows PowerShell und geben die folgenden Befehle ein:

> ollama -v
> ollama list
> ollama serve

Herunterladen großer Sprachmodelle (LLMs) mit Ollama

Mit dem Befehl ollama pull können Benutzer Modelle aus dem Ollama-Repository abrufen. Befolgen Sie die folgenden Schritte, um Modelle herunterzuladen und lokal auszuführen.

Schritt 1: Ein Modell abrufen

Verwenden Sie den folgenden Befehl, um ein Modell aus dem Ollama-Repository herunterzuladen:

Beispiel: Mistral herunterladen

Um das Mistral-Modell herunterzuladen, führen Sie folgenden Befehl aus:

Beispiel: DeepSeek-R1 mit 1,5B Parametern abrufen

Um das DeepSeek-R1-Distill-Qwen-Modell zu laden, verwenden Sie:

$ ollama pull deepseek-r1:1.5b

Beispiel: Llama 3.3 herunterladen

Das Modell Llama 3.3 ist etwa 40 GB groß. Stellen Sie sicher, dass ausreichend Speicherplatz verfügbar ist, bevor Sie fortfahren:

Schritt 2: Heruntergeladene Modelle überprüfen

Führen Sie den folgenden Befehl aus, um alle lokal gespeicherten Modelle anzuzeigen:

Beispielausgabe:

NAME                ID              SIZE      MODIFIED
llama3.3:latest     a6eb4748fd29    42 GB     21 seconds ago
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    4 minutes ago
mistral:latest      f974a74358d6    4.1 GB    26 minutes ago

Ollama zur Ausführung von KI-Modellen nutzen

Mit Ollama können Benutzer große Sprachmodelle direkt aus dem Repository abrufen, ausführen und initialisieren oder bereits lokal gespeicherte Modelle nutzen. Vor dem Start eines Modells sollte sichergestellt werden, dass das System die erforderlichen Hardwarevoraussetzungen erfüllt. Folgen Sie den unten aufgeführten Schritten, um Modelle zu testen und ihre Leistung auf Ihrem Rechner zu analysieren.

Schritt 1: Verfügbare Modelle auflisten

Prüfen Sie, welche Modelle bereits auf Ihrem System installiert sind, indem Sie folgenden Befehl ausführen:

Schritt 2: Ein Modell ausführen

Um ein Modell zu starten, verwenden Sie den Befehl ollama run. Zum Beispiel, um das Qwen 2.5 Instruct-Modell mit 1,5 Milliarden Parametern zu starten:

Schritt 3: Eine Eingabeaufforderung bereitstellen

Nach dem Start des Modells kann eine Eingabeaufforderung eingegeben werden.

Schritt 4: Das Modell verlassen

Um Ollama zu beenden, geben Sie folgenden Befehl ein:

Ein anderes Modell ausführen

Es ist auch möglich, ein bereits auf dem Computer gespeichertes Modell auszuführen. Falls Sie beispielsweise das DeepSeek R1-Modell bereits heruntergeladen haben, können Sie es mit folgendem Befehl starten:

$ ollama run deepseek-r1:1.5b

Schritt 6: Eine Eingabeaufforderung senden

Zum Testen kann eine mathematische Anfrage gestellt werden, zum Beispiel:

Eingabe: Generieren Sie eine Beschreibung eines rekursiven Fraktalmusters mit ausschließlich mathematischen Notationen und symbolischer Logik.

Schritt 7: Die Modellantwort beobachten

Das KI-Modell verarbeitet die Anfrage und gibt eine strukturierte mathematische Beschreibung aus.

Okay, ich muss ein rekursives Fraktalmuster erstellen, das ausschließlich mathematische Notationen und Symbole verwendet. Das ist eine interessante Herausforderung. Ich überlege, wie Fraktale mathematisch dargestellt werden können...
...................................

Schritt 8: Ollama beenden

Um die Sitzung zu schließen, geben Sie folgenden Befehl ein:

Warum Ollama zur Ausführung von KI-Modellen nutzen?

Jedes Modell hat spezifische Stärken und ist für unterschiedliche Aufgaben optimiert. Die lokale Ausführung von Modellen mit Ollama ermöglicht es Benutzern, deren Effizienz und Leistungsfähigkeit direkt zu testen. Mit dem Befehl ollama run können gespeicherte Modelle sofort ausgeführt werden, während ollama pull die neuesten Versionen aus dem offiziellen Ollama-Repository herunterlädt.

Modelle mit Ollama verwalten

Der Umgang mit mehreren großen Sprachmodellen (LLMs) auf einem System erfordert eine strukturierte Verwaltung. Ollama bietet Befehle zum Auflisten, Anzeigen, Stoppen und Entfernen von Modellen. Folgen Sie den unten stehenden Schritten, um Modelle effizient zu verwalten.

Schritt 1: Verfügbare Modelle auflisten

Um eine Liste aller gespeicherten Modelle auf Ihrem System anzuzeigen, führen Sie folgenden Befehl aus:

Schritt 2: Modelldetails anzeigen

Um detaillierte Informationen zu einem bestimmten Modell, z. B. Llama 3.3, anzuzeigen, nutzen Sie:

Erwartete Ausgabe:

 Model
   architecture        llama
   parameters          70.6B
   context length      131072
   embedding length    8192
   quantization        Q4_K_M

 Parameters
   stop    "<|start_header_id|>"
   stop    "<|end_header_id|>"
   stop    "<|eot_id|>"

 License
   LLAMA 3.3 COMMUNITY LICENSE AGREEMENT
   Llama 3.3 Version Release Date: December 6, 2024

Schritt 3: Ein laufendes Modell stoppen

Falls ein Modell aktiv ausgeführt wird, kann es mit folgendem Befehl gestoppt werden:

$ ollama stop [model-name]

Beispiel: Stoppen des DeepSeek R1-Modells:

$ ollama stop deepseek-r1:1.5b

Schritt 4: Ein nicht benötigtes Modell entfernen

Um ein Modell aus dem System zu löschen, führen Sie folgenden Befehl aus:

Erwartete Ausgabe:

Ollama-Umgebungsvariablen konfigurieren

Ollama bietet verschiedene Umgebungsvariablen zur Anpassung der Anwendung und zur Leistungsoptimierung. Hier sind einige häufig verwendete Variablen:

  • OLLAMA_HOST: Legt die Serveradresse für Ollama fest.
  • OLLAMA_GPU_OVERHEAD: Reserviert VRAM für GPU-Prozesse.
  • OLLAMA_MODELS: Gibt ein benutzerdefiniertes Verzeichnis für Modelldateien an.
  • OLLAMA_KEEP_ALIVE: Steuert, wie lange Modelle im Speicher verbleiben.
  • OLLAMA_DEBUG: Aktiviert Debugging-Informationen.
  • OLLAMA_FLASH_ATTENTION: Ermöglicht Optimierungen für neuronale Aufmerksamkeitsmechanismen.
  • OLLAMA_NOHISTORY: Deaktiviert die Verlaufsaufzeichnung während der Modellausführung.
  • OLLAMA_NOPRUNE: Verhindert das Entfernen von Modelldateien beim Systemstart.
  • OLLAMA_ORIGINS: Definiert Zugriffsrechte für entfernte Verbindungen.

Ollama-Variablen unter Linux konfigurieren

Um Umgebungsvariablen für Ollama unter Linux festzulegen, folgen Sie diesen Schritten:

Schritt 1: Dienstdatei öffnen

Öffnen Sie die Ollama-Dienstdatei mit folgendem Befehl:

$ sudo vim /etc/systemd/system/ollama.service

Schritt 2: Umgebungsvariablen hinzufügen

Fügen Sie die folgenden Zeilen in den [Service]-Abschnitt ein:

[Service]
Environment="OLLAMA_DEBUG=1"
Environment="OLLAMA_HOST=0.0.0.0:11434"

Schritt 3: Änderungen anwenden

Um die Konfigurationsänderungen zu übernehmen, führen Sie folgende Befehle aus:

$ sudo systemctl daemon-reload
$ sudo systemctl restart ollama

Ollama-Variablen unter macOS konfigurieren

Um Umgebungsvariablen unter macOS zu setzen, verwenden Sie folgende Befehle:

$ launchctl setenv OLLAMA_HOST "0.0.0.0"
$ ollama serve

Ollama-Variablen unter Windows konfigurieren

Um Ollama-Variablen unter Windows zu konfigurieren, folgen Sie diesen Schritten:

  1. Öffnen Sie das Windows-Suchmenü und suchen Sie nach „Umgebungsvariablen“.
  2. Wählen Sie „Systemvariablen bearbeiten“ aus.
  3. Klicken Sie auf „Umgebungsvariablen“.
  4. Klicken Sie auf „Neu“, um eine neue Variable zu erstellen.
  5. Geben Sie den Variablennamen und den zugehörigen Wert ein.
  6. Klicken Sie auf „OK“, um die Einstellungen zu speichern.
  7. Klicken Sie auf „Übernehmen“, um die Änderungen zu bestätigen.

Fazit

Sie haben Ollama erfolgreich installiert und konfiguriert, um große Sprachmodelle lokal auszuführen. Egal ob auf einem lokalen Rechner oder einem entfernten Server, Ollama bietet eine leistungsstarke Lösung. Nutzen Sie Umgebungsvariablen zur Leistungsoptimierung und ermöglichen Sie den Fernzugriff. Weitere Informationen finden Sie im offiziellen GitHub-Repository von Ollama.

Quelle: vultr.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

VeraCrypt unter Ubuntu 24.04 installieren & nutzen

Security, Tutorial
VeraCrypt unter Ubuntu 24.04 installieren – Schritt-für-Schritt-Anleitung VeraCrypt ist eine kostenlose Open-Source-Verschlüsselungslösung, mit der sich vertrauliche Daten wie Dateien, Ordner und ganze Laufwerke absichern lassen. Um diese leistungsstarke Sicherheitssoftware optimal…