Ausführen großer Sprachmodelle lokal mit Ollama
Ollama ist eine Open-Source-Lösung, mit der Benutzer große Sprachmodelle (LLMs) direkt auf ihrem eigenen Computer ausführen können. Die Plattform unterstützt verschiedene Open-Source-LLMs wie Llama 3, DeepSeek R1, Mistral, Phi-4 und Gemma 2 und ermöglicht den Betrieb dieser Modelle ohne Internetverbindung. Dies verbessert die Sicherheit, schützt die Privatsphäre und bietet vollständige Kontrolle über die Anpassung und Optimierung der Modellleistung.
Wichtige Funktionen von Ollama
Ollama verfügt über ein integriertes Modell-Repository, das es ermöglicht, LLMs zu suchen, herunterzuladen und lokal auszuführen. Zudem unterstützt es OpenWebUI, eine grafische Benutzeroberfläche für diejenigen, die nicht mit der Befehlszeile arbeiten möchten. Ollama ist mit Linux, Windows und macOS kompatibel und benötigt keine cloudbasierten APIs für den Betrieb.
Ollama installieren und LLMs ausführen
Diese Anleitung beschreibt die Schritte zur Installation von Ollama sowie zur Konfiguration großer Sprachmodelle (LLMs) mit allen erforderlichen Abhängigkeiten auf einem lokalen Computer.
Ollama herunterladen und installieren
Ollama ist für Linux, macOS und Windows verfügbar und kann über das offizielle Installationspaket oder Skript eingerichtet werden. Folgen Sie den untenstehenden Schritten, um die neueste Version auf Ihrem System zu installieren.
Schritt 1: Terminal öffnen
Starten Sie eine neue Terminal-Sitzung auf Ihrem System.
Schritt 2: Ollama auf Linux installieren
Um Ollama auf Linux herunterzuladen und zu installieren, führen Sie den folgenden Befehl aus:
$ curl -fsSL https://ollama.com/install.sh | sh
Schritt 3: Installation überprüfen
Nach der Installation können Sie die erfolgreiche Einrichtung von Ollama durch die Versionsprüfung bestätigen:
$ ollama -v
Erwartete Ausgabe:
ollama version is 0.5.12
Schritt 4: Verfügbare Modelle auflisten
Um eine Liste aller auf Ihrem Rechner gespeicherten Modelle anzuzeigen, verwenden Sie:
$ ollama list
Verwaltung von Ollama als Systemdienst unter Linux
Nach der Installation auf einem Linux-System erstellt Ollama einen Systemdienst namens ollama.service
, um seine Ausführung zu steuern. Folgen Sie diesen Schritten, um den Status des Dienstes zu überprüfen und ihn für den automatischen Start beim Booten zu konfigurieren.
Ollama-Dienststatus überprüfen
Um sicherzustellen, dass Ollama aktiv ist, führen Sie folgenden Befehl aus:
$ sudo systemctl status ollama
Erwartete Ausgabe:
● ollama.service - Ollama Service
Loaded: loaded (/etc/systemd/system/ollama.service; enabled; preset: enabled)
Active: active (running) since Wed 2025-02-26 13:33:41 UTC; 5min ago
Main PID: 27138 (ollama)
Tasks: 6 (limit: 2269)
Memory: 32.2M (peak: 32.7M)
CPU: 63ms
CGroup: /system.slice/ollama.service
└─27138 /usr/local/bin/ollama serve
Ollama für den automatischen Start aktivieren
Um sicherzustellen, dass Ollama bei jedem Systemstart automatisch ausgeführt wird, verwenden Sie diesen Befehl:
$ sudo systemctl enable ollama
Ollama-Dienst neu starten
Falls nötig, kann der Ollama-Dienst mit folgendem Befehl neu gestartet werden:
$ sudo systemctl restart ollama
Optional: AMD-GPU ROCm-Treiber für Ollama installieren
Für Systeme mit AMD-Grafikprozessoren kann eine spezielle Version von Ollama mit ROCm-Unterstützung heruntergeladen und installiert werden:
$ curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz
$ sudo tar -C /usr/ -xzf ollama-linux-amd64-rocm.tgz
Ollama auf macOS installieren
Folgen Sie diesen Schritten, um Ollama auf einem Mac zu installieren:
- Rufen Sie die offizielle Ollama-Website auf.
- Klicken Sie auf „Download“ und wählen Sie das neueste macOS-Paket aus.
- Entpacken Sie die heruntergeladene
.zip
-Datei. - Verschieben Sie
Ollama.app
in den OrdnerProgramme
.
Installation überprüfen
Um sicherzustellen, dass Ollama erfolgreich installiert wurde, öffnen Sie das Terminal und führen Sie folgende Befehle aus:
$ ollama -v
$ ollama list
$ ollama serve
Ollama auf Windows installieren
Um Ollama auf einem Windows-Rechner zu installieren, folgen Sie diesen Schritten:
- Öffnen Sie die offizielle Ollama-Website.
- Laden Sie die neueste Version der
.exe
-Installationsdatei herunter. - Führen Sie die Installationsdatei aus und klicken Sie auf „Installieren“, um die Einrichtung abzuschließen.
Installation überprüfen
Nach der Installation starten Sie Windows PowerShell und geben die folgenden Befehle ein:
> ollama -v
> ollama list
> ollama serve
Herunterladen großer Sprachmodelle (LLMs) mit Ollama
Mit dem Befehl ollama pull
können Benutzer Modelle aus dem Ollama-Repository abrufen. Befolgen Sie die folgenden Schritte, um Modelle herunterzuladen und lokal auszuführen.
Schritt 1: Ein Modell abrufen
Verwenden Sie den folgenden Befehl, um ein Modell aus dem Ollama-Repository herunterzuladen:
$ ollama pull [model]
Beispiel: Mistral herunterladen
Um das Mistral-Modell herunterzuladen, führen Sie folgenden Befehl aus:
$ ollama pull mistral
Beispiel: DeepSeek-R1 mit 1,5B Parametern abrufen
Um das DeepSeek-R1-Distill-Qwen-Modell zu laden, verwenden Sie:
$ ollama pull deepseek-r1:1.5b
Beispiel: Llama 3.3 herunterladen
Das Modell Llama 3.3 ist etwa 40 GB groß. Stellen Sie sicher, dass ausreichend Speicherplatz verfügbar ist, bevor Sie fortfahren:
$ ollama pull llama3.3
Schritt 2: Heruntergeladene Modelle überprüfen
Führen Sie den folgenden Befehl aus, um alle lokal gespeicherten Modelle anzuzeigen:
$ ollama list
Beispielausgabe:
NAME ID SIZE MODIFIED
llama3.3:latest a6eb4748fd29 42 GB 21 seconds ago
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 4 minutes ago
mistral:latest f974a74358d6 4.1 GB 26 minutes ago
Ollama zur Ausführung von KI-Modellen nutzen
Mit Ollama können Benutzer große Sprachmodelle direkt aus dem Repository abrufen, ausführen und initialisieren oder bereits lokal gespeicherte Modelle nutzen. Vor dem Start eines Modells sollte sichergestellt werden, dass das System die erforderlichen Hardwarevoraussetzungen erfüllt. Folgen Sie den unten aufgeführten Schritten, um Modelle zu testen und ihre Leistung auf Ihrem Rechner zu analysieren.
Schritt 1: Verfügbare Modelle auflisten
Prüfen Sie, welche Modelle bereits auf Ihrem System installiert sind, indem Sie folgenden Befehl ausführen:
$ ollama list
Schritt 2: Ein Modell ausführen
Um ein Modell zu starten, verwenden Sie den Befehl ollama run
. Zum Beispiel, um das Qwen 2.5 Instruct-Modell mit 1,5 Milliarden Parametern zu starten:
$ ollama run qwen2.5:1.5b
Schritt 3: Eine Eingabeaufforderung bereitstellen
Nach dem Start des Modells kann eine Eingabeaufforderung eingegeben werden.
Schritt 4: Das Modell verlassen
Um Ollama zu beenden, geben Sie folgenden Befehl ein:
>>> /bye
Ein anderes Modell ausführen
Es ist auch möglich, ein bereits auf dem Computer gespeichertes Modell auszuführen. Falls Sie beispielsweise das DeepSeek R1-Modell bereits heruntergeladen haben, können Sie es mit folgendem Befehl starten:
$ ollama run deepseek-r1:1.5b
Schritt 6: Eine Eingabeaufforderung senden
Zum Testen kann eine mathematische Anfrage gestellt werden, zum Beispiel:
Eingabe: Generieren Sie eine Beschreibung eines rekursiven Fraktalmusters mit ausschließlich mathematischen Notationen und symbolischer Logik.
Schritt 7: Die Modellantwort beobachten
Das KI-Modell verarbeitet die Anfrage und gibt eine strukturierte mathematische Beschreibung aus.
Okay, ich muss ein rekursives Fraktalmuster erstellen, das ausschließlich mathematische Notationen und Symbole verwendet. Das ist eine interessante Herausforderung. Ich überlege, wie Fraktale mathematisch dargestellt werden können...
...................................
Schritt 8: Ollama beenden
Um die Sitzung zu schließen, geben Sie folgenden Befehl ein:
>>> /bye
Warum Ollama zur Ausführung von KI-Modellen nutzen?
Jedes Modell hat spezifische Stärken und ist für unterschiedliche Aufgaben optimiert. Die lokale Ausführung von Modellen mit Ollama ermöglicht es Benutzern, deren Effizienz und Leistungsfähigkeit direkt zu testen. Mit dem Befehl ollama run
können gespeicherte Modelle sofort ausgeführt werden, während ollama pull
die neuesten Versionen aus dem offiziellen Ollama-Repository herunterlädt.
Modelle mit Ollama verwalten
Der Umgang mit mehreren großen Sprachmodellen (LLMs) auf einem System erfordert eine strukturierte Verwaltung. Ollama bietet Befehle zum Auflisten, Anzeigen, Stoppen und Entfernen von Modellen. Folgen Sie den unten stehenden Schritten, um Modelle effizient zu verwalten.
Schritt 1: Verfügbare Modelle auflisten
Um eine Liste aller gespeicherten Modelle auf Ihrem System anzuzeigen, führen Sie folgenden Befehl aus:
$ ollama list
Schritt 2: Modelldetails anzeigen
Um detaillierte Informationen zu einem bestimmten Modell, z. B. Llama 3.3, anzuzeigen, nutzen Sie:
$ ollama show llama3.3
Erwartete Ausgabe:
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q4_K_M
Parameters
stop "<|start_header_id|>"
stop "<|end_header_id|>"
stop "<|eot_id|>"
License
LLAMA 3.3 COMMUNITY LICENSE AGREEMENT
Llama 3.3 Version Release Date: December 6, 2024
Schritt 3: Ein laufendes Modell stoppen
Falls ein Modell aktiv ausgeführt wird, kann es mit folgendem Befehl gestoppt werden:
$ ollama stop [model-name]
Beispiel: Stoppen des DeepSeek R1-Modells:
$ ollama stop deepseek-r1:1.5b
Schritt 4: Ein nicht benötigtes Modell entfernen
Um ein Modell aus dem System zu löschen, führen Sie folgenden Befehl aus:
$ ollama rm mistral
Erwartete Ausgabe:
deleted 'mistral'
Ollama-Umgebungsvariablen konfigurieren
Ollama bietet verschiedene Umgebungsvariablen zur Anpassung der Anwendung und zur Leistungsoptimierung. Hier sind einige häufig verwendete Variablen:
- OLLAMA_HOST: Legt die Serveradresse für Ollama fest.
- OLLAMA_GPU_OVERHEAD: Reserviert VRAM für GPU-Prozesse.
- OLLAMA_MODELS: Gibt ein benutzerdefiniertes Verzeichnis für Modelldateien an.
- OLLAMA_KEEP_ALIVE: Steuert, wie lange Modelle im Speicher verbleiben.
- OLLAMA_DEBUG: Aktiviert Debugging-Informationen.
- OLLAMA_FLASH_ATTENTION: Ermöglicht Optimierungen für neuronale Aufmerksamkeitsmechanismen.
- OLLAMA_NOHISTORY: Deaktiviert die Verlaufsaufzeichnung während der Modellausführung.
- OLLAMA_NOPRUNE: Verhindert das Entfernen von Modelldateien beim Systemstart.
- OLLAMA_ORIGINS: Definiert Zugriffsrechte für entfernte Verbindungen.
Ollama-Variablen unter Linux konfigurieren
Um Umgebungsvariablen für Ollama unter Linux festzulegen, folgen Sie diesen Schritten:
Schritt 1: Dienstdatei öffnen
Öffnen Sie die Ollama-Dienstdatei mit folgendem Befehl:
$ sudo vim /etc/systemd/system/ollama.service
Schritt 2: Umgebungsvariablen hinzufügen
Fügen Sie die folgenden Zeilen in den [Service]
-Abschnitt ein:
[Service]
Environment="OLLAMA_DEBUG=1"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Schritt 3: Änderungen anwenden
Um die Konfigurationsänderungen zu übernehmen, führen Sie folgende Befehle aus:
$ sudo systemctl daemon-reload
$ sudo systemctl restart ollama
Ollama-Variablen unter macOS konfigurieren
Um Umgebungsvariablen unter macOS zu setzen, verwenden Sie folgende Befehle:
$ launchctl setenv OLLAMA_HOST "0.0.0.0"
$ ollama serve
Ollama-Variablen unter Windows konfigurieren
Um Ollama-Variablen unter Windows zu konfigurieren, folgen Sie diesen Schritten:
- Öffnen Sie das Windows-Suchmenü und suchen Sie nach „Umgebungsvariablen“.
- Wählen Sie „Systemvariablen bearbeiten“ aus.
- Klicken Sie auf „Umgebungsvariablen“.
- Klicken Sie auf „Neu“, um eine neue Variable zu erstellen.
- Geben Sie den Variablennamen und den zugehörigen Wert ein.
- Klicken Sie auf „OK“, um die Einstellungen zu speichern.
- Klicken Sie auf „Übernehmen“, um die Änderungen zu bestätigen.
Fazit
Sie haben Ollama erfolgreich installiert und konfiguriert, um große Sprachmodelle lokal auszuführen. Egal ob auf einem lokalen Rechner oder einem entfernten Server, Ollama bietet eine leistungsstarke Lösung. Nutzen Sie Umgebungsvariablen zur Leistungsoptimierung und ermöglichen Sie den Fernzugriff. Weitere Informationen finden Sie im offiziellen GitHub-Repository von Ollama.