Wenn Sie sich in den letzten zwei Jahren mit lokaler KI beschäftigt haben, sind Ihnen der Name und die Funktionsweise bereits bekannt. Ollama ist das Werkzeug, das aus dem Ziel ‚eine große Sprachmodell auf dem eigenen Rechner auszuführen‘ – einst ein Wochenende voller CUDA-Fehler – einen einzigen Befehl gemacht hat: ollama run llama3.3.
Dieser Leitfaden erklärt präzise, was Ollama ist, wie es intern funktioniert, welche Aufgaben es bewältigen kann – und welche nicht – sowie ob es 2026 das richtige Werkzeug für Sie ist.
Wichtigste Erkenntnisse
- Was es ist: ein kostenloses, quelloffenes Werkzeug, das offene LLMs herunterlädt, verwaltet und lokal mit einem einzigen Befehl ausführt – ohne Cloud, ohne API-Schlüssel und ohne dass Ihre Daten Ihren Rechner verlassen.
- So funktioniert es: Es umschließt die
llama.cppEngine (und Apples MLX unter macOS ab Version 0.19) und übernimmt das Herunterladen von Modellen, die Quantisierung, die GPU-Zuweisung sowie eine REST-API am Port11434. - Für wen es gedacht ist: Entwickler und Bastler, die den reibungslosesten Weg suchen, um mit lokalen Modellen zu prototypisieren. Es ist 2026 der Einstiegspunkt mit dem geringsten Risiko.
- Für wen es nicht gedacht ist: für hochgradig parallelen Produktionsbetrieb mit vielen gleichzeitigen Anfragen – dafür ist vLLM unter Last etwa 16–20-mal schneller.
- Kosten: 0 $. Es steht unter der MIT-Lizenz und läuft vollständig auf Ihrer Hardware.
Was Ollama tatsächlich ist
Ollama ist eine quelloffene Laufzeitumgebung für große Sprachmodelle, die auf Ihrem eigenen Computer – Mac, Windows oder Linux – läuft. Man kann sie sich als ‚Docker für LLMs‘ vorstellen: Statt sich mit Python-Umgebungen, Modellgewichten und Grafiktreibern herumschlagen zu müssen, geben Sie einfach einen Befehl ein – und schon läuft ein Modell.
Die Kernbotschaft ist simpel: Halten Sie Ihre Daten auf Ihrem Gerät, zahlen Sie pro Token nichts und arbeiten Sie offline. Wenn Sie ollama run gemma4, ausführen, lädt Ollama das Modell herunter, lädt es in den GPU-Speicher Ihres Rechners (oder in den Arbeitsspeicher, falls keine GPU vorhanden ist) und versetzt Sie direkt in eine Chat-Eingabeaufforderung. Das war’s schon.
Hinter dieser Einfachheit erledigt Ollama zahlreiche Aufgaben für Sie:
- Modellverwaltung – Abrufen, Versionsverwaltung und Speichern von Modellen aus seiner Registry, ähnlich wie ein Paketmanager Software verwaltet.
- Quantisierung – automatische Nutzung komprimierter (GGUF-)Modellversionen, sodass ein Modell mit 27 Milliarden Parametern auch in den Arbeitsspeicher eines Consumer-Geräts passt.
- Zuweisung von GPU-Schichten — Entscheidung, wie viel vom Modell auf Ihrer GPU und wie viel auf der CPU gespeichert wird, basierend auf Ihrem verfügbaren VRAM.
- Verwaltung des Kontexts und des KV-Caches — Verwaltung des Speichers, der mit zunehmender Gesprächslänge wächst.
- Eine REST-API — macht alle Funktionen über
http://localhost:11434verfügbar, sodass Ihre eigenen Anwendungen mit ihr kommunizieren können.
Wie es intern funktioniert
Ollama ist selbst keine Inferenz-Engine. Es ist eine Erlebnisschicht um eine solche herum. Im Hintergrund nutzt es llama.cpp, die C++-Engine, die die eigentliche Mathematik beim effizienten Ausführen eines quantisierten Modells auf CPUs und GPUs übernimmt. Ab Version v0.19 (März 2026) verwendet Ollama zudem Apples MLX-Backend auf Apple Silicon – eine Änderung, die enorme Geschwindigkeitssteigerungen brachte (auf einem M5 Max mit Qwen 3.5 verdoppelte sich die Dekodier-Durchsatzrate nahezu).
Der Workflow sieht folgendermaßen aus:
- Sie führen den Befehl —
ollama run qwen3im Terminal aus oder senden eine Anfrage an die API. - Ollama löst das Modell auf — falls es noch nicht heruntergeladen ist, lädt es die GGUF-Gewichte aus dem Registry-Server herunter.
- Es lädt das Modell in den Arbeitsspeicher — dabei werden die Schichten je nach verfügbarem VRAM zwischen GPU und CPU aufgeteilt.
- Es liefert Antworten — entweder interaktiv im Terminal oder als JSON über die REST-API.
Diese REST-API ist der Teil, der Entwickler am meisten interessiert. Jede Anwendung, die HTTP-Anfragen stellen kann, kann über Ollama ein lokales Modell nutzen – und da Ollama einen OpenAI-kompatiblen Endpunkt hinzugefügt hat, funktioniert viel bestehender Code bereits nach einer einfachen Änderung der Basis-URL.
Was Sie damit entwickeln können
Ollama ist die treibende Kraft hinter einer breiten Palette lokaler KI-Projekte im Jahr 2026:
- Private Chatbots , die niemals ein Wort in die Cloud senden.
- Programmierassistenten — der neuere Befehl
ollama launchverknüpft Tools wie Claude Code, OpenCodeund Codex nahtlos mit einem lokalen oder cloudbasierten Modell – ohne Konfigurationsdateien. - RAG-Systeme , die Ollamas Batch-Embedding-API nutzen, um Ihre eigenen Dokumente zu indexieren.
- Agenten und Automatisierungen , die lokale Modelle für Klassifizierung, Extraktion oder Zusammenfassung ohne zusätzliche Grenzkosten aufrufen.
- Strukturierte Ausgabepipelines — Ollama kann nun die Ausgabe eines Modells auf ein JSON-Schema beschränken, wodurch es für programmatische Zwecke zuverlässig wird.
Wo Ollama im Vergleich zu Alternativen steht
Ollama ist nicht der einzige Weg, Modelle lokal auszuführen – und es ist nicht immer die beste Wahl. Hier ist die ehrliche Übersicht:
| Werkzeug | Ideal für | Abwägung |
|---|---|---|
| Ollama | Prototyping durch eine Person auf jedem Betriebssystem | Langsam bei hoher Parallelität |
| LM Studio | Eine polierte GUI zum Durchsuchen und Chatten mit Modellen | Weniger skriptfähig; desktop-zentriert |
| vLLM | Produktiver Mehrbenutzer-Betrieb auf GPUs | Komplexe Einrichtung; nicht lokal-zentriert |
| llama.cpp | Maximale Geschwindigkeit sowie Einsatz auf Embedded- oder Edge-Hardware | Niedrigster Abstraktionsgrad; Sie setzen es selbst zusammen |
Wenn Sie als Einzelperson experimentieren, überzeugt Ollama durch schlichte Bequemlichkeit. Sobald Sie jedoch viele Benutzer gleichzeitig bedienen müssen, sollten Sie unseren ausführlichen Vergleich lesen: Ollama vs. LM Studio vs. vLLM vs. llama.cpp.
Loslegen in zwei Minuten
Die Einstiegshürde ist tatsächlich minimal:
- Installieren Sie es — laden Sie die App für Ihr Betriebssystem herunter (siehe unsere Schritt-für-Schritt-Anleitung zur Installation).
- Laden Sie ein Modell herunter und führen Sie es aus —
ollama run gemma4für ein leistungsstarkes Allround-Modell oderollama run qwen3für Programmieraufgaben. - Sprechen Sie mit ihm — chatten Sie direkt im Terminal oder richten Sie Ihre Anwendung auf
http://localhost:11434.
Bevor Sie ein Modell auswählen, prüfen Sie, ob Ihr Rechner es bewältigen kann – unser Leitfaden zu Ollamas Systemanforderungen ordnet Modellgrößen dem tatsächlich benötigten Arbeitsspeicher (RAM) und Grafikspeicher (VRAM) zu.
Welche Hardware benötigen Sie tatsächlich?
Ollama startet auf nahezu jedem Rechner mit einer CPU und 8 GB RAM – doch „startet“ und „fühlt sich bedienbar an“ sind zwei verschiedene Dinge. Die entscheidende Größe für Ihr Nutzererlebnis ist die Speichermenge, die das Modell benötigt, denn das gesamte Modell muss während der Ausführung im Arbeitsspeicher (oder idealerweise im GPU-VRAM) Platz finden. Eine zuverlässige Faustregel lautet ungefähr 0,6 GB Arbeitsspeicher pro Milliarde Parameter bei der Standard-Quantisierung Q4_K_M zuzüglich etwas Puffer für den Kontext.
Diese Faustregel liefert Ihnen eine schnelle Orientierungshilfe für die gängigsten Modellklassen:
| Modellklasse | Ca. Downloadgröße (Q4_K_M) | Empfohlener Arbeitsspeicher |
|---|---|---|
| 7–8B (Llama 3.x, Mistral) | ~5 GB | 8 GB+ |
| 13–14B (Qwen, Phi) | ~9 GB | 16 GB+ |
| 32B | ~20 GB | 24 GB+ |
| 70B (Llama 3.3) | ~43 GB | 64 GB+ |
Für die meisten Nutzer liegt der praktische Optimalbereich bei einer GPU oder einem Mac mit etwa 16 GB VRAM oder gemeinsamem Arbeitsspeicher (unified memory) – genug, um Modelle mit 7B–14B Parametern mit Geschwindigkeiten auszuführen, die sich als sofortig anfühlen. Eine RTX-Grafikkarte mit 16 GB oder ein Apple-Silicon-Mac mit 16 GB liegen beide klar in diesem Bereich.
Zwei architektonische Aspekte sind bei der Wahl entscheidend: Eine dedizierte NVIDIA-GPU überzeugt deutlich, sobald das Modell vollständig in ihren VRAM passt, und liefert die höchste Token-Ausgaberate pro Sekunde. Apples vereinbarter Speicher gemeinsamer Arbeitsspeicher (unified memory)
Sie kann können Ollama auch völlig ohne GPU ausführen. Eine moderne Mehrkern-CPU verarbeitet ein 7B-Modell mit brauchbaren Geschwindigkeiten von wenigen bis niedrigen zweistelligen Tokens pro Sekunde; große 70B-Modelle auf der CPU sinken jedoch unter ein Token pro Sekunde – akzeptabel für Batch-Jobs über Nacht, aber unangenehm für interaktive Gespräche. Wenn es auf interaktive Geschwindigkeit ankommt, ist die Beschleunigung durch GPU oder Apple Silicon der entscheidende Faktor.
Häufig gestellte Fragen (FAQ)
Ist Ollama kostenlos?
Ja. Ollama ist quelloffen unter der MIT-Lizenz und vollständig kostenlos. Die einzigen „Kosten“ entstehen durch die Hardware, auf der Sie es ausführen, sowie den Stromverbrauch – es fallen keine Kosten pro Token an, da nichts an einen Cloud-Anbieter gesendet wird.
Sendet Ollama meine Daten irgendwohin?
Nein. Per Konstruktion erfolgt die Inferenz ausschließlich auf Ihrem lokalen Rechner. Der einzige Netzwerkverkehr besteht im Herunterladen eines Modells beim ersten Abruf („pull“). Dies ist der Hauptgrund, warum Teams aus Gesundheitswesen, Recht und Finanzwesen Ollama einsetzen – sensible Eingaben verlassen das Unternehmen niemals.
Brauche ich eine GPU, um Ollama auszuführen?
Nein, aber sie beschleunigt die Ausführung erheblich. Ollama läuft allein auf der CPU für kleinere Modelle (ein Modell mit 2–3 Milliarden Parametern läuft problemlos auf einem modernen Laptop) und nutzt automatisch Ihre GPU, sobald eine verfügbar ist. Für Modelle mit mehr als etwa 13 Milliarden Parametern macht eine GPU oder Apple Silicon mit gemeinsamem Arbeitsspeicher (unified memory) einen deutlichen Unterschied. Details finden Sie in unserem Leitfaden zu den Systemanforderungen für konkrete Angaben.
Welche Modelle kann Ollama ausführen?
Über 100 quelloffene Modelle, darunter Meta's Llama 3.3 und Llama 4, Googles Gemma 4, Alibabas Qwen-3-Serie, DeepSeek V3 und R1, Mistral sowie Microsofts Phi-4. Unsere Auswahl der besten lokalen Sprachmodelle für Ollama erläutert, welches Modell für welche Aufgabe am besten geeignet ist.
Ist Ollama besser als ChatGPT?
Gänzlich unterschiedliche Werkzeuge. ChatGPT stellt Ihnen ein Spitzenmodell ohne Einrichtungsaufwand zur Verfügung, sendet Ihre Daten jedoch in die Cloud und verlangt ein Abonnement. Ollama führt kleinere, quelloffene Modelle lokal aus – kostenlos und privat –, doch selbst das beste lokale Modell liegt bei besonders anspruchsvollen Aufgaben noch hinter den leistungsstärksten Cloud-Modellen zurück. Bei Datenschutz, Kosten und Offline-Nutzung übertrifft Ollama ChatGPT; bei roher Leistungsfähigkeit bei komplexen Schlussfolgerungsaufgaben liegt die Cloud-Spitze nach wie vor vorn.
Welcher Port wird für die Ollama-API verwendet?
Ollama stellt seine REST-API standardmäßig unter http://localhost:11434 zur Verfügung. Zudem bietet es einen OpenAI-kompatiblen Endpunkt, sodass viel bestehender Code für OpenAI-SDKs funktioniert, sobald Sie die Basis-URL einfach auf Ihre lokale Ollama-Instanz umleiten.
Kann Ollama die OpenAI-API in meiner bestehenden Anwendung ersetzen?
Für die meisten Anwendungen ja. Ollama stellt einen OpenAI-kompatiblen Endpunkt unter http://localhost:11434/v1, einschließlich der /v1/chat/completions Route bereit, die die meisten Tools aufrufen. Richten Sie die base_url Ihres OpenAI-Clients darauf aus, übergeben Sie einen beliebigen Platzhalter-API-Schlüssel und legen Sie das Feld „model“ auf ein installiertes Ollama-Tag fest. Auch Embeddings, Multimodalität (Vision) und Tool-calling werden unterstützt, sodass viele Projekte lediglich durch zwei Zeilen Code wechseln können. Ollama deckt Teile der OpenAI-API ab, nicht jedoch jeden einzelnen Parameter – prüfen Sie daher gegebenenfalls exotische Felder, auf die Ihre Anwendung angewiesen ist.
Kann ich Ollama ohne GPU ausführen?
Ja. Ollama läuft vollständig auf der CPU, wenn keine kompatible GPU vorhanden ist – Sie benötigen lediglich genügend Systemarbeitsspeicher (RAM), um das Modell aufzunehmen. Eine aktuelle Mehrkern-CPU verarbeitet ein 7B-Modell mit brauchbaren Geschwindigkeiten, doch die Durchsatzrate sinkt stark mit zunehmender Modellgröße; 70B-Modelle auf der CPU sind für interaktive Nutzung zu langsam. Für den täglichen Chat macht eine GPU oder ein Apple-Silicon-Mac den Unterschied zwischen träge und flott.
Wie viel Speicherplatz benötigen Ollama-Modelle, und wo werden sie gespeichert?
Planen Sie die oben genannten Downloadgrößen: Ein 7B-Modell belegt etwa 5 GB Festplattenspeicher, ein 70B-Modell rund 43 GB; das Herunterladen mehrerer Modelle summiert sich daher rasch. Standardmäßig werden sie unter ~/.ollama/models (bzw. C:\Users\\.ollama\models unter Windows) gespeichert. Sie können dieses Verzeichnis mithilfe der Umgebungsvariablen OLLAMA_MODELS umziehen und alle nicht mehr benötigten Dateien mit dem Befehl ollama rm .
Fazit
Ollama gewann 2026 den Markt für lokale Sprachmodelle, indem es eine Sache außergewöhnlich gut beherrschte: Reibungslosigkeit. Es ist kostenlos, privat, läuft auf Hardware, die Sie bereits besitzen, und bringt Sie innerhalb von rund zwei Minuten vom Gedanken „Ich möchte ein lokales Modell ausprobieren“ zum lauffähigen Modell. Es ist nicht die schnellste Option unter hoher Last, und ein lokales Modell wird bei den schwierigsten Aufgaben immer noch nicht mit den besten Cloud-Modellen mithalten können – doch als Einstieg in die lokale KI gibt es bislang nichts Vergleichbares. Wenn Sie gerade beginnen, starten Sie hier.
