Yes. Ollama is open-source under the MIT license and completely free. The only "cost" is the hardware you run it on and the electricity it uses — there are no per-token charges because nothing goes to a cloud provider.

Does Ollama send my data anywhere?

No. By design, inference happens entirely on your machine. The only network traffic is downloading a model the first time you pull it. This is the main reason teams in healthcare, legal, and finance use it — sensitive prompts never leave the building.

Do I need a GPU to run Ollama?

No, but it helps a lot. Ollama runs on CPU alone for smaller models (a 2–3B model is comfortable on a modern laptop), and uses your GPU automatically when one is available. For models above ~13B parameters, a GPU or Apple Silicon with unified memory makes a big difference. See our system requirements guide for specifics.

What models can Ollama run?

Over 100 open models, including Meta's Llama 3.3 and Llama 4, Google's Gemma 4, Alibaba's Qwen 3 series, DeepSeek V3 and R1, Mistral, and Microsoft's Phi-4. Our pick of the best local LLMs to run on Ollama breaks down which to use for which job.

Is Ollama better than ChatGPT?

Different tools. ChatGPT gives you a frontier model with no setup but sends your data to the cloud and charges a subscription. Ollama runs smaller open models locally, free and private, but a top local model still trails the very best cloud models on the hardest tasks. For privacy, cost, and offline use, Ollama wins; for raw capability on complex reasoning, the cloud frontier is still ahead.

What is the Ollama API port?

Ollama exposes its REST API on http://localhost:11434 by default. It also offers an OpenAI-compatible endpoint, so a lot of existing OpenAI-SDK code works by simply pointing the base URL at your local Ollama instance.

Can Ollama replace the OpenAI API in my existing app?

For most apps, yes. Ollama exposes an OpenAI-compatible endpoint at http://localhost:11434/v1, including the /v1/chat/completions route that most tools call. Point your OpenAI client's base_url at it, pass any placeholder API key, and set the model field to an installed Ollama tag. Embeddings, vision, and tool-calling are supported too, so many projects switch by changing two lines. It covers parts of the OpenAI API rather than every parameter, so verify any exotic fields your app relies on.

Can I run Ollama without a GPU?

Yes. Ollama runs entirely on CPU when no compatible GPU is present — you just need enough system RAM to hold the model. A current multi-core CPU runs a 7B model at usable speeds, but throughput falls off sharply as models grow, and 70B-class models on CPU are too slow for interactive use. For day-to-day chat, a GPU or Apple Silicon Mac makes the difference between sluggish and snappy.

How much disk space do Ollama models take, and where are they stored?

Plan for the download sizes above: a 7B model is roughly 5 GB on disk, a 70B model around 43 GB, and pulling several models adds up quickly. By default they live under ~/.ollama/models (or C:Users<you>.ollamamodels on Windows). You can relocate that directory with the OLLAMA_MODELS environment variable, and remove anything you no longer need with ollama rm <model>.

Was ist Ollama? Der umfassende Leitfaden zum lokalen Ausführen von LLMs im Jahr 2026

Aktualisiert 19. Juni 2026 · Erstmals veröffentlicht am 6. Juni 2026

Wenn Sie sich in den letzten zwei Jahren mit lokaler KI beschäftigt haben, sind Ihnen der Name und die Funktionsweise bereits bekannt. Ollama ist das Werkzeug, das aus dem Ziel ‚eine große Sprachmodell auf dem eigenen Rechner auszuführen‘ – einst ein Wochenende voller CUDA-Fehler – einen einzigen Befehl gemacht hat: ollama run llama3.3.

Dieser Leitfaden erklärt präzise, was Ollama ist, wie es intern funktioniert, welche Aufgaben es bewältigen kann – und welche nicht – sowie ob es 2026 das richtige Werkzeug für Sie ist.

Wichtigste Erkenntnisse

Was es ist: ein kostenloses, quelloffenes Werkzeug, das offene LLMs herunterlädt, verwaltet und lokal mit einem einzigen Befehl ausführt – ohne Cloud, ohne API-Schlüssel und ohne dass Ihre Daten Ihren Rechner verlassen.
So funktioniert es: Es umschließt die llama.cpp Engine (und Apples MLX unter macOS ab Version 0.19) und übernimmt das Herunterladen von Modellen, die Quantisierung, die GPU-Zuweisung sowie eine REST-API am Port 11434.
Für wen es gedacht ist: Entwickler und Bastler, die den reibungslosesten Weg suchen, um mit lokalen Modellen zu prototypisieren. Es ist 2026 der Einstiegspunkt mit dem geringsten Risiko.
Für wen es nicht gedacht ist: für hochgradig parallelen Produktionsbetrieb mit vielen gleichzeitigen Anfragen – dafür ist vLLM unter Last etwa 16–20-mal schneller.
Kosten: 0 $. Es steht unter der MIT-Lizenz und läuft vollständig auf Ihrer Hardware.

Was Ollama tatsächlich ist

Ollama ist eine quelloffene Laufzeitumgebung für große Sprachmodelle, die auf Ihrem eigenen Computer – Mac, Windows oder Linux – läuft. Man kann sie sich als ‚Docker für LLMs‘ vorstellen: Statt sich mit Python-Umgebungen, Modellgewichten und Grafiktreibern herumschlagen zu müssen, geben Sie einfach einen Befehl ein – und schon läuft ein Modell.

Die Kernbotschaft ist simpel: Halten Sie Ihre Daten auf Ihrem Gerät, zahlen Sie pro Token nichts und arbeiten Sie offline. Wenn Sie ollama run gemma4, ausführen, lädt Ollama das Modell herunter, lädt es in den GPU-Speicher Ihres Rechners (oder in den Arbeitsspeicher, falls keine GPU vorhanden ist) und versetzt Sie direkt in eine Chat-Eingabeaufforderung. Das war’s schon.

Hinter dieser Einfachheit erledigt Ollama zahlreiche Aufgaben für Sie:

Modellverwaltung – Abrufen, Versionsverwaltung und Speichern von Modellen aus seiner Registry, ähnlich wie ein Paketmanager Software verwaltet.
Quantisierung – automatische Nutzung komprimierter (GGUF-)Modellversionen, sodass ein Modell mit 27 Milliarden Parametern auch in den Arbeitsspeicher eines Consumer-Geräts passt.
Zuweisung von GPU-Schichten — Entscheidung, wie viel vom Modell auf Ihrer GPU und wie viel auf der CPU gespeichert wird, basierend auf Ihrem verfügbaren VRAM.
Verwaltung des Kontexts und des KV-Caches — Verwaltung des Speichers, der mit zunehmender Gesprächslänge wächst.
Eine REST-API — macht alle Funktionen über http://localhost:11434 verfügbar, sodass Ihre eigenen Anwendungen mit ihr kommunizieren können.

Wie es intern funktioniert

Ollama ist selbst keine Inferenz-Engine. Es ist eine Erlebnisschicht um eine solche herum. Im Hintergrund nutzt es llama.cpp, die C++-Engine, die die eigentliche Mathematik beim effizienten Ausführen eines quantisierten Modells auf CPUs und GPUs übernimmt. Ab Version v0.19 (März 2026) verwendet Ollama zudem Apples MLX-Backend auf Apple Silicon – eine Änderung, die enorme Geschwindigkeitssteigerungen brachte (auf einem M5 Max mit Qwen 3.5 verdoppelte sich die Dekodier-Durchsatzrate nahezu).

Der Workflow sieht folgendermaßen aus:

Sie führen den Befehl — ollama run qwen3 im Terminal aus oder senden eine Anfrage an die API.
Ollama löst das Modell auf — falls es noch nicht heruntergeladen ist, lädt es die GGUF-Gewichte aus dem Registry-Server herunter.
Es lädt das Modell in den Arbeitsspeicher — dabei werden die Schichten je nach verfügbarem VRAM zwischen GPU und CPU aufgeteilt.
Es liefert Antworten — entweder interaktiv im Terminal oder als JSON über die REST-API.

Diese REST-API ist der Teil, der Entwickler am meisten interessiert. Jede Anwendung, die HTTP-Anfragen stellen kann, kann über Ollama ein lokales Modell nutzen – und da Ollama einen OpenAI-kompatiblen Endpunkt hinzugefügt hat, funktioniert viel bestehender Code bereits nach einer einfachen Änderung der Basis-URL.

Was Sie damit entwickeln können

Ollama ist die treibende Kraft hinter einer breiten Palette lokaler KI-Projekte im Jahr 2026:

Private Chatbots , die niemals ein Wort in die Cloud senden.
Programmierassistenten — der neuere Befehl ollama launch verknüpft Tools wie Claude Code, OpenCodeund Codex nahtlos mit einem lokalen oder cloudbasierten Modell – ohne Konfigurationsdateien.
RAG-Systeme , die Ollamas Batch-Embedding-API nutzen, um Ihre eigenen Dokumente zu indexieren.
Agenten und Automatisierungen , die lokale Modelle für Klassifizierung, Extraktion oder Zusammenfassung ohne zusätzliche Grenzkosten aufrufen.
Strukturierte Ausgabepipelines — Ollama kann nun die Ausgabe eines Modells auf ein JSON-Schema beschränken, wodurch es für programmatische Zwecke zuverlässig wird.

Wo Ollama im Vergleich zu Alternativen steht

Ollama ist nicht der einzige Weg, Modelle lokal auszuführen – und es ist nicht immer die beste Wahl. Hier ist die ehrliche Übersicht:

Werkzeug	Ideal für	Abwägung
Ollama	Prototyping durch eine Person auf jedem Betriebssystem	Langsam bei hoher Parallelität
LM Studio	Eine polierte GUI zum Durchsuchen und Chatten mit Modellen	Weniger skriptfähig; desktop-zentriert
vLLM	Produktiver Mehrbenutzer-Betrieb auf GPUs	Komplexe Einrichtung; nicht lokal-zentriert
llama.cpp	Maximale Geschwindigkeit sowie Einsatz auf Embedded- oder Edge-Hardware	Niedrigster Abstraktionsgrad; Sie setzen es selbst zusammen

Wenn Sie als Einzelperson experimentieren, überzeugt Ollama durch schlichte Bequemlichkeit. Sobald Sie jedoch viele Benutzer gleichzeitig bedienen müssen, sollten Sie unseren ausführlichen Vergleich lesen: Ollama vs. LM Studio vs. vLLM vs. llama.cpp.

Loslegen in zwei Minuten

Die Einstiegshürde ist tatsächlich minimal:

Installieren Sie es — laden Sie die App für Ihr Betriebssystem herunter (siehe unsere Schritt-für-Schritt-Anleitung zur Installation).
Laden Sie ein Modell herunter und führen Sie es aus — ollama run gemma4 für ein leistungsstarkes Allround-Modell oder ollama run qwen3 für Programmieraufgaben.
Sprechen Sie mit ihm — chatten Sie direkt im Terminal oder richten Sie Ihre Anwendung auf http://localhost:11434.

Bevor Sie ein Modell auswählen, prüfen Sie, ob Ihr Rechner es bewältigen kann – unser Leitfaden zu Ollamas Systemanforderungen ordnet Modellgrößen dem tatsächlich benötigten Arbeitsspeicher (RAM) und Grafikspeicher (VRAM) zu.

Welche Hardware benötigen Sie tatsächlich?

Ollama startet auf nahezu jedem Rechner mit einer CPU und 8 GB RAM – doch „startet“ und „fühlt sich bedienbar an“ sind zwei verschiedene Dinge. Die entscheidende Größe für Ihr Nutzererlebnis ist die Speichermenge, die das Modell benötigt, denn das gesamte Modell muss während der Ausführung im Arbeitsspeicher (oder idealerweise im GPU-VRAM) Platz finden. Eine zuverlässige Faustregel lautet ungefähr 0,6 GB Arbeitsspeicher pro Milliarde Parameter bei der Standard-Quantisierung Q4_K_M zuzüglich etwas Puffer für den Kontext.

Diese Faustregel liefert Ihnen eine schnelle Orientierungshilfe für die gängigsten Modellklassen:

Modellklasse	Ca. Downloadgröße (Q4_K_M)	Empfohlener Arbeitsspeicher
7–8B (Llama 3.x, Mistral)	~5 GB	8 GB+
13–14B (Qwen, Phi)	~9 GB	16 GB+
32B	~20 GB	24 GB+
70B (Llama 3.3)	~43 GB	64 GB+

Für die meisten Nutzer liegt der praktische Optimalbereich bei einer GPU oder einem Mac mit etwa 16 GB VRAM oder gemeinsamem Arbeitsspeicher (unified memory) – genug, um Modelle mit 7B–14B Parametern mit Geschwindigkeiten auszuführen, die sich als sofortig anfühlen. Eine RTX-Grafikkarte mit 16 GB oder ein Apple-Silicon-Mac mit 16 GB liegen beide klar in diesem Bereich.

Zwei architektonische Aspekte sind bei der Wahl entscheidend: Eine dedizierte NVIDIA-GPU überzeugt deutlich, sobald das Modell vollständig in ihren VRAM passt, und liefert die höchste Token-Ausgaberate pro Sekunde. Apples vereinbarter Speicher gemeinsamer Arbeitsspeicher (unified memory)

Sie kann können Ollama auch völlig ohne GPU ausführen. Eine moderne Mehrkern-CPU verarbeitet ein 7B-Modell mit brauchbaren Geschwindigkeiten von wenigen bis niedrigen zweistelligen Tokens pro Sekunde; große 70B-Modelle auf der CPU sinken jedoch unter ein Token pro Sekunde – akzeptabel für Batch-Jobs über Nacht, aber unangenehm für interaktive Gespräche. Wenn es auf interaktive Geschwindigkeit ankommt, ist die Beschleunigung durch GPU oder Apple Silicon der entscheidende Faktor.

Häufig gestellte Fragen (FAQ)

Ist Ollama kostenlos?

Ja. Ollama ist quelloffen unter der MIT-Lizenz und vollständig kostenlos. Die einzigen „Kosten“ entstehen durch die Hardware, auf der Sie es ausführen, sowie den Stromverbrauch – es fallen keine Kosten pro Token an, da nichts an einen Cloud-Anbieter gesendet wird.

Sendet Ollama meine Daten irgendwohin?

Nein. Per Konstruktion erfolgt die Inferenz ausschließlich auf Ihrem lokalen Rechner. Der einzige Netzwerkverkehr besteht im Herunterladen eines Modells beim ersten Abruf („pull“). Dies ist der Hauptgrund, warum Teams aus Gesundheitswesen, Recht und Finanzwesen Ollama einsetzen – sensible Eingaben verlassen das Unternehmen niemals.

Brauche ich eine GPU, um Ollama auszuführen?

Nein, aber sie beschleunigt die Ausführung erheblich. Ollama läuft allein auf der CPU für kleinere Modelle (ein Modell mit 2–3 Milliarden Parametern läuft problemlos auf einem modernen Laptop) und nutzt automatisch Ihre GPU, sobald eine verfügbar ist. Für Modelle mit mehr als etwa 13 Milliarden Parametern macht eine GPU oder Apple Silicon mit gemeinsamem Arbeitsspeicher (unified memory) einen deutlichen Unterschied. Details finden Sie in unserem Leitfaden zu den Systemanforderungen für konkrete Angaben.

Welche Modelle kann Ollama ausführen?

Über 100 quelloffene Modelle, darunter Meta's Llama 3.3 und Llama 4, Googles Gemma 4, Alibabas Qwen-3-Serie, DeepSeek V3 und R1, Mistral sowie Microsofts Phi-4. Unsere Auswahl der besten lokalen Sprachmodelle für Ollama erläutert, welches Modell für welche Aufgabe am besten geeignet ist.

Ist Ollama besser als ChatGPT?

Gänzlich unterschiedliche Werkzeuge. ChatGPT stellt Ihnen ein Spitzenmodell ohne Einrichtungsaufwand zur Verfügung, sendet Ihre Daten jedoch in die Cloud und verlangt ein Abonnement. Ollama führt kleinere, quelloffene Modelle lokal aus – kostenlos und privat –, doch selbst das beste lokale Modell liegt bei besonders anspruchsvollen Aufgaben noch hinter den leistungsstärksten Cloud-Modellen zurück. Bei Datenschutz, Kosten und Offline-Nutzung übertrifft Ollama ChatGPT; bei roher Leistungsfähigkeit bei komplexen Schlussfolgerungsaufgaben liegt die Cloud-Spitze nach wie vor vorn.

Welcher Port wird für die Ollama-API verwendet?

Ollama stellt seine REST-API standardmäßig unter http://localhost:11434 zur Verfügung. Zudem bietet es einen OpenAI-kompatiblen Endpunkt, sodass viel bestehender Code für OpenAI-SDKs funktioniert, sobald Sie die Basis-URL einfach auf Ihre lokale Ollama-Instanz umleiten.

Kann Ollama die OpenAI-API in meiner bestehenden Anwendung ersetzen?

Für die meisten Anwendungen ja. Ollama stellt einen OpenAI-kompatiblen Endpunkt unter http://localhost:11434/v1, einschließlich der /v1/chat/completions Route bereit, die die meisten Tools aufrufen. Richten Sie die base_url Ihres OpenAI-Clients darauf aus, übergeben Sie einen beliebigen Platzhalter-API-Schlüssel und legen Sie das Feld „model“ auf ein installiertes Ollama-Tag fest. Auch Embeddings, Multimodalität (Vision) und Tool-calling werden unterstützt, sodass viele Projekte lediglich durch zwei Zeilen Code wechseln können. Ollama deckt Teile der OpenAI-API ab, nicht jedoch jeden einzelnen Parameter – prüfen Sie daher gegebenenfalls exotische Felder, auf die Ihre Anwendung angewiesen ist.

Kann ich Ollama ohne GPU ausführen?

Ja. Ollama läuft vollständig auf der CPU, wenn keine kompatible GPU vorhanden ist – Sie benötigen lediglich genügend Systemarbeitsspeicher (RAM), um das Modell aufzunehmen. Eine aktuelle Mehrkern-CPU verarbeitet ein 7B-Modell mit brauchbaren Geschwindigkeiten, doch die Durchsatzrate sinkt stark mit zunehmender Modellgröße; 70B-Modelle auf der CPU sind für interaktive Nutzung zu langsam. Für den täglichen Chat macht eine GPU oder ein Apple-Silicon-Mac den Unterschied zwischen träge und flott.

Wie viel Speicherplatz benötigen Ollama-Modelle, und wo werden sie gespeichert?

Planen Sie die oben genannten Downloadgrößen: Ein 7B-Modell belegt etwa 5 GB Festplattenspeicher, ein 70B-Modell rund 43 GB; das Herunterladen mehrerer Modelle summiert sich daher rasch. Standardmäßig werden sie unter ~/.ollama/models (bzw. C:\Users\\.ollama\models unter Windows) gespeichert. Sie können dieses Verzeichnis mithilfe der Umgebungsvariablen OLLAMA_MODELS umziehen und alle nicht mehr benötigten Dateien mit dem Befehl ollama rm .

Fazit

Ollama gewann 2026 den Markt für lokale Sprachmodelle, indem es eine Sache außergewöhnlich gut beherrschte: Reibungslosigkeit. Es ist kostenlos, privat, läuft auf Hardware, die Sie bereits besitzen, und bringt Sie innerhalb von rund zwei Minuten vom Gedanken „Ich möchte ein lokales Modell ausprobieren“ zum lauffähigen Modell. Es ist nicht die schnellste Option unter hoher Last, und ein lokales Modell wird bei den schwierigsten Aufgaben immer noch nicht mit den besten Cloud-Modellen mithalten können – doch als Einstieg in die lokale KI gibt es bislang nichts Vergleichbares. Wenn Sie gerade beginnen, starten Sie hier.