Ollama-Modellliste 2026: Größen, Arbeitsspeicherbedarf und beste Empfehlungen

Wenn Sie Modelle lokal ausführen, stammen die meisten davon aus der Ollama-Bibliothek – doch diese ändert sich ständig, und die Namen sind oft kryptisch. Dies ist ein praktischer Ollama-Modellliste für 2026: die Modelle, die Menschen tatsächlich nutzen, deren Speicheranforderungen und Einsatzgebiete sowie Anleitungen zum Auflisten bereits installierter Modelle und zum Herunterladen neuer. Ollama lädt standardmäßig eine 4-Bit-quantisierte Version herunter, weshalb ein „70B“-Modell auf einem leistungsfähigen Workstation-PC Platz findet und ein „8B“-Modell sogar auf einem Laptop läuft. Die unten angegebenen Größen sind ungefähre Standardwerte – prüfen Sie stets die Datenbank für KI-Modelle oder führen Sie ollama list aus, um den aktuellen Stand auf Ihrem Gerät zu ermitteln.

Schnellreferenz

Ausführung auf jedem Laptop (8 GB RAM): Llama 3.2 3B, Phi-3 Mini, Gemma 3 4B – klein, schnell, offline.
Beste Allround-Lösung (16 GB): Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B – der optimale Kompromiss für die meisten Nutzer.
Hohe Qualität (32 GB+ / GPU): Gemma 2 27B, Qwen 2.5 32B, Mixtral 8x7B.
Nahe der Spitzenklasse (Workstation / 48 GB+): Llama 3.3 70B, DeepSeek-R1 70B.
Schlussfolgern: DeepSeek-R1 als Distillation. Programmierung: Qwen 2.5 Coder, Code Llama. Vision: LLaVA. Embeddings: nomic-embed-text.
Die Regel: Wählen Sie anhand Ihres verfügbaren Arbeitsspeichers aus – prüfen Sie jedes Modell kostenlos mit unserem VRAM-Rechner.

Die beliebtesten Ollama-Modelle im Überblick

Jedes der folgenden Modelle ist mit einem einfachen Befehl verfügbar: ollama pull <Name>„Download“ gibt die ungefähre Standardgröße im 4-Bit-Format (Q4) an; „Mindestspeicher“ bezeichnet die praktische Untergrenze des erforderlichen Systemspeichers (CPU) oder VRAMs (GPU), um das Modell komfortabel auszuführen. Die Parameteranzahlen sind exakt; Größenangaben sind Näherungswerte und können sich mit jeder neuen Version ändern.

Modell	Parameter	Download (Q4)	Mindestspeicher	Am besten geeignet für
Llama 3.2	1B / 3B	~1,3 / 2 GB	4–8 GB	Edge-Geräte, Smartphones, ultraleichte Chat-Anwendungen
Llama 3.1	8B	~4,7 GB	8–16 GB	Bestes Allround-Kleinmodell
Llama 3.3	70B	~43 GB	48 GB+	Nahe der Spitzenklasse stehendes offenes Modell
Gemma 3	1B / 4B	~0,8 / 3,3 GB	4–8 GB	Effizientes Kleinmodell (Google)
Gemma 2	9B / 27B	~5,4 / 16 GB	12–32 GB	Ausgezeichnetes Verhältnis von Qualität zu Größe
Qwen 2.5	0,5B–72B	~0,4–47 GB	ab 4 GB	Mehrsprachig, breites Spektrum an Modellgrößen
Qwen 2.5 Coder	1,5B–32B	~1–20 GB	8 GB+	Lokaler Programmierassistent
Mistral	7B	~4,1 GB	8 GB	Schnell und zuverlässig – Klassiker
Mistral Nemo	12B	~7 GB	16 GB	Langer Kontext mit 128k Token
Mixtral	8×7B	ca. 26 GB	32 GB und mehr	Qualität von Mixture-of-Experts-Modellen
Phi-4	14B	~9 GB	16 GB	Schlussfolgern mit einem kleinen Modell
Phi-3 Mini	3,8 Mrd.	ca. 2,3 GB	8 GB	Klein, aber leistungsfähig
DeepSeek-R1 (Distill)	1,5–70 Mrd.	ca. 1,1–43 GB	8 GB+	Schrittweises Schlussfolgern
LLaVA	7–34 Mrd.	ca. 4,7–20 GB	8 GB+	Vision (Bildverständnis)
nomic-embed-text	—	ca. 0,3 GB	2 GB	Embeddings für RAG/Suche

Möchten Sie die Cloud-Modelle, mit denen diese Modelle hinsichtlich Preis und Geschwindigkeit verglichen werden, kennenlernen? Die Datenbank für KI-Modelle listet offene und geschlossene Modelle nebeneinander auf, und die KI-API-Kostenrechner zeigt, wann das lokale Ausführen kostengünstiger ist als die Bezahlung pro Token.

So listen Sie die installierten Ollama-Modelle auf

Um alle bereits auf Ihrem Rechner vorhandenen Modelle samt Größe und letztem Nutzungzeitpunkt anzuzeigen, führen Sie folgenden Befehl aus:

ollama list

Dieser Befehl gibt jeweils den Namen, das Tag, die eindeutige ID und die Größe jedes Modells aus. Um aktuell im Arbeitsspeicher geladene Modelle anzuzeigen, verwenden Sie ollama ps; um ein nicht mehr benötigtes Modell zu entfernen und Speicherplatz freizugeben, nutzen Sie ollama rm <Name>. Diese drei Befehle – list, ps und rm – reichen vollständig aus, um Ihre lokale Modellsammlung zu verwalten.

So finden und laden Sie neue Modelle aus der Bibliothek herunter

Der vollständige Katalog von Ollama befindet sich in seiner Online-Bibliothek; das Herunterladen eines beliebigen Modells erfolgt mit einem einzigen Befehl:

ollama pull llama3.1 oder führen Sie es direkt mit ollama run llama3.1

aus. Modellnamen verwenden Tags zur Kennzeichnung von Größe und Variante – z. B. llama3.1:8b, gemma2:27b, qwen2.5:14b. Wenn Sie das Tag weglassen, lädt Ollama automatisch eine sinnvolle Standardvariante (meist die populärste Größe mit 4-Bit-Quantisierung). Für die erste Installation finden Sie in unserem schrittweisen Installationsleitfaden für Ollama Anleitungen für Mac, Windows und Linux.

Kleine Modelle – laufen auf nahezu jedem Laptop

Modelle mit 1 bis etwa 4 Milliarden Parametern laufen problemlos auf einem modernen Laptop mit 8 GB RAM – eine GPU ist nicht erforderlich. Llama 3.2 3B, Gemma 3 4B und Phi-3 Mini sind die herausragenden Vertreter: schnell, tatsächlich nützlich für Zusammenfassungen, Textentwürfe und einfache Fragen – und klein genug, um ständig im Arbeitsspeicher gehalten zu werden. Sie erreichen zwar nicht die Leistungsfähigkeit modernster Cloud-Modelle, doch für private, offline durchgeführte Alltagsaufgaben sind sie ausgezeichnet – und stellen den idealen Einstiegspunkt dar, wenn Sie neu im Bereich lokaler KI sind.

Mittlere Modelle – der 16-GB-Goldilocks-Bereich

Die Modellklasse mit 7–14 Milliarden Parametern ist der Bereich, in dem die meisten Nutzer am besten aufgehoben sind. Llama 3.1 8B, Qwen 2.5 7B und Mistral 7B bieten einen deutlichen Sprung bei Kohärenz gegenüber den kleineren Modellen und passen dennoch problemlos in 16 GB RAM oder eine gängige GPU. Phi-4 und Mistral Nemo steigern Qualität und Kontextlänge weiter. Wenn Sie ein universell einsetzbares Modell suchen, wählen Sie aus dieser Zeile – hier finden Sie das beste Verhältnis aus Leistungsfähigkeit und Hardwareanforderungen.

Große Modelle – Bereich Workstation und GPU

Ab 27 Milliarden Parametern benötigen Sie ernsthafte Hardware. Gemma 2 27B und Qwen 2.5 32B erfordert mindestens 32 GB (besser mehr); Mixtral 8x7B sowie Modelle der 70-Milliarden-Klasse – Llama 3.3 70B und das DeepSeek-R1 70B (Distill) – benötigen 48 GB oder mehr schnellen Arbeitsspeicher, was in der Praxis entweder eine GPU mit hohem VRAM oder einen Apple-Silicon-Mac mit viel Arbeitsspeicher bedeutet. Der Gewinn ist eine Qualität, die den großen Cloud-Modellen nahekommt – vollständig auf Ihrem eigenen Gerät ausgeführt. Weitere Informationen dazu finden Sie in unserem beste GPUs für KI Leitfaden zu den tatsächlich kompatiblen Systemen.

Spezialisierte Modelle: Programmierung, Vision und Embeddings

Neben allgemeinen Chat-Modellen bietet Ollama auch aufspezielle Aufgaben zugeschnittene Modelle an. Qwen 2.5 Coder und Code Llama sind speziell für Programmieraufgaben konzipiert und integrieren sich hervorragend mit lokalen IDE-Tools. LLaVA erweitert die Fähigkeiten um Vision, sodass ein Modell Bilder beschreiben oder über sie schlussfolgern kann. Und Embedding-Modelle wie nomic-embed-text und mxbai-embed-large unterhalten sich überhaupt nicht – sie wandeln Text in Vektoren für die Suche und die retrieval-augmented generation (RAG) um, die Grundlage eines lokalen RAG-Setups ist.

Welches Ollama-Modell sollten Sie tatsächlich verwenden?

Die ehrliche Antwort lautet: das größte Modell, das Ihr Arbeitsspeicher in der gewünschten Klasse aufnehmen kann. Für den allgemeinen Einsatz beginnen Sie mit einem 8B-Modell und steigen nur dann auf ein größeres Modell auf, wenn die Qualität unzureichend ist. Für Schlussfolgerungsaufgaben probieren Sie eine DeepSeek-R1-Distillation aus; für Programmieraufgaben eignet sich Qwen 2.5 Coder; für Bildaufgaben LLaVA. Wir bewerten die besten Modelle nach Anwendungsfall in den besten lokalen LLMs für Ollama, und vergleichen Ollama selbst mit den Alternativen in Ollama vs. LM Studio vs. vLLM vs. llama.cpp.

Prüfen Sie vor dem Download, ob ein Modell auf Ihr System passt

Der häufigste Fehler besteht darin, ein Modell herunterzuladen, das zu groß für Ihre Maschine ist – es wird entweder gar nicht geladen oder läuft extrem langsam, weil es auf die Festplatte auslagert. Bevor Sie ein Modell herunterladen, prüfen Sie dessen Speicherbedarf: Als grobe Faustregel benötigt ein 4-Bit-Modell knapp unter 1 GB Arbeitsspeicher pro Milliarde Parameter zuzüglich Puffer für den Kontext. Unser kostenloser VRAM-Rechner berechnet die exakte Speichergröße für jedes Modell und jede Quantisierung, und Systemanforderungen von Ollama erläutern ausführlich den Kompromiss zwischen Arbeitsspeicher (RAM) und Grafikspeicher (VRAM).

Häufig gestellte Fragen

Wie liste ich die in Ollama installierten Modelle auf? Ausführen ollama list um alle installierten Modelle mit ihrer jeweiligen Größe anzuzeigen, ollama ps um das aktuell geladene Modell anzuzeigen, und ollama rm <Name> um ein Modell zu löschen.

Welches ist das beste Ollama-Modell? Es gibt kein einzelnes „bestes“ Modell – die Wahl hängt von Ihrem verfügbaren Arbeitsspeicher ab. Llama 3.1 8B ist die beste Allround-Wahl für Rechner mit 16 GB RAM; weitere Empfehlungen nach Anwendungsfall finden Sie in unserer Rangliste .

Wie viele Modelle bietet Ollama an? Hunderte Modelle aus den Bereichen Chat, Programmierung, Vision und Embeddings, jeweils in mehreren Größenklassen. Die obige Tabelle enthält diejenigen Modelle, die tatsächlich am häufigsten genutzt werden.

Wie viel Arbeitsspeicher benötige ich, um Ollama-Modelle auszuführen? Mit 8 GB RAM können kleine Modelle (1B–4B) ausgeführt werden, mit 16 GB RAM laufen die gängigen 7B–8B-Modelle, während für 27B-Modelle und größer mindestens 32 GB RAM oder eine GPU erforderlich sind. Überprüfen Sie jeden Modellbedarf mit unserem VRAM-Rechner.

Kann ich diese Modelle offline betreiben? Ja – sobald ein Modell einmal heruntergeladen ist, läuft es vollständig lokal auf Ihrem Rechner ohne Internetverbindung. Dies ist der Hauptgrund, warum man überhaupt auf lokale Modelle zurückgreift.

Das Fazit

Die Liste der Ollama-Modelle ist lang, doch die Auswahl ist einfach: Entscheiden Sie zunächst, wofür Sie das Modell benötigen – allgemeine Unterhaltung, logisches Schließen, Programmierung, Bildverarbeitung oder Embeddings – und wählen Sie dann das größtmögliche Modell aus dieser Kategorie, das Ihr Arbeitsspeicher aufnehmen kann. Beginnen Sie mit einem 8B-Modell, nutzen Sie ollama list um den Überblick über Ihre Modelle zu behalten, und konsultieren Sie vor jedem Download stets die VRAM-Rechner – so vermeiden Sie, ein Modell herunterzuladen, das Ihre Maschine nicht ausführen kann. Ab diesem Punkt ist die lokale und private Nutzung leistungsfähiger KI nur noch wenige Befehle entfernt.

Modellnamen, -größen und -verfügbarkeit ändern sich regelmäßig; die angegebenen Werte sind ungefähre Standardwerte, gültig ab Mitte 2026 – überprüfen Sie diese daher stets mit ollama list und der offiziellen Bibliothek, bevor Sie sich darauf verlassen.