KI-Sprachmodelle lokal nutzen: Ollama, Llama & Co.
Lerne, wie du KI-Modelle wie Llama, Mistral oder Phi lokal auf deinem Computer nutzt. Volle Privatsphäre, keine Kosten, und deine Daten bleiben bei dir.
Deine Daten bleiben bei dir – so nutzt du KI offline

ChatGPT und Claude sind großartig – aber was ist, wenn du sensible Daten verarbeiten willst? Oder wenn du keine monatlichen Abos zahlen möchtest? Die Lösung: KI-Modelle lokal auf deinem eigenen Computer. Klingt kompliziert? Mit Tools wie Ollama ist es überraschend einfach.
Warum lokale KI?
Die Vorteile
- 🔒 Volle Privatsphäre: Deine Daten verlassen nie deinen Computer
- 💰 Keine laufenden Kosten: Einmal eingerichtet, komplett kostenlos
- 🌐 Offline nutzbar: Funktioniert ohne Internetverbindung
- ⚡ Keine API-Limits: Nutze KI so oft du willst
- 🛠️ Volle Kontrolle: Wähle selbst Modelle und Parameter
- 🎓 Lern-Faktor: Verstehe besser, wie KI funktioniert
Die Nachteile
- 💻 Benötigt leistungsstarke Hardware (besonders GPU)
- ⏱️ Langsamer als Cloud-KI (abhängig vom System)
- 🎯 Meist weniger leistungsstark als GPT-4 oder Claude
- 🔧 Technisches Setup nötig
- 📦 Große Downloads (Modelle sind mehrere GB groß)
Lokale KI ist perfekt für: Entwickler, Datenschutz-Bewusste, Nutzer mit sensiblen Daten (Medizin, Recht), Power-User die viel mit KI arbeiten, und alle die lernen wollen, wie KI technisch funktioniert.
Ollama: Der einfachste Einstieg
Ollama ist wie Docker für KI-Modelle. Es macht das Installieren und Nutzen lokaler Sprachmodelle unglaublich einfach.
Installation (macOS, Linux, Windows)
# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: Installer von ollama.com herunterladen
# Erstes Modell herunterladen und starten
ollama run llama3.3Das war's! Nach dem Download startet automatisch ein Chat mit dem Llama 3.3 Modell.
Die besten lokalen Modelle
1. Llama 3.3 (70B) – Der Allrounder
- Von Meta entwickelt
- 70 Milliarden Parameter
- Sehr gute Qualität, nahe an GPT-4
- Benötigt ~40GB RAM
- Ideal für: Allgemeine Aufgaben, Texte schreiben, Coding
ollama run llama3.32. Mistral (7B) – Klein aber oho
- Von Mistral AI entwickelt
- 7 Milliarden Parameter
- Sehr gute Performance bei geringer Größe
- Läuft auf Consumer-Hardware
- Ideal für: Schnelle Aufgaben, weniger RAM verfügbar
ollama run mistral3. Phi-3.5 (3.8B) – Der Leichtgewicht
- Von Microsoft entwickelt
- Nur 3.8 Milliarden Parameter
- Überraschend gut für die Größe
- Läuft sogar auf Laptops ohne dedizierte GPU
- Ideal für: Begrenzte Hardware, Experimente
ollama run phi3.54. CodeLlama – Spezialist fürs Programmieren
- Spezialisiert auf Code-Generierung
- Besser als Llama bei Programmieraufgaben
- Mehrere Größen verfügbar (7B, 13B, 34B)
- Ideal für: Entwickler, Code-Reviews, Debugging
ollama run codellamaProbiere Mistral oder Phi-3.5 für den Start. Wenn du mehr Power hast: Llama 3.3. Für Code: CodeLlama. Du kannst beliebig viele Modelle parallel installiert haben!
System-Anforderungen
Minimal (Phi-3.5, 3.8B)
- CPU: Moderner Prozessor (x86_64)
- RAM: 8GB
- GPU: Optional, aber empfohlen
- Speicher: 5-10GB pro Modell
Empfohlen (Mistral, 7B)
- CPU: Moderner Mehrkern-Prozessor
- RAM: 16GB
- GPU: NVIDIA mit 8GB VRAM (deutlich schneller)
- Speicher: 10-20GB
Optimal (Llama 3.3, 70B)
- CPU: High-End Prozessor
- RAM: 32-64GB
- GPU: NVIDIA RTX 4090 oder besser (24GB VRAM)
- Speicher: 40-80GB
Mit einer guten NVIDIA-GPU (CUDA) ist lokale KI 10-50x schneller als nur mit CPU. AMD-GPUs (ROCm) werden teilweise unterstützt, aber NVIDIA ist aktuell am besten.
Praktische Anwendungen
1. Terminal-Chat
Der einfachste Weg: Direkt im Terminal chatten.
ollama run llama3.3
>>> Erkläre mir Rekursion in Python
[KI antwortet...]
>>> Schreibe ein Beispiel
[KI antwortet...]2. Als API nutzen
Ollama startet automatisch einen API-Server. Nutze ihn wie die OpenAI API!
import requests
response = requests.post('http://localhost:11434/api/generate',
json={
'model': 'llama3.3',
'prompt': 'Erkläre Quantencomputer einfach',
'stream': False
}
)
print(response.json()['response'])3. Mit GUI-Tools
- Open WebUI: Modernes ChatGPT-ähnliches Interface
- AnythingLLM: Dokumente hochladen und damit chatten
- VS Code Extension: Ollama direkt im Editor nutzen
- Obsidian Plugin: KI in deinen Notes
Lokal vs. Cloud: Der direkte Vergleich
Qualität
- GPT-4: 🥇 10/10 – State of the Art
- Claude 3.5: 🥇 10/10 – Ebenbürtig mit GPT-4
- Llama 3.3 (70B): 🥈 8/10 – Sehr gut, kleine Schwächen
- Mistral (7B): 🥉 6/10 – Gut für die Größe
- Phi-3.5 (3.8B): 5/10 – Okay für einfache Aufgaben
Geschwindigkeit (mit RTX 4090)
- GPT-4: ~30 tokens/Sekunde
- Claude: ~40 tokens/Sekunde
- Llama 3.3 (lokal): ~20-30 tokens/Sekunde
- Mistral (lokal): ~50-80 tokens/Sekunde
- Phi-3.5 (lokal): ~100+ tokens/Sekunde
Ohne dedizierte GPU sind lokale Modelle 10-50x langsamer! Llama 3.3 braucht dann mehrere Sekunden pro Token. Für CPU-only: Nutze kleinere Modelle wie Phi-3.5.
Erweiterte Tipps
Modelldateien anpassen
Du kannst Modelle mit eigenen System-Prompts oder Parametern anpassen:
# Erstelle eine Modelfile
echo 'FROM llama3.3
SYSTEM Du bist ein hilfreicher Coding-Assistent.
PARAMETER temperature 0.7' > Modelfile
# Erstelle custom Modell
ollama create my-coder -f Modelfile
# Nutzen
ollama run my-coderMehrere Modelle gleichzeitig
Ollama kann mehrere Modelle parallel laden (wenn genug RAM vorhanden):
# Terminal 1
ollama run llama3.3
# Terminal 2 (parallel)
ollama run codellamaAlternativen zu Ollama
LM Studio
- GUI-basiert (kein Terminal nötig)
- Einfacher für Einsteiger
- Modelle aus Hugging Face laden
- Windows, macOS, Linux
llama.cpp
- Für Fortgeschrittene
- Maximale Performance
- Command-line Tool
- Basis für viele andere Tools (inkl. Ollama)
GPT4All
- Desktop-App mit GUI
- Sehr einsteigerfreundlich
- Dokumenten-Chat integriert
- Kostenlos und Open Source
Typische Use Cases
1. Sensible Dokumente analysieren
Perfekt für Anwälte, Ärzte, Berater: Analysiere vertrauliche Dokumente ohne sie in die Cloud zu laden.
2. Coding Assistant
Nutze CodeLlama als lokalen Copilot. Dein Code bleibt privat.
3. Offline-Arbeit
Im Flugzeug, auf Reisen, oder bei schlechtem Internet: KI funktioniert trotzdem.
4. Experimente & Lernen
Keine API-Kosten = du kannst unbegrenzt experimentieren und lernen, wie KI funktioniert.
Mein Fazit
Lokale KI ist keine Zukunftsmusik mehr – mit Ollama und modernen Modellen wie Llama 3.3 ist es praktisch nutzbar. Die Qualität erreicht zwar noch nicht ganz GPT-4 oder Claude, aber für viele Anwendungsfälle reicht es absolut.
Nutze Cloud-KI (ChatGPT, Claude) für kreative Aufgaben und wenn du beste Qualität brauchst. Nutze lokale KI (Ollama) für sensible Daten, Offline-Arbeit und wenn du viel experimentierst. Ideal ist die Kombination aus beidem!
Der größte Vorteil: Du behältst die Kontrolle. Deine Daten, dein Computer, deine KI. Und mit Tools wie Ollama ist der Einstieg so einfach wie nie!