KI-Sprachmodelle lokal nutzen: Ollama, Llama & Co.

ChatGPT und Claude sind großartig – aber was ist, wenn du sensible Daten verarbeiten willst? Oder wenn du keine monatlichen Abos zahlen möchtest? Die Lösung: KI-Modelle lokal auf deinem eigenen Computer. Klingt kompliziert? Mit Tools wie Ollama ist es überraschend einfach.

Warum lokale KI?

Die Vorteile

🔒 Volle Privatsphäre: Deine Daten verlassen nie deinen Computer
💰 Keine laufenden Kosten: Einmal eingerichtet, komplett kostenlos
🌐 Offline nutzbar: Funktioniert ohne Internetverbindung
⚡ Keine API-Limits: Nutze KI so oft du willst
🛠️ Volle Kontrolle: Wähle selbst Modelle und Parameter
🎓 Lern-Faktor: Verstehe besser, wie KI funktioniert

Die Nachteile

💻 Benötigt leistungsstarke Hardware (besonders GPU)
⏱️ Langsamer als Cloud-KI (abhängig vom System)
🎯 Meist weniger leistungsstark als GPT-4 oder Claude
🔧 Technisches Setup nötig
📦 Große Downloads (Modelle sind mehrere GB groß)

💡Für wen ist das?

Lokale KI ist perfekt für: Entwickler, Datenschutz-Bewusste, Nutzer mit sensiblen Daten (Medizin, Recht), Power-User die viel mit KI arbeiten, und alle die lernen wollen, wie KI technisch funktioniert.

Ollama: Der einfachste Einstieg

Ollama ist wie Docker für KI-Modelle. Es macht das Installieren und Nutzen lokaler Sprachmodelle unglaublich einfach.

Installation (macOS, Linux, Windows)

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Installer von ollama.com herunterladen

# Erstes Modell herunterladen und starten
ollama run llama3.3

Das war's! Nach dem Download startet automatisch ein Chat mit dem Llama 3.3 Modell.

Die besten lokalen Modelle

1. Llama 3.3 (70B) – Der Allrounder

Von Meta entwickelt
70 Milliarden Parameter
Sehr gute Qualität, nahe an GPT-4
Benötigt ~40GB RAM
Ideal für: Allgemeine Aufgaben, Texte schreiben, Coding

ollama run llama3.3

2. Mistral (7B) – Klein aber oho

Von Mistral AI entwickelt
7 Milliarden Parameter
Sehr gute Performance bei geringer Größe
Läuft auf Consumer-Hardware
Ideal für: Schnelle Aufgaben, weniger RAM verfügbar

ollama run mistral

3. Phi-3.5 (3.8B) – Der Leichtgewicht

Von Microsoft entwickelt
Nur 3.8 Milliarden Parameter
Überraschend gut für die Größe
Läuft sogar auf Laptops ohne dedizierte GPU
Ideal für: Begrenzte Hardware, Experimente

ollama run phi3.5

4. CodeLlama – Spezialist fürs Programmieren

Spezialisiert auf Code-Generierung
Besser als Llama bei Programmieraufgaben
Mehrere Größen verfügbar (7B, 13B, 34B)
Ideal für: Entwickler, Code-Reviews, Debugging

ollama run codellama

💡Welches Modell wählen?

Probiere Mistral oder Phi-3.5 für den Start. Wenn du mehr Power hast: Llama 3.3. Für Code: CodeLlama. Du kannst beliebig viele Modelle parallel installiert haben!

System-Anforderungen

Minimal (Phi-3.5, 3.8B)

CPU: Moderner Prozessor (x86_64)
RAM: 8GB
GPU: Optional, aber empfohlen
Speicher: 5-10GB pro Modell

Optimal (Llama 3.3, 70B)

CPU: High-End Prozessor
RAM: 32-64GB
GPU: NVIDIA RTX 4090 oder besser (24GB VRAM)
Speicher: 40-80GB

💡GPU-Power

Mit einer guten NVIDIA-GPU (CUDA) ist lokale KI 10-50x schneller als nur mit CPU. AMD-GPUs (ROCm) werden teilweise unterstützt, aber NVIDIA ist aktuell am besten.

Praktische Anwendungen

1. Terminal-Chat

Der einfachste Weg: Direkt im Terminal chatten.

ollama run llama3.3

>>> Erkläre mir Rekursion in Python
[KI antwortet...]

>>> Schreibe ein Beispiel
[KI antwortet...]

2. Als API nutzen

Ollama startet automatisch einen API-Server. Nutze ihn wie die OpenAI API!

import requests

response = requests.post('http://localhost:11434/api/generate',
    json={
        'model': 'llama3.3',
        'prompt': 'Erkläre Quantencomputer einfach',
        'stream': False
    }
)

print(response.json()['response'])

3. Mit GUI-Tools

Open WebUI: Modernes ChatGPT-ähnliches Interface
AnythingLLM: Dokumente hochladen und damit chatten
VS Code Extension: Ollama direkt im Editor nutzen
Obsidian Plugin: KI in deinen Notes

Lokal vs. Cloud: Der direkte Vergleich

Qualität

GPT-4: 🥇 10/10 – State of the Art
Claude 3.5: 🥇 10/10 – Ebenbürtig mit GPT-4
Llama 3.3 (70B): 🥈 8/10 – Sehr gut, kleine Schwächen
Mistral (7B): 🥉 6/10 – Gut für die Größe
Phi-3.5 (3.8B): 5/10 – Okay für einfache Aufgaben

Geschwindigkeit (mit RTX 4090)

GPT-4: ~30 tokens/Sekunde
Claude: ~40 tokens/Sekunde
Llama 3.3 (lokal): ~20-30 tokens/Sekunde
Mistral (lokal): ~50-80 tokens/Sekunde
Phi-3.5 (lokal): ~100+ tokens/Sekunde

⚠️Ohne GPU

Ohne dedizierte GPU sind lokale Modelle 10-50x langsamer! Llama 3.3 braucht dann mehrere Sekunden pro Token. Für CPU-only: Nutze kleinere Modelle wie Phi-3.5.

Erweiterte Tipps

Modelldateien anpassen

Du kannst Modelle mit eigenen System-Prompts oder Parametern anpassen:

# Erstelle eine Modelfile
echo 'FROM llama3.3
SYSTEM Du bist ein hilfreicher Coding-Assistent.
PARAMETER temperature 0.7' > Modelfile

# Erstelle custom Modell
ollama create my-coder -f Modelfile

# Nutzen
ollama run my-coder

Mehrere Modelle gleichzeitig

Ollama kann mehrere Modelle parallel laden (wenn genug RAM vorhanden):

# Terminal 1
ollama run llama3.3

# Terminal 2 (parallel)
ollama run codellama

Alternativen zu Ollama

LM Studio

GUI-basiert (kein Terminal nötig)
Einfacher für Einsteiger
Modelle aus Hugging Face laden
Windows, macOS, Linux

llama.cpp

Für Fortgeschrittene
Maximale Performance
Command-line Tool
Basis für viele andere Tools (inkl. Ollama)

GPT4All

Desktop-App mit GUI
Sehr einsteigerfreundlich
Dokumenten-Chat integriert
Kostenlos und Open Source

Typische Use Cases

1. Sensible Dokumente analysieren

Perfekt für Anwälte, Ärzte, Berater: Analysiere vertrauliche Dokumente ohne sie in die Cloud zu laden.

2. Coding Assistant

Nutze CodeLlama als lokalen Copilot. Dein Code bleibt privat.

3. Offline-Arbeit

Im Flugzeug, auf Reisen, oder bei schlechtem Internet: KI funktioniert trotzdem.

4. Experimente & Lernen

Keine API-Kosten = du kannst unbegrenzt experimentieren und lernen, wie KI funktioniert.

Mein Fazit

Lokale KI ist keine Zukunftsmusik mehr – mit Ollama und modernen Modellen wie Llama 3.3 ist es praktisch nutzbar. Die Qualität erreicht zwar noch nicht ganz GPT-4 oder Claude, aber für viele Anwendungsfälle reicht es absolut.

💡Meine Empfehlung

Nutze Cloud-KI (ChatGPT, Claude) für kreative Aufgaben und wenn du beste Qualität brauchst. Nutze lokale KI (Ollama) für sensible Daten, Offline-Arbeit und wenn du viel experimentierst. Ideal ist die Kombination aus beidem!

Der größte Vorteil: Du behältst die Kontrolle. Deine Daten, dein Computer, deine KI. Und mit Tools wie Ollama ist der Einstieg so einfach wie nie!

Warum lokale KI?

Die Vorteile

🔒 Volle Privatsphäre: Deine Daten verlassen nie deinen Computer
💰 Keine laufenden Kosten: Einmal eingerichtet, komplett kostenlos
🌐 Offline nutzbar: Funktioniert ohne Internetverbindung
⚡ Keine API-Limits: Nutze KI so oft du willst
🛠️ Volle Kontrolle: Wähle selbst Modelle und Parameter
🎓 Lern-Faktor: Verstehe besser, wie KI funktioniert

Die Nachteile

💻 Benötigt leistungsstarke Hardware (besonders GPU)
⏱️ Langsamer als Cloud-KI (abhängig vom System)
🎯 Meist weniger leistungsstark als GPT-4 oder Claude
🔧 Technisches Setup nötig
📦 Große Downloads (Modelle sind mehrere GB groß)

💡Für wen ist das?

Ollama: Der einfachste Einstieg

Ollama ist wie Docker für KI-Modelle. Es macht das Installieren und Nutzen lokaler Sprachmodelle unglaublich einfach.

Installation (macOS, Linux, Windows)

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Installer von ollama.com herunterladen

# Erstes Modell herunterladen und starten
ollama run llama3.3

Das war's! Nach dem Download startet automatisch ein Chat mit dem Llama 3.3 Modell.

Die besten lokalen Modelle

1. Llama 3.3 (70B) – Der Allrounder

Von Meta entwickelt
70 Milliarden Parameter
Sehr gute Qualität, nahe an GPT-4
Benötigt ~40GB RAM
Ideal für: Allgemeine Aufgaben, Texte schreiben, Coding

ollama run llama3.3

2. Mistral (7B) – Klein aber oho

Von Mistral AI entwickelt
7 Milliarden Parameter
Sehr gute Performance bei geringer Größe
Läuft auf Consumer-Hardware
Ideal für: Schnelle Aufgaben, weniger RAM verfügbar

ollama run mistral

3. Phi-3.5 (3.8B) – Der Leichtgewicht

Von Microsoft entwickelt
Nur 3.8 Milliarden Parameter
Überraschend gut für die Größe
Läuft sogar auf Laptops ohne dedizierte GPU
Ideal für: Begrenzte Hardware, Experimente

ollama run phi3.5

4. CodeLlama – Spezialist fürs Programmieren

Spezialisiert auf Code-Generierung
Besser als Llama bei Programmieraufgaben
Mehrere Größen verfügbar (7B, 13B, 34B)
Ideal für: Entwickler, Code-Reviews, Debugging

ollama run codellama

💡Welches Modell wählen?

Probiere Mistral oder Phi-3.5 für den Start. Wenn du mehr Power hast: Llama 3.3. Für Code: CodeLlama. Du kannst beliebig viele Modelle parallel installiert haben!

System-Anforderungen

Minimal (Phi-3.5, 3.8B)

CPU: Moderner Prozessor (x86_64)
RAM: 8GB
GPU: Optional, aber empfohlen
Speicher: 5-10GB pro Modell

Optimal (Llama 3.3, 70B)

CPU: High-End Prozessor
RAM: 32-64GB
GPU: NVIDIA RTX 4090 oder besser (24GB VRAM)
Speicher: 40-80GB

💡GPU-Power

Mit einer guten NVIDIA-GPU (CUDA) ist lokale KI 10-50x schneller als nur mit CPU. AMD-GPUs (ROCm) werden teilweise unterstützt, aber NVIDIA ist aktuell am besten.

Praktische Anwendungen

1. Terminal-Chat

Der einfachste Weg: Direkt im Terminal chatten.

ollama run llama3.3

>>> Erkläre mir Rekursion in Python
[KI antwortet...]

>>> Schreibe ein Beispiel
[KI antwortet...]

2. Als API nutzen

Ollama startet automatisch einen API-Server. Nutze ihn wie die OpenAI API!

import requests

response = requests.post('http://localhost:11434/api/generate',
    json={
        'model': 'llama3.3',
        'prompt': 'Erkläre Quantencomputer einfach',
        'stream': False
    }
)

print(response.json()['response'])

3. Mit GUI-Tools

Open WebUI: Modernes ChatGPT-ähnliches Interface
AnythingLLM: Dokumente hochladen und damit chatten
VS Code Extension: Ollama direkt im Editor nutzen
Obsidian Plugin: KI in deinen Notes

Lokal vs. Cloud: Der direkte Vergleich

Qualität

GPT-4: 🥇 10/10 – State of the Art
Claude 3.5: 🥇 10/10 – Ebenbürtig mit GPT-4
Llama 3.3 (70B): 🥈 8/10 – Sehr gut, kleine Schwächen
Mistral (7B): 🥉 6/10 – Gut für die Größe
Phi-3.5 (3.8B): 5/10 – Okay für einfache Aufgaben

Geschwindigkeit (mit RTX 4090)

GPT-4: ~30 tokens/Sekunde
Claude: ~40 tokens/Sekunde
Llama 3.3 (lokal): ~20-30 tokens/Sekunde
Mistral (lokal): ~50-80 tokens/Sekunde
Phi-3.5 (lokal): ~100+ tokens/Sekunde

⚠️Ohne GPU

Ohne dedizierte GPU sind lokale Modelle 10-50x langsamer! Llama 3.3 braucht dann mehrere Sekunden pro Token. Für CPU-only: Nutze kleinere Modelle wie Phi-3.5.

Erweiterte Tipps

Modelldateien anpassen

Du kannst Modelle mit eigenen System-Prompts oder Parametern anpassen:

# Erstelle eine Modelfile
echo 'FROM llama3.3
SYSTEM Du bist ein hilfreicher Coding-Assistent.
PARAMETER temperature 0.7' > Modelfile

# Erstelle custom Modell
ollama create my-coder -f Modelfile

# Nutzen
ollama run my-coder

Mehrere Modelle gleichzeitig

Ollama kann mehrere Modelle parallel laden (wenn genug RAM vorhanden):

# Terminal 1
ollama run llama3.3

# Terminal 2 (parallel)
ollama run codellama

Alternativen zu Ollama

LM Studio

GUI-basiert (kein Terminal nötig)
Einfacher für Einsteiger
Modelle aus Hugging Face laden
Windows, macOS, Linux

llama.cpp

Für Fortgeschrittene
Maximale Performance
Command-line Tool
Basis für viele andere Tools (inkl. Ollama)

GPT4All

Desktop-App mit GUI
Sehr einsteigerfreundlich
Dokumenten-Chat integriert
Kostenlos und Open Source

Typische Use Cases

1. Sensible Dokumente analysieren

Perfekt für Anwälte, Ärzte, Berater: Analysiere vertrauliche Dokumente ohne sie in die Cloud zu laden.

2. Coding Assistant

Nutze CodeLlama als lokalen Copilot. Dein Code bleibt privat.

3. Offline-Arbeit

Im Flugzeug, auf Reisen, oder bei schlechtem Internet: KI funktioniert trotzdem.

4. Experimente & Lernen

Keine API-Kosten = du kannst unbegrenzt experimentieren und lernen, wie KI funktioniert.

Mein Fazit

💡Meine Empfehlung

Der größte Vorteil: Du behältst die Kontrolle. Deine Daten, dein Computer, deine KI. Und mit Tools wie Ollama ist der Einstieg so einfach wie nie!

KI-Sprachmodelle lokal nutzen: Ollama, Llama & Co.

Warum lokale KI?

Die Vorteile

Die Nachteile

Ollama: Der einfachste Einstieg

Installation (macOS, Linux, Windows)

Die besten lokalen Modelle

1. Llama 3.3 (70B) – Der Allrounder

2. Mistral (7B) – Klein aber oho

3. Phi-3.5 (3.8B) – Der Leichtgewicht

4. CodeLlama – Spezialist fürs Programmieren

System-Anforderungen

Minimal (Phi-3.5, 3.8B)

Empfohlen (Mistral, 7B)

Optimal (Llama 3.3, 70B)

Praktische Anwendungen

1. Terminal-Chat

2. Als API nutzen

3. Mit GUI-Tools

Lokal vs. Cloud: Der direkte Vergleich

Qualität

Geschwindigkeit (mit RTX 4090)

Erweiterte Tipps

Modelldateien anpassen

Mehrere Modelle gleichzeitig

Alternativen zu Ollama

LM Studio

llama.cpp

GPT4All

Typische Use Cases

1. Sensible Dokumente analysieren

2. Coding Assistant

3. Offline-Arbeit

4. Experimente & Lernen

Mein Fazit

Weitere Artikel

KI sicher nutzen: Datenschutz und Privatsphäre

Die besten kostenlosen KI-Tools für Einsteiger

Claude vs. ChatGPT: Welche KI ist besser zum Programmieren?

Termine, Cheatsheets & neue KI-Tipps

KI-Sprachmodelle lokal nutzen: Ollama, Llama & Co.

Warum lokale KI?

Die Vorteile

Die Nachteile

Ollama: Der einfachste Einstieg

Installation (macOS, Linux, Windows)

Die besten lokalen Modelle

1. Llama 3.3 (70B) – Der Allrounder

2. Mistral (7B) – Klein aber oho

3. Phi-3.5 (3.8B) – Der Leichtgewicht

4. CodeLlama – Spezialist fürs Programmieren

System-Anforderungen

Minimal (Phi-3.5, 3.8B)

Empfohlen (Mistral, 7B)

Optimal (Llama 3.3, 70B)

Praktische Anwendungen

1. Terminal-Chat

2. Als API nutzen

3. Mit GUI-Tools

Lokal vs. Cloud: Der direkte Vergleich

Qualität

Geschwindigkeit (mit RTX 4090)

Erweiterte Tipps

Modelldateien anpassen

Mehrere Modelle gleichzeitig

Alternativen zu Ollama

LM Studio

llama.cpp

GPT4All

Typische Use Cases

1. Sensible Dokumente analysieren

2. Coding Assistant

3. Offline-Arbeit

4. Experimente & Lernen

Mein Fazit

Weitere Artikel

KI sicher nutzen: Datenschutz und Privatsphäre

Die besten kostenlosen KI-Tools für Einsteiger

Claude vs. ChatGPT: Welche KI ist besser zum Programmieren?

Termine, Cheatsheets & neue KI-Tipps