Projekt 07 · Laufend

KI Lokal

Oder: Warum ich mir zum ersten Mal seit Jahrzehnten einen Tower-PC gekauft habe.

Jahrzehntelang bin ich mit Laptops klargekommen. Dann kam der Wunsch, lokale KI-Modelle zu betreiben. Und mit dem Wunsch kam die Erkenntnis: dafür braucht man eine große Grafikkarte.

Im Sommer 2025 kaufte ich mir einen Tower-PC. NVIDIA RTX 5080, 16 GB VRAM. Für teures Geld. Der erste Tower seit ich denken kann.

Es war ein Experiment. Mit ernüchterndem Start.

01 Lokale Sprachmodelle

Der digitale Zwilling und seine Tücken

Die ersten Versuche unter Windows fühlten sich an wie eine Zeitreise in die 2000er. Abhängigkeitsfehler. Bibliotheken die sich gegenseitig blockieren. Nichts lief einfach einfach.

Ich bekam den Tipp, WSL2 mit Ubuntu unter Windows zu probieren. Die Installation lief deutlich sauberer. Dafür war das neue Problem: Der Zugriff auf das Windows-Dateisystem war mühsam. Mein eigentliches Ziel — einen digitalen Zwilling zu bauen, der meinen Rechner steuert — rückte in weite Ferne.

Llama von Meta — eine der wenigen sauberen Windows-Installationsmöglichkeiten.

Etwas später kamen bessere Windows-Installationswege für Llama von Meta. Aber dann die nächste Hürde: Für die Computersteuerung braucht man einzelne Python-Programme. Ich probierte einiges. Merkte aber schnell, dass der Aufwand für die Zeit, die ich investieren wollte, noch viel zu groß war.

Das Ziel war klar. Der Weg dorthin war es nicht.

Heute gibt es bereits viel einfachere Varianten in der Cloud. Claude Code. NotebookLM. OpenAI Operator.

Stand Mai 2026: Man kann Gemma 3 von Google bereits lokal laufen lassen. Die Verknüpfung mit der Computersteuerung ist aber noch nicht einfach — und das hat auch einen Grund.

Gemma 3 — lokal lauffähig, aber Computersteuerung bleibt komplex.

Bei den KI-Firmen besteht ein verständlicher Wunsch, Geld zu verdienen. Wenn man keine Tokens in der Cloud verbraucht, geht das gegen die Maxime der Gewinnmaximierung. Lokale Modelle, die alles können, sind für das Geschäftsmodell nicht die attraktivste Richtung.

Ich warte da erstmal.

02 Bildgenerierung & Video

Stable Diffusion, ComfyUI — und ich als Joker

Intensiver beschäftigt habe ich mich mit Bildbearbeitung und Videogenerierung. Über Stability Matrix lassen sich Webanwendungen wie Stable Diffusion und ComfyUI bequem installieren. Modelle bekommt man von CivitAI und Huggingface.

Einfach für jeden Laien ist es trotzdem nicht. Man muss sich damit auseinandersetzen.

Stable Diffusion — der Platzhirsch bei lokaler Bildgenerierung.

ComfyUI — mächtig, komplex, vor allem für Videogenerierung.

Stable Diffusion ist der Platzhirsch bei der Bildgenerierung. Die Oberfläche hat aber viele Einstellungen — und die Prompts müssen teilweise sehr kryptisch formuliert werden, um gute Ergebnisse zu bekommen. Das ist keine Kleinigkeit.

Stable Diffusion Web UI — Screenshot mit allen Einstellungen

Die Web-UI von Stable Diffusion. Sampling-Methoden, CFG Scale, Steps, Negative Prompts — das ist kein Werkzeug für fünf Minuten.

Das Interessanteste war das Trainieren eigener Modelle. Man nimmt eine Reihe eigener Fotos, trainiert darauf ein Modell — und kann danach mit wenigen Handgriffen beliebige Bilder von sich selbst generieren. In beliebigen Szenarien. Beliebigen Stilen. Beliebigen Epochen.

Angel Perez Valence als Joker — generiert mit eigenem Stable Diffusion Modell

Ich. Als Joker. Generiert mit meinem eigenen trainierten Modell. Stable Diffusion. Kein Photoshop.

Das ist recht lustig, wenn du ein Modell für dich selbst hast.

Videogenerierung mit ComfyUI ist noch aufwendiger. Gut möglich, aber der Zeitaufwand ist erheblich.

Mein Fazit: Das alles ergibt nur dann Sinn, wenn man entweder im großen Stil Kosten sparen will — oder wenn Privatsphäre ein Thema ist. Für 99 % meines Bedarfs ist die schnellste und beste Wahl nach wie vor die Cloud. OpenAI hat kürzlich ein sehr gutes Bildgenerierungsmodell gelauncht und damit Gemini als bisherigen Spitzenreiter abgelöst.

Ich werde weiter ausprobieren. Und weiter am Zahn der Zeit bleiben.