Lokale KI-Modelle ohne Cloud-Anbindung

Ollama mit neuer Mac-App: KI-Sprachmodelle lokal ausführen

Ollama ist ein quelloffenes Werkzeug zur Ausführung großer Sprachmodelle auf dem eigenen Rechner. ifun.de-Leser kennen das Tool seit Herbst 2023. Im Gegensatz zu cloudbasierten Angeboten verlassen dabei weder Eingaben noch Ausgaben das genutzte System.

Ollama macht lokale KI-Modelle nutzbar

Das macht Ollama vor allem für Entwickler, Hobbyisten, Bildungseinrichtungen und datenschutzsensible Unternehmen interessant. Neben der schon länger verfügbaren Kommandozeilensteuerung steht seit Kurzem auch eine grafische Oberfläche zur Verfügung, die den Einstieg und die Nutzung erleichtert.

Mit der jetzt neu veröffentlichten Mac-Anwendung öffnet sich das Projekt einer breiteren Zielgruppe. Die neue Applikation ermöglicht die lokale Interaktion mit Sprachmodellen über eine Benutzeroberfläche, ohne dass zusätzliche Tools oder Terminalkenntnisse erforderlich sind. KI-Modelle lassen sich direkt aus der Anwendung laden und starten, Gespräche laufen in einem klassischen Chatfenster ab.

Dateiverarbeitung und Bilderkennung

Die neue Mac-App erlaubt darüber hinaus das Einbinden eigener Dateien. Per Drag-and-drop lassen sich PDFs oder Textdokumente direkt in das Chatfenster ziehen, um deren Inhalte analysieren oder zusammenfassen zu lassen. Auch Quellcode-Dateien lassen sich verarbeiten, was sich etwa für die Erstellung technischer Dokumentationen nutzen lässt.

Ergänzend dazu unterstützt Ollama nun auch sogenannte multimodale Modelle, die neben Text auch Bilder interpretieren können. Dies gilt etwa für das Google-Modell „Gemma 3“. Nutzer können Bilder zur Auswertung übergeben, sofern das jeweils aktive Modell entsprechende Funktionen unterstützt.

Für komplexere Aufgaben lässt sich in den Einstellungen die sogenannte Kontextlänge anpassen. Dies erweitert den für das Modell sichtbaren Eingabebereich und verbessert dadurch die Verarbeitung umfangreicher Texte. Der erhöhte Speicherbedarf erfordert allerdings ausreichend leistungsfähige Hardware. Die klassische Kommandozeilenversion von Ollama bleibt weiterhin verfügbar.

31. Juli 2025 um 08:24 Uhr von Nicolas Fehler gefunden?

22 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

FraggDieb 31.07.2025, 09:05 Uhr

Wie soll das offline funktionieren?

Antworten Melden

Lanope 31.07.2025, 09:12 Uhr

Weil das Modell lokal inferiert wird.

Antworten Melden

Antworten Melden
Lanope 31.07.2025, 10:25 Uhr

Man benötigt aber schon potente Hardware dafür, wenn man nicht Jahre auf eine Antwort warten möchte. Ich kann Gemma3:27b sehe empfehlen. Dafür benötigt man aber mindestens 32GB RAM.

Antworten Melden

Antworten Melden

Tom 31.07.2025, 11:34 Uhr

Mac mit M3/M4 bietet sich da an, die haben ja bereits KI-Erweiterung onboard.

Ob ich mir dafür aber extra Hardware hinstellen würde, weiss ich nicht, da kann das ganze KI-Zeug doch gerne online arebiten.
Lanope 31.07.2025, 15:49 Uhr

Du meinst die Neural Engine. Das haben auch der M1 und der M2. Die wurde halt von Generation zu Generation stärker. Ollama nutzt die aber aktuell nicht und führt die Inferenzen auf CPU und GPU aus. Aber auch die GPU Leistung stieg von Generation zu Generation. Das ist aber alles nicht so wichtig. Wichtig ist genug unified memory im Mac zu haben. Das entscheidet ob ein Modell überhaupt ausgeführt werden kann. Wie schnell, hängt dann von der Hardware Generation ab.
HansDampf 31.07.2025, 16:47 Uhr

MacBook Pro M1 mit 16GB funktioniert wunderbar
Lanope 31.07.2025, 19:14 Uhr

Klar, aber nicht mit Gemma3:27b.

iMer 31.07.2025, 10:18 Uhr

Ich kann auch LibreChat empfehlen. Da kann Ollama, aber auch alle anderen Antrophic, Google Gemini, OpenAI etc.

One chat to rule them all

Buzz Lightyear 31.07.2025, 10:20 Uhr

Verstehe ich das richtig, dass man damit dann diese lebenslange Speicherung aller Chats umgehen kann? Ist denn das Sprachmodell dann genauso gut als wenn ich ChatGPT direkt verwende?

Lanope 31.07.2025, 10:27 Uhr

Ja, das verstehst du richtig. Es gibt viele verschiedene Modelle, die du nutzen kannst. Aber selbst die besten sind nicht so gut wie die online Versionen. Die Hardware, auf denen die großen Onlinemodelle laufen, sind einfach viel potenter als das, was der normale Bürger zur Verfügung hat.

Antworten Melden

Antworten Melden
Gruml 31.07.2025, 11:04 Uhr

Ja, die Chatspeicherung kannst da damit umgehen.

Nein, die Sprachmodelle sind natürlich deutlich abgespeckt, denn ein normaler Computer hat gar nicht soviel RAM. Die Sprachmodelle müssen leider ins RAM passen. D.h. diese abgespeckten Modelle halluzinieren extrem stark und sind extrem viel schlechter, da ihre Wissensbasis extrem reduziert ist. Aber zum Zusammenfassen von Text oder andere spezielle Aufgaben können die durchaus gut funktionieren.

Aber wenn du einen Mac Studio M3 Ultra in voller RAM-Ausstattung hast (oder besser mehrere die miteinander verbunden sind), dann kannst du recht „preiswert“ (verglichen mit den herkömmlichen PC/NVIDIA-Grafikkarten Lösungen) auch große (kaum abgespeckte) Sprachmodelle lokal laufen lassen. Aber das ist natürlich immer noch recht teuer.

Antworten Melden

Antworten Melden

Sven 31.07.2025, 11:44 Uhr

Dem muss ich wiedersprechen.
Die Open Source Modelle sind inzwischen so gut geworden, dass sie denen von den großen Anbietern in nichts mehr nachstehen.
Ein starker Computer mit viel RAM und großer SSD Festplatte vorausgesetzt, können auch die großen LLM wie zum Beispiel Deepseek ordentlich darauf laufen.
Gerade das neue Qwen3 30b ist echt stark und läuft schon mit an die 24 GB RAM richtig gut und ähnlich wie GPT 4o.
Aber die Ansprüche können variieren. Onlinezugriff haben diese LLM aber nicht, können somit nur mit dem Wissen arbeiten, welches ihnen antrainiert wurde.
Gruml 01.08.2025, 09:42 Uhr

@sven
Also, ich habe diverse lokale(!!!) Modelle ausprobiert, und bei schon simplen Wissenfragen (die Einwohnerzahl der zehn größten deutschen Städte) kam nur völliger Quatsch heraus. Ist auch logisch, ein Modell welches nur wenige GB groß ist, kann nur sehr viel weniger Wissen gespeichert haben, als eines das viele TB groß ist. Irgendwo muss ja im Faktor 1000 oder mehr eingespart worden sein.
In speziellen eingeschränkten Disziplinen kann man die kleinen Modelle durchaus verwenden, z.b. beim zusammenfassen von Text oder Ähnlichem. Aber grundsätzlich sind die tatsächlich sehr viel schlechter. Wer nur in diesen speziellen Bereichen eine KI benötigt, kann durchaus mit den kleinen gut zurecht kommen.

Broesel 31.07.2025, 10:22 Uhr

So wie ich das verstehe ist dass das Äquivalent zu Lm Studio. Finde ich erst mal super

Lanope 31.07.2025, 10:25 Uhr

Genau

Antworten Melden

Antworten Melden
Sven 31.07.2025, 11:41 Uhr

Ich sag mal LM Studio ist für die fortgeschrittenen Anwender und Ollama für die absoluten Einsteiger.
In LM Studio kann ma schon sehr viel einstellen, wenn man möchte.

Antworten Melden

Antworten Melden

Slow mo 31.07.2025, 10:54 Uhr

Na ja .. wer wert auf korrekte und hilfreiche Antworten legt, kann sich – meiner Erfahrung nach – nach jetzigem Stand die Installation bei den verfügbaren Modellen sparen. Aber womöglich habe ich ja nur die falschen Fragen gestellt

Tom 31.07.2025, 11:37 Uhr

Mit Sicherheit – der richtig Prompt entscheidet über die Qualität der Antworten, da gibt es schon ganze Bücher drüber, so umfangreich ist das Thema und die Möglichkeiten.
Wir nutzen in der Firma sehr viel KI und das auch mit großem Erfolg – aber nie ohne Überprüfung, den Fehler machen auch viele, die übernehmen alles was die KI rausspuckt 1:1 ungeprüft.

Antworten Melden

Antworten Melden

Slow mo 31.07.2025, 14:37 Uhr

Das war, eigentlich leicht erkennbar, eher ironisch gemeint .. wir nutzen auch viel KI, aber genau deshalb sind Qualitäten von Antworten bei gleichen Prompts eben auch gut vergleichbar.

HansDampf 31.07.2025, 16:51 Uhr

Für alle, die hier Fragezeichen auf der Stirn haben kann ich nur empfehlen: ausprobieren, ausprobieren, ausprobieren.
Weg vom Mutmaßen hin zum Handeln.

Paul_Fridolin_CH 31.07.2025, 21:07 Uhr

Kann mir bitte jemand sagen, was der Unterschied von Ollama zu fullmoon ist?
fullmoon ist im Apple Store, jeweils für Mac ab OS 14, für neuere iPad und iPhone.

Sascha 02.08.2025, 23:17 Uhr

Fullmoon ist eine App für iPhone, die nach einer ersten euphorischen Phase zu Open Source erklärt wurde und jetzt wohl nicht weiterentwickelt wird, habe ich den Eindruck.

Antworten Melden

Antworten Melden

Lokale KI-Modelle ohne Cloud-Anbindung

Ollama mit neuer Mac-App: KI-Sprachmodelle lokal ausführen

Ollama macht lokale KI-Modelle nutzbar

Dateiverarbeitung und Bilderkennung

Redet mit. Seid nett zueinander! Antwort abbrechen