ifun.de — Apple News seit 2001. 44 152 Artikel

Lokale KI-Modelle ohne Cloud-Anbindung

Ollama mit neuer Mac-App: KI-Sprachmodelle lokal ausführen

Artikel auf Mastodon teilen.
21 Kommentare 21

Ollama ist ein quelloffenes Werkzeug zur Ausführung großer Sprachmodelle auf dem eigenen Rechner. ifun.de-Leser kennen das Tool seit Herbst 2023. Im Gegensatz zu cloudbasierten Angeboten verlassen dabei weder Eingaben noch Ausgaben das genutzte System.

Modalpartikel

Ollama macht lokale KI-Modelle nutzbar

Das macht Ollama vor allem für Entwickler, Hobbyisten, Bildungseinrichtungen und datenschutzsensible Unternehmen interessant. Neben der schon länger verfügbaren Kommandozeilensteuerung steht seit Kurzem auch eine grafische Oberfläche zur Verfügung, die den Einstieg und die Nutzung erleichtert.

Mit der jetzt neu veröffentlichten Mac-Anwendung öffnet sich das Projekt einer breiteren Zielgruppe. Die neue Applikation ermöglicht die lokale Interaktion mit Sprachmodellen über eine Benutzeroberfläche, ohne dass zusätzliche Tools oder Terminalkenntnisse erforderlich sind. KI-Modelle lassen sich direkt aus der Anwendung laden und starten, Gespräche laufen in einem klassischen Chatfenster ab.

Dateiverarbeitung und Bilderkennung

Die neue Mac-App erlaubt darüber hinaus das Einbinden eigener Dateien. Per Drag-and-drop lassen sich PDFs oder Textdokumente direkt in das Chatfenster ziehen, um deren Inhalte analysieren oder zusammenfassen zu lassen. Auch Quellcode-Dateien lassen sich verarbeiten, was sich etwa für die Erstellung technischer Dokumentationen nutzen lässt.

Ergänzend dazu unterstützt Ollama nun auch sogenannte multimodale Modelle, die neben Text auch Bilder interpretieren können. Dies gilt etwa für das Google-Modell „Gemma 3“. Nutzer können Bilder zur Auswertung übergeben, sofern das jeweils aktive Modell entsprechende Funktionen unterstützt.

Für komplexere Aufgaben lässt sich in den Einstellungen die sogenannte Kontextlänge anpassen. Dies erweitert den für das Modell sichtbaren Eingabebereich und verbessert dadurch die Verarbeitung umfangreicher Texte. Der erhöhte Speicherbedarf erfordert allerdings ausreichend leistungsfähige Hardware. Die klassische Kommandozeilenversion von Ollama bleibt weiterhin verfügbar.

Context Length

31. Juli 2025 um 08:24 Uhr von Nicolas Fehler gefunden?


    21 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
    • Man benötigt aber schon potente Hardware dafür, wenn man nicht Jahre auf eine Antwort warten möchte. Ich kann Gemma3:27b sehe empfehlen. Dafür benötigt man aber mindestens 32GB RAM.

      • Mac mit M3/M4 bietet sich da an, die haben ja bereits KI-Erweiterung onboard.

        Ob ich mir dafür aber extra Hardware hinstellen würde, weiss ich nicht, da kann das ganze KI-Zeug doch gerne online arebiten.

      • Du meinst die Neural Engine. Das haben auch der M1 und der M2. Die wurde halt von Generation zu Generation stärker. Ollama nutzt die aber aktuell nicht und führt die Inferenzen auf CPU und GPU aus. Aber auch die GPU Leistung stieg von Generation zu Generation. Das ist aber alles nicht so wichtig. Wichtig ist genug unified memory im Mac zu haben. Das entscheidet ob ein Modell überhaupt ausgeführt werden kann. Wie schnell, hängt dann von der Hardware Generation ab.

      • MacBook Pro M1 mit 16GB funktioniert wunderbar

      • Klar, aber nicht mit Gemma3:27b.

  • Ich kann auch LibreChat empfehlen. Da kann Ollama, aber auch alle anderen Antrophic, Google Gemini, OpenAI etc.

    One chat to rule them all

  • Verstehe ich das richtig, dass man damit dann diese lebenslange Speicherung aller Chats umgehen kann? Ist denn das Sprachmodell dann genauso gut als wenn ich ChatGPT direkt verwende?

    • Ja, das verstehst du richtig. Es gibt viele verschiedene Modelle, die du nutzen kannst. Aber selbst die besten sind nicht so gut wie die online Versionen. Die Hardware, auf denen die großen Onlinemodelle laufen, sind einfach viel potenter als das, was der normale Bürger zur Verfügung hat.

    • Ja, die Chatspeicherung kannst da damit umgehen.

      Nein, die Sprachmodelle sind natürlich deutlich abgespeckt, denn ein normaler Computer hat gar nicht soviel RAM. Die Sprachmodelle müssen leider ins RAM passen. D.h. diese abgespeckten Modelle halluzinieren extrem stark und sind extrem viel schlechter, da ihre Wissensbasis extrem reduziert ist. Aber zum Zusammenfassen von Text oder andere spezielle Aufgaben können die durchaus gut funktionieren.

      Aber wenn du einen Mac Studio M3 Ultra in voller RAM-Ausstattung hast (oder besser mehrere die miteinander verbunden sind), dann kannst du recht „preiswert“ (verglichen mit den herkömmlichen PC/NVIDIA-Grafikkarten Lösungen) auch große (kaum abgespeckte) Sprachmodelle lokal laufen lassen. Aber das ist natürlich immer noch recht teuer.

      • Dem muss ich wiedersprechen.
        Die Open Source Modelle sind inzwischen so gut geworden, dass sie denen von den großen Anbietern in nichts mehr nachstehen.
        Ein starker Computer mit viel RAM und großer SSD Festplatte vorausgesetzt, können auch die großen LLM wie zum Beispiel Deepseek ordentlich darauf laufen.
        Gerade das neue Qwen3 30b ist echt stark und läuft schon mit an die 24 GB RAM richtig gut und ähnlich wie GPT 4o.
        Aber die Ansprüche können variieren. Onlinezugriff haben diese LLM aber nicht, können somit nur mit dem Wissen arbeiten, welches ihnen antrainiert wurde.

      • @sven
        Also, ich habe diverse lokale(!!!) Modelle ausprobiert, und bei schon simplen Wissenfragen (die Einwohnerzahl der zehn größten deutschen Städte) kam nur völliger Quatsch heraus. Ist auch logisch, ein Modell welches nur wenige GB groß ist, kann nur sehr viel weniger Wissen gespeichert haben, als eines das viele TB groß ist. Irgendwo muss ja im Faktor 1000 oder mehr eingespart worden sein.
        In speziellen eingeschränkten Disziplinen kann man die kleinen Modelle durchaus verwenden, z.b. beim zusammenfassen von Text oder Ähnlichem. Aber grundsätzlich sind die tatsächlich sehr viel schlechter. Wer nur in diesen speziellen Bereichen eine KI benötigt, kann durchaus mit den kleinen gut zurecht kommen.

  • So wie ich das verstehe ist dass das Äquivalent zu Lm Studio. Finde ich erst mal super

  • Na ja .. wer wert auf korrekte und hilfreiche Antworten legt, kann sich – meiner Erfahrung nach – nach jetzigem Stand die Installation bei den verfügbaren Modellen sparen. Aber womöglich habe ich ja nur die falschen Fragen gestellt

    • Mit Sicherheit – der richtig Prompt entscheidet über die Qualität der Antworten, da gibt es schon ganze Bücher drüber, so umfangreich ist das Thema und die Möglichkeiten.
      Wir nutzen in der Firma sehr viel KI und das auch mit großem Erfolg – aber nie ohne Überprüfung, den Fehler machen auch viele, die übernehmen alles was die KI rausspuckt 1:1 ungeprüft.

      • Das war, eigentlich leicht erkennbar, eher ironisch gemeint .. wir nutzen auch viel KI, aber genau deshalb sind Qualitäten von Antworten bei gleichen Prompts eben auch gut vergleichbar.

  • Für alle, die hier Fragezeichen auf der Stirn haben kann ich nur empfehlen: ausprobieren, ausprobieren, ausprobieren.
    Weg vom Mutmaßen hin zum Handeln.

  • Paul_Fridolin_CH

    Kann mir bitte jemand sagen, was der Unterschied von Ollama zu fullmoon ist?
    fullmoon ist im Apple Store, jeweils für Mac ab OS 14, für neuere iPad und iPhone.

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 44152 Artikel in den vergangenen 8683 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2025 aketo GmbH   ·   Impressum   ·      ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven