RDMA über Thunderbolt

Für lokale KI: macOS 26.2 beschleunigt Mac-Cluster signifikant

Gleich eine ganze Handvoll neu veröffentlichter YouTube-Videos beschäftigen sich aktuell mit einem „Problem“, das bei lokalen KI-Modellen auf mehreren Macs lange als Bremse galt: Wer mehrere Geräte zu einem Cluster verbindet, gewinnt zwar gemeinsamen Arbeitsspeicher, verliert aber häufig Tempo, weil die Rechner bei der Berechnung ständig Daten austauschen müssen.

Beide Beiträge beschreiben nun einen technischen Schritt, der diese Hürde deutlich verkleinern soll.

Im Mittelpunkt stehen mehrere Modelle des Mac Studio die über Thunderbolt-Verbindungen miteinander vernetzt werden. Als Bausteine nennen beide Videos das neue EXO 1.0 als Cluster-Manager und eine neue Funktion in macOS 26.2, die RDMA über Thunderbolt ermöglicht. Dies macht es möglich, große KI-Sprachmodelle lokal auszuführen, ohne Anfragen an externe Cloud-Dienste zu schicken.

RDMA über Thunderbolt

Der Beitrag von Jake Tivy zeigt eine Konfiguration aus vier Mac Studios, die zusammen rund 1,5 Terabyte Unified Memory bereitstellen. Getestet wird unter anderem, wie schnell sich ein großes Modell verteilt berechnen lässt. Mit klassischem 10 Gigabit Ethernet bleibt die Ausgabe trotz zusätzlicher Rechner zunächst nahezu unverändert, weil die Latenz bei der Übergabe der Zwischenergebnisse dominiert.

RDMA über Thunderbolt, das in macOS 26.2 aktiviert werden kann, sofern die Hardware Thunderbolt 5 unterstützt, ist hier der entscheidende Hebel. Im gezeigten Aufbau werden die Mac Studios direkt per Thunderbolt verbunden. Mit RDMA sollen Daten zwischen den Rechnern direkter übertragen werden, was die Wartezeiten deutlich reduziert.

EXO 1.0, MLX und Tensor Parallelism

Alex Ziskind setzt den Schwerpunkt auf die Software-Ebene und beschreibt EXO 1.0 als vereinfachten Einstieg in kraftvolle Cluster-Setups. Statt vieler manueller Schritte reicht ein Installer nun, um mehrere Macs schnell zu einem Verbund zusammenzuführen. Neu ist aus seiner Sicht vor allem, dass die Beschleunigung nicht nur durch mehr Speicher entsteht, sondern durch andere Formen der Parallelisierung.

Beispielhaft erläutert Ziskind den Unterschied zwischen Pipeline Parallelism und Tensor Parallelism. Bei der Pipeline-Methode arbeiten Geräte nacheinander, weshalb zusätzliche Nodes nicht automatisch schneller sind. Mit RDMA und Apples MLX-Framework soll Tensor Parallelism möglich werden, bei der Rechenschritte innerhalb einer Schicht parallel verteilt werden.

Zum Thema ebenfalls lesenswert ist der mit ausführlichen Benchmarks gespickte Bericht von Jeff Geerling. Dieser erklärt unter der Überschrift „1.5 TB of VRAM on Mac Studio – RDMA over Thunderbolt 5“ auch, warum plötzliche zahlreiche Varianten der eher esoterischen Machbarkeitsstudie auf YouTube zu finden sind:

„Apple gave me access to this Mac Studio cluster to test RDMA over Thunderbolt […] The stack of Macs I tested, with 1.5 TB of unified memory, costs just shy of $40,000, and if you’re wondering, no I cannot justify spending that much money for this. Apple loaned the Mac Studios for testing […]“

23. Dez. 2025 um 09:01 Uhr von Nicolas Fehler gefunden?

11 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Marcel 23.12.2025, 09:09 Uhr

Whow. Was es alles gibt…

Antworten Melden

Peter 23.12.2025, 09:28 Uhr

Falls noch einer von euch ein Weihnachtsgeschenk für mich sucht… hier oben ist es ;)

Hallojulia 23.12.2025, 11:54 Uhr

Du willst Marcel haben?

Antworten Melden

Antworten Melden

Flitzpiepe 23.12.2025, 14:47 Uhr

(-‿-)

Tim 23.12.2025, 11:14 Uhr

Gibt es sinnvolle Einsatzzwecke für Privatleute?

Meerschweinchen 23.12.2025, 11:27 Uhr

…

Antworten Melden

Antworten Melden
Marcel 23.12.2025, 11:40 Uhr

Vertrauliche Informationen müssen nicht an eine externe KI gesendet werden.

Antworten Melden

Antworten Melden

SWERNER 23.12.2025, 13:24 Uhr

Daher baue ich gerade im Projekt einen Psydomisierer vor die KI der Token aus den Textbestandteilen erzeugt – die KI wird dann auf diese Token trainiert, die nur der Kunde wieder zu Texten zusammen setzen kann.
Der Nachteil ist, dass die Ki nicht mehr generisch verwendet werden kann und man selber die Rechenleistung für das Training aufbringen muss.
Was macht man nicht alles für den Datenschutz.

Diskutant 23.12.2025, 11:39 Uhr

Erst schreibt ihr „eine Handvoll Videos“ und dann „beide Beiträge“. Verlinkt sind dann aber drei Videos.

Sennless 23.12.2025, 12:09 Uhr

Ich hab mal in ner Schreinerei gearbeitet unser Meister hatte an der rechten hand auch nurnoch 3 Finger, alles ne Frage der Perspektive. /s

Antworten Melden

Antworten Melden

eljobso 23.12.2025, 12:50 Uhr

haben kommt vor brauchen.

RDMA über Thunderbolt

Für lokale KI: macOS 26.2 beschleunigt Mac-Cluster signifikant

RDMA über Thunderbolt

EXO 1.0, MLX und Tensor Parallelism

Redet mit. Seid nett zueinander! Antwort abbrechen