RDMA über Thunderbolt
Für lokale KI: macOS 26.2 beschleunigt Mac-Cluster signifikant
Gleich eine ganze Handvoll neu veröffentlichter YouTube-Videos beschäftigen sich aktuell mit einem „Problem“, das bei lokalen KI-Modellen auf mehreren Macs lange als Bremse galt: Wer mehrere Geräte zu einem Cluster verbindet, gewinnt zwar gemeinsamen Arbeitsspeicher, verliert aber häufig Tempo, weil die Rechner bei der Berechnung ständig Daten austauschen müssen.
Beide Beiträge beschreiben nun einen technischen Schritt, der diese Hürde deutlich verkleinern soll.
Im Mittelpunkt stehen mehrere Modelle des Mac Studio die über Thunderbolt-Verbindungen miteinander vernetzt werden. Als Bausteine nennen beide Videos das neue EXO 1.0 als Cluster-Manager und eine neue Funktion in macOS 26.2, die RDMA über Thunderbolt ermöglicht. Dies macht es möglich, große KI-Sprachmodelle lokal auszuführen, ohne Anfragen an externe Cloud-Dienste zu schicken.
RDMA über Thunderbolt
Der Beitrag von Jake Tivy zeigt eine Konfiguration aus vier Mac Studios, die zusammen rund 1,5 Terabyte Unified Memory bereitstellen. Getestet wird unter anderem, wie schnell sich ein großes Modell verteilt berechnen lässt. Mit klassischem 10 Gigabit Ethernet bleibt die Ausgabe trotz zusätzlicher Rechner zunächst nahezu unverändert, weil die Latenz bei der Übergabe der Zwischenergebnisse dominiert.
RDMA über Thunderbolt, das in macOS 26.2 aktiviert werden kann, sofern die Hardware Thunderbolt 5 unterstützt, ist hier der entscheidende Hebel. Im gezeigten Aufbau werden die Mac Studios direkt per Thunderbolt verbunden. Mit RDMA sollen Daten zwischen den Rechnern direkter übertragen werden, was die Wartezeiten deutlich reduziert.
EXO 1.0, MLX und Tensor Parallelism
Alex Ziskind setzt den Schwerpunkt auf die Software-Ebene und beschreibt EXO 1.0 als vereinfachten Einstieg in kraftvolle Cluster-Setups. Statt vieler manueller Schritte reicht ein Installer nun, um mehrere Macs schnell zu einem Verbund zusammenzuführen. Neu ist aus seiner Sicht vor allem, dass die Beschleunigung nicht nur durch mehr Speicher entsteht, sondern durch andere Formen der Parallelisierung.
Beispielhaft erläutert Ziskind den Unterschied zwischen Pipeline Parallelism und Tensor Parallelism. Bei der Pipeline-Methode arbeiten Geräte nacheinander, weshalb zusätzliche Nodes nicht automatisch schneller sind. Mit RDMA und Apples MLX-Framework soll Tensor Parallelism möglich werden, bei der Rechenschritte innerhalb einer Schicht parallel verteilt werden.
Zum Thema ebenfalls lesenswert ist der mit ausführlichen Benchmarks gespickte Bericht von Jeff Geerling. Dieser erklärt unter der Überschrift „1.5 TB of VRAM on Mac Studio – RDMA over Thunderbolt 5“ auch, warum plötzliche zahlreiche Varianten der eher esoterischen Machbarkeitsstudie auf YouTube zu finden sind:
„Apple gave me access to this Mac Studio cluster to test RDMA over Thunderbolt […] The stack of Macs I tested, with 1.5 TB of unified memory, costs just shy of $40,000, and if you’re wondering, no I cannot justify spending that much money for this. Apple loaned the Mac Studios for testing […]“

Whow. Was es alles gibt…
Falls noch einer von euch ein Weihnachtsgeschenk für mich sucht… hier oben ist es ;)
Du willst Marcel haben?
Gibt es sinnvolle Einsatzzwecke für Privatleute?
…
Vertrauliche Informationen müssen nicht an eine externe KI gesendet werden.
Erst schreibt ihr „eine Handvoll Videos“ und dann „beide Beiträge“. Verlinkt sind dann aber drei Videos.