{"id":271693,"date":"2025-12-23T09:01:54","date_gmt":"2025-12-23T08:01:54","guid":{"rendered":"https:\/\/www.ifun.de\/?p=271693"},"modified":"2025-12-23T09:01:54","modified_gmt":"2025-12-23T08:01:54","slug":"fuer-lokale-ki-macos-26-2-beschleunigt-mac-cluster-signifikant","status":"publish","type":"post","link":"https:\/\/www.ifun.de\/fuer-lokale-ki-macos-26-2-beschleunigt-mac-cluster-signifikant-271693\/","title":{"rendered":"F\u00fcr lokale KI: macOS 26.2 beschleunigt Mac-Cluster signifikant"},"content":{"rendered":"<p>Gleich eine ganze Handvoll neu ver\u00f6ffentlichter YouTube-Videos besch\u00e4ftigen sich aktuell mit einem &#8222;Problem&#8220;, das bei lokalen KI-Modellen auf mehreren Macs lange als Bremse galt: Wer mehrere Ger\u00e4te zu einem Cluster verbindet, gewinnt zwar gemeinsamen Arbeitsspeicher, verliert aber h\u00e4ufig Tempo, weil die Rechner bei der Berechnung st\u00e4ndig Daten austauschen m\u00fcssen.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-271694\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt-500x281.jpg\" alt=\"Mac Studio Cluster 2 Cabling Thunderbolt\" width=\"500\" height=\"281\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt-500x281.jpg 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt-700x394.jpg 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt-768x432.jpg 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt.jpg 1400w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/a><\/p>\n<p>Beide Beitr\u00e4ge beschreiben nun einen technischen Schritt, der diese H\u00fcrde deutlich verkleinern soll.<\/p>\n<p>Im Mittelpunkt stehen mehrere Modelle des Mac Studio die \u00fcber Thunderbolt-Verbindungen miteinander vernetzt werden. Als Bausteine nennen beide Videos das neue <a href=\"https:\/\/exolabs.net\/\">EXO 1.0 als Cluster-Manager<\/a> und eine neue Funktion in macOS 26.2, die <a href=\"https:\/\/developer.apple.com\/documentation\/macos-release-notes\/macos-26_2-release-notes#RDMA-over-Thunderbolt\">RDMA \u00fcber Thunderbolt<\/a> erm\u00f6glicht. Dies macht es m\u00f6glich, gro\u00dfe KI-Sprachmodelle lokal auszuf\u00fchren, ohne Anfragen an externe Cloud-Dienste zu schicken.<\/p>\n<h2>RDMA \u00fcber Thunderbolt<\/h2>\n<p>Der <a href=\"https:\/\/www.youtube.com\/watch?v=4l4UWZGxvoc\">Beitrag von Jake Tivy<\/a> zeigt eine Konfiguration aus vier Mac Studios, die zusammen rund 1,5 Terabyte Unified Memory bereitstellen. Getestet wird unter anderem, wie schnell sich ein gro\u00dfes Modell verteilt berechnen l\u00e4sst. Mit klassischem 10 Gigabit Ethernet bleibt die Ausgabe trotz zus\u00e4tzlicher Rechner zun\u00e4chst nahezu unver\u00e4ndert, weil die Latenz bei der \u00dcbergabe der Zwischenergebnisse dominiert.<\/p>\n<p><div class=\"responsive-video\"><iframe src=\"https:\/\/www.ifun.de\/yt\/index.html?v=4l4UWZGxvoc\" allow=\"autoplay; fullscreen; picture-in-picture; encrypted-media\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/div><\/p>\n<p>RDMA \u00fcber Thunderbolt, das in macOS 26.2 aktiviert werden kann, sofern die Hardware Thunderbolt 5 unterst\u00fctzt, ist hier der entscheidende Hebel. Im gezeigten Aufbau werden die Mac Studios direkt per Thunderbolt verbunden. Mit RDMA sollen Daten zwischen den Rechnern direkter \u00fcbertragen werden, was die Wartezeiten deutlich reduziert.<\/p>\n<h2>EXO 1.0, MLX und Tensor Parallelism<\/h2>\n<p>Alex Ziskind <a href=\"https:\/\/www.youtube.com\/watch?v=A0onppIyHEg\">setzt den Schwerpunkt<\/a> auf die Software-Ebene und beschreibt EXO 1.0 als vereinfachten Einstieg in kraftvolle Cluster-Setups. Statt vieler manueller Schritte reicht ein Installer nun, um mehrere Macs schnell zu einem Verbund zusammenzuf\u00fchren. Neu ist aus seiner Sicht vor allem, dass die Beschleunigung nicht nur durch mehr Speicher entsteht, sondern durch andere Formen der Parallelisierung.<\/p>\n<p>Beispielhaft erl\u00e4utert Ziskind den Unterschied zwischen Pipeline Parallelism und Tensor Parallelism. Bei der Pipeline-Methode arbeiten Ger\u00e4te nacheinander, weshalb zus\u00e4tzliche Nodes nicht automatisch schneller sind. Mit RDMA und Apples MLX-Framework soll Tensor Parallelism m\u00f6glich werden, bei der Rechenschritte innerhalb einer Schicht parallel verteilt werden.<\/p>\n<p><div class=\"responsive-video\"><iframe src=\"https:\/\/www.ifun.de\/yt\/index.html?v=A0onppIyHEg\" allow=\"autoplay; fullscreen; picture-in-picture; encrypted-media\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/div><\/p>\n<p>Zum Thema ebenfalls lesenswert ist der mit ausf\u00fchrlichen Benchmarks gespickte <a href=\"https:\/\/www.jeffgeerling.com\/blog\/2025\/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5\">Bericht von Jeff Geerling<\/a>. Dieser erkl\u00e4rt unter der \u00dcberschrift &#8222;1.5 TB of VRAM on Mac Studio &#8211; RDMA over Thunderbolt 5&#8220; auch, warum pl\u00f6tzliche zahlreiche Varianten der eher esoterischen Machbarkeitsstudie auf YouTube zu finden sind:<\/p>\n<blockquote><p>&#8222;Apple gave me access to this Mac Studio cluster to test RDMA over Thunderbolt [\u2026] The stack of Macs I tested, with 1.5 TB of unified memory, costs just shy of $40,000, and if you&#8217;re wondering, no I cannot justify spending that much money for this. Apple loaned the Mac Studios for testing [\u2026]&#8220;<\/p><\/blockquote>\n<p><div class=\"responsive-video\"><iframe src=\"https:\/\/www.ifun.de\/yt\/index.html?v=x4_RsUxRjKU\" allow=\"autoplay; fullscreen; picture-in-picture; encrypted-media\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/div><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg04.met.vgwort.de\/na\/a104793ec4b64116b86f76a2c218bca0\" width=\"1\" height=\"1\"  no-lazy class=\"tracking\"><\/p>\n","protected":false},"excerpt":{"rendered":"<a href=\"https:\/\/www.ifun.de\/fuer-lokale-ki-macos-26-2-beschleunigt-mac-cluster-signifikant-271693\/\"><img width=\"150\" height=\"150\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-studio-cluster-2-cabling-thunderbolt-150x150.jpg\" class=\"alignright tfe wp-post-image\" alt=\"Mac Studio Cluster 2 Cabling Thunderbolt\" decoding=\"async\" loading=\"lazy\" \/><\/a><p>Gleich eine ganze Handvoll neu ver\u00f6ffentlichter YouTube-Videos besch\u00e4ftigen sich aktuell mit einem &#8222;Problem&#8220;, das bei lokalen KI-Modellen auf mehreren Macs lange als Bremse galt: Wer mehrere Ger\u00e4te zu einem Cluster verbindet, gewinnt zwar gemeinsamen Arbeitsspeicher, verliert aber h\u00e4ufig Tempo, weil die Rechner bei der Berechnung st\u00e4ndig Daten austauschen m\u00fcssen. Beide Beitr\u00e4ge beschreiben nun einen technischen [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":271694,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[3],"tags":[7043,3536,5733,31],"class_list":["post-271693","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-apple","tag-cluster","tag-ki","tag-mac-studio","tag-video"],"acf":[],"aioseo_notices":[],"featured_image":["https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-cluster-apple.jpg"],"subheadline":["RDMA \u00fcber Thunderbolt"],"rest_api_enabler":{"featured_image":"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/12\/mac-cluster-apple.jpg","subheadline":"RDMA \u00fcber Thunderbolt"},"_links":{"self":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/271693","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/comments?post=271693"}],"version-history":[{"count":2,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/271693\/revisions"}],"predecessor-version":[{"id":271697,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/271693\/revisions\/271697"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media\/271694"}],"wp:attachment":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media?parent=271693"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/categories?post=271693"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/tags?post=271693"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}