Dreidimensionale Szene in wenigen Sekunden

Apple Sharp: Offenes KI-Modell erstellt 3D-Landschaften aus Fotos

Apple hat ein neues, quelloffenes KI-Modell vorgestellt, das aus einem einzelnen zweidimensionalen Foto eine dreidimensionale Szene erzeugen kann. Der Ansatz mit dem Namen SHARP berechnet in weniger als einer Sekunde eine räumliche Darstellung, die sich anschließend auch aus leicht veränderten Blickwinkeln realistisch anzeigen lässt.

Apple beschreibt das Verfahren in einer begleitenden Forschungsarbeit und stellt den Quellcode öffentlich zur Verfügung.

SHARP macht Bilder zu 3D-Szenen

Im Kern schätzt SHARP aus einem einzelnen Foto eine dreidimensionale Repräsentation der dargestellten Umgebung. Dafür nutzt das Modell eine interne Beschreibung aus sehr vielen sogenannten 3D-Gaussians. Dabei handelt es sich um kleine Volumenelemente, die Farbe, Helligkeit und Position im Raum tragen. In ihrer Gesamtheit bilden sie eine Szene nach, die aus benachbarten Perspektiven neu gerendert werden kann.

Im Unterschied zu bisherigen Verfahren benötigt SHARP keine Vielzahl von Aufnahmen aus unterschiedlichen Blickwinkeln. Stattdessen berechnet ein neuronales Netz in einem einzigen Rechenschritt die räumliche Struktur. Grundlage dafür ist ein Training mit großen Mengen synthetischer und realer Bilddaten. Dadurch lernt das Modell typische Tiefenverhältnisse und geometrische Zusammenhänge, die es auf neue Fotos überträgt.

Die erzeugte Szene ist maßstabsgetreu, sodass Abstände und Kamerabewegungen konsistent bleiben. Die Berechnung erfolgt schnell genug, um eine direkte Darstellung ohne aufwendige Nachbearbeitung zu ermöglichen.

Sharp Monocular View Synthesis in Less Than a Second

Monocular Video → 4DGS
Per-frame Gaussian splats generated from monocular video, visualized in the SuperSplat Editor.
SHARP project page: https://t.co/Ny3FNLMlUB #AppleML #PlayCanvas #SHARP #GaussianSplatting pic.twitter.com/QwHHqDWXcU

— VisualitoXr (@VisualitoXr) December 17, 2025

Grenzen und mögliche Einsatzfelder

SHARP ist darauf ausgelegt, Ansichten zu erzeugen, die nahe am ursprünglichen Kamerastandpunkt liegen. Bereiche, die auf dem Ausgangsbild nicht sichtbar sind, werden nicht vollständig ergänzt. Bewegungen durch die Szene sind daher nur in begrenztem Umfang möglich. Diese Einschränkung trägt dazu bei, die Rechenzeit gering zu halten und stabile Ergebnisse zu liefern.

Apple hat das Modell auf dem Code-Portal GitHub veröffentlicht. Dort können Interessierte den Code selbst testen und anpassen. In der Praxis zeigen sich Einsatzmöglichkeiten etwa für Produktdarstellungen, Visualisierungen in der Architektur oder für Anwendungen in der erweiterten Realität. Auch Weiterentwicklungen sind denkbar, etwa die Nutzung der zugrunde liegenden Methode für animierte Inhalte.

18. Dez. 2025 um 14:48 Uhr von Nicolas Fehler gefunden?

7 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Toccata 18.12.2025, 17:51 Uhr

Das ist doch das gleiche wie die neuen Bildschirmschoner von iOS 26?

Antworten Melden

vflforever 18.12.2025, 19:18 Uhr

Ja, das wird die zugrunde liegende Technik sein

Antworten Melden

Antworten Melden
Marcel 19.12.2025, 00:24 Uhr

Oder der Räumliche Szene Effekt in der Foto-Mediathek. ;-)

Antworten Melden

Antworten Melden

Rainer Schlitz 18.12.2025, 21:38 Uhr

Finde ich genial
Bald kann man alte Fotos und Szenen von damals mit einer VR Brille nochmal wie live erleben

Satyrus 18.12.2025, 22:35 Uhr

Ja, klasse! Und dank KI auch solche Szenen, die nie stattgefunden haben.

Antworten Melden

Antworten Melden

christoph 19.12.2025, 12:43 Uhr

Interessiert das Gedächtnis nicht ;)

MM 19.12.2025, 01:41 Uhr

Schön, dass Apple zumindest in letzter Vergangenheit immer mal wieder in die Richtung quelloffener Standards / Methoden geht.

Dreidimensionale Szene in wenigen Sekunden

Apple Sharp: Offenes KI-Modell erstellt 3D-Landschaften aus Fotos

SHARP macht Bilder zu 3D-Szenen

Grenzen und mögliche Einsatzfelder

Redet mit. Seid nett zueinander! Antwort abbrechen