Dreidimensionale Szene in wenigen Sekunden
Apple Sharp: Offenes KI-Modell erstellt 3D-Landschaften aus Fotos
Apple hat ein neues, quelloffenes KI-Modell vorgestellt, das aus einem einzelnen zweidimensionalen Foto eine dreidimensionale Szene erzeugen kann. Der Ansatz mit dem Namen SHARP berechnet in weniger als einer Sekunde eine räumliche Darstellung, die sich anschließend auch aus leicht veränderten Blickwinkeln realistisch anzeigen lässt.
Apple beschreibt das Verfahren in einer begleitenden Forschungsarbeit und stellt den Quellcode öffentlich zur Verfügung.
SHARP macht Bilder zu 3D-Szenen
Im Kern schätzt SHARP aus einem einzelnen Foto eine dreidimensionale Repräsentation der dargestellten Umgebung. Dafür nutzt das Modell eine interne Beschreibung aus sehr vielen sogenannten 3D-Gaussians. Dabei handelt es sich um kleine Volumenelemente, die Farbe, Helligkeit und Position im Raum tragen. In ihrer Gesamtheit bilden sie eine Szene nach, die aus benachbarten Perspektiven neu gerendert werden kann.
Im Unterschied zu bisherigen Verfahren benötigt SHARP keine Vielzahl von Aufnahmen aus unterschiedlichen Blickwinkeln. Stattdessen berechnet ein neuronales Netz in einem einzigen Rechenschritt die räumliche Struktur. Grundlage dafür ist ein Training mit großen Mengen synthetischer und realer Bilddaten. Dadurch lernt das Modell typische Tiefenverhältnisse und geometrische Zusammenhänge, die es auf neue Fotos überträgt.
Die erzeugte Szene ist maßstabsgetreu, sodass Abstände und Kamerabewegungen konsistent bleiben. Die Berechnung erfolgt schnell genug, um eine direkte Darstellung ohne aufwendige Nachbearbeitung zu ermöglichen.
Sharp Monocular View Synthesis in Less Than a Second
Monocular Video → 4DGS
Per-frame Gaussian splats generated from monocular video, visualized in the SuperSplat Editor.
SHARP project page: https://t.co/Ny3FNLMlUB#AppleML #PlayCanvas #SHARP #GaussianSplatting pic.twitter.com/QwHHqDWXcU— VisualitoXr (@VisualitoXr) December 17, 2025
Grenzen und mögliche Einsatzfelder
SHARP ist darauf ausgelegt, Ansichten zu erzeugen, die nahe am ursprünglichen Kamerastandpunkt liegen. Bereiche, die auf dem Ausgangsbild nicht sichtbar sind, werden nicht vollständig ergänzt. Bewegungen durch die Szene sind daher nur in begrenztem Umfang möglich. Diese Einschränkung trägt dazu bei, die Rechenzeit gering zu halten und stabile Ergebnisse zu liefern.
Apple hat das Modell auf dem Code-Portal GitHub veröffentlicht. Dort können Interessierte den Code selbst testen und anpassen. In der Praxis zeigen sich Einsatzmöglichkeiten etwa für Produktdarstellungen, Visualisierungen in der Architektur oder für Anwendungen in der erweiterten Realität. Auch Weiterentwicklungen sind denkbar, etwa die Nutzung der zugrunde liegenden Methode für animierte Inhalte.

Das ist doch das gleiche wie die neuen Bildschirmschoner von iOS 26?
Ja, das wird die zugrunde liegende Technik sein
Oder der Räumliche Szene Effekt in der Foto-Mediathek. ;-)
Finde ich genial
Bald kann man alte Fotos und Szenen von damals mit einer VR Brille nochmal wie live erleben
Ja, klasse! Und dank KI auch solche Szenen, die nie stattgefunden haben.
Schön, dass Apple zumindest in letzter Vergangenheit immer mal wieder in die Richtung quelloffener Standards / Methoden geht.