Mehr Kontrolle bei der Bildgenerierung
ChatGPT Images 2.0: KI-Bilder werden präziser und vielseitiger
Ein Jahr nach der Einführung der ersten Bildfunktionen erweitert OpenAI die Möglichkeiten zur Erstellung visueller Inhalte in ChatGPT deutlich. Mit „Images 2.0“ stellt das Unternehmen ein neues Modell vor, das komplexe Bildaufgaben zuverlässiger umsetzen soll. Im Mittelpunkt steht eine genauere Verarbeitung von Anweisungen.
Ob Text, Symbole oder Benutzeroberflächen, die Inhalte sollen präziser platziert und nachvollziehbar dargestellt werden.
Das Modell kann auch umfangreiche Bildkompositionen besser strukturieren und Details wie kleine Beschriftungen oder grafische Elemente klarer ausgeben. Damit sollen Ergebnisse entstehen, die sich direkt weiterverwenden lassen, etwa für Präsentationen, Infografiken oder Marketingmaterialien. Unterstützt werden verschiedene Bildformate, von breiten Bannern bis zu hochformatigen Darstellungen für mobile Anwendungen.
Neu ist zudem die Möglichkeit, mehrere Bildvarianten auf einmal zu erzeugen. Nutzer können so unterschiedliche Entwürfe vergleichen, ohne jeden Vorschlag einzeln anfordern zu müssen. In Kombination mit sogenannten „Thinking“-Modellen kann die Bildfunktion auch aktuelle Informationen aus dem Internet einbeziehen und ihre Ergebnisse eigenständig prüfen.
Verbesserungen bei Sprache und Stil
Ein Schwerpunkt der neuen Version liegt auf der Verarbeitung von Sprache innerhalb von Bildern. Während frühere Modelle vor allem bei englischen Texten zuverlässig arbeiteten, wurde die Darstellung anderer Schriftsysteme oft fehlerhaft umgesetzt. Images 2.0 soll hier Fortschritte bieten und auch komplexe Inhalte in Sprachen wie Japanisch, Koreanisch, Chinesisch oder Hindi korrekt darstellen können.
Darüber hinaus wurde die stilistische Bandbreite erweitert. Das Modell kann unterschiedliche visuelle Stile, etwa Fotografie, Comics oder grafische Layouts, genauer nachbilden. Dabei berücksichtigt es auch typische Eigenschaften wie Lichtstimmung, Bildrauschen oder Materialstrukturen, um realistisch wirkende Ergebnisse zu erzeugen.
Technisch greift das System auf ein erweitertes Wissen um aktuelle Ereignisse mit Stand Ende 2025 zurück. Dadurch sollen Inhalte aktueller und kontextuell passender sein, insbesondere bei erklärenden Darstellungen oder Infografiken. Trotz dieser Fortschritte gibt es weiterhin Einschränkungen. Komplexe räumliche Aufgaben oder sehr feine, sich wiederholende Details können weiterhin zu Fehlern führen.
Images 2.0 ist ab sofort in ChatGPT sowie in der Entwicklungsumgebung Codex verfügbar.

Toll
Nutze ich oft auf der Arbeit
Wenn sich allerdings Hochzeitspärchen als händchenhaltende Kinder auf der Einladung verewigen, gruselt es mich