Bildbearbeitung über Text-Prompts
Gemini 2.5 Flash Image: Google jetzt mit echter KI-Bildbearbeitung
Google hat die Bildbearbeitungsfunktionen in seiner Gemini-App umfassend erweitert. Grundlage ist ein das neue Modell Gemini 2.5 Flash, das von Google DeepMind entwickelt wurde und sowohl in der App als auch über Schnittstellen für Entwickler bereitsteht. Ziel ist es, die Bearbeitung von Fotos intuitiver zu machen und dabei konsistente Ergebnisse zu liefern.
Nutzer können damit Personen oder Tiere in unterschiedlichen Szenen darstellen, Hintergründe austauschen oder Objekte hinzufügen, ohne dass die abgebildeten Charaktere verfremdet wirken. Alle erstellten oder bearbeiteten Bilder werden mit einem sichtbaren sowie einem unsichtbaren digitalen Wasserzeichen versehen, um sie als KI-generiert zu kennzeichnen. Ausgangsfotos auf denen Kinder abgebildet sind, werden derzeit noch nicht unterstützt.
Bildbearbeitung über Text-Prompts
Die Bildbearbeitung in der Gemini-App erlaubt es, Fotos Schritt für Schritt zu verändern. So können Anwender Frisuren oder Kleidung austauschen, Räume umgestalten oder mehrere Fotos zu einer neuen Szene kombinieren. Auch das Anwenden bestimmter Stile auf Objekte ist möglich, etwa indem sich Farben und Muster von einem Bild auf ein anderes übertragen lassen. Die Bearbeitung erfolgt über einfache Anweisungen in Textform. Wer möchte, kann ein bereits verändertes Foto erneut hochladen und weitere Anpassungen vornehmen. So lassen sich mehrstufige Bearbeitungen durchführen, ohne dass Details der ursprünglichen Abbildung verloren gehen.
Modell für Entwickler und Unternehmen
Parallel zur App führt Google das weiterentwickelte Modell Gemini 2.5 Flash Image auch über die Gemini-API und im Google AI Studio ein. Die API richtet sich an Entwickler und Unternehmen, die eigene Anwendungen auf Basis der Bildgenerierung aufbauen möchten. Zu den Funktionen gehören das Zusammenfügen mehrerer Bilder, gezielte Bearbeitungen auf Basis von Textbefehlen und die Möglichkeit, Charaktere oder Objekte über mehrere Szenen hinweg konsistent darzustellen. Abgerechnet wird die Nutzung nach der Menge der generierten Bilddaten, wodurch sich die Kosten transparent kalkulieren lassen.
Für Fotografen dieses Stils muss das doch ein beunruhigendes Signal sein.
Ich bin zwar kein Fotograf aber jemand muss die Fotos noch machen oder?
Nicht verstanden
In Zukunft nicht mehr
Ich frage mich, was die 160.000 Leute bei Apple den ganzen Tag machen
Siri nutzen ^^
staunen und sich am Kopf kratzen.
Der Vergleich ist aus zwei Gründen nicht ganz gegeben:
1. Apples Ansatz ist halt es lokal oder zumindest „privat“ umzusetzen. Googles Ansatz ist genau das Gegenteil.
2. für Gemini muss man extra zahlen um das in brauchbarer Form (Stichwort Begrenzung der Token etc.) nutzen zu können. Auch hier geht Apple bisher den Weg, dass die Anzahl der Anfragen unbegrenzt ist.
Naja und man darf nicht vergessen, dass Google, auch was Entwicklung und Zukäufe (Deepmind etc.) ein Web- bzw. Softwareunternehmen war und ist, dass irgendwann in die Hardware gegangen ist. Apple ist genau das Gegenteil. Da lagen die Prioritäten ganz anders. Klar man hat ein OS, Google hat aber schon der früh an der Entwicklung von KI Systemen geforscht.
Apple ist hauptsächlich Hardware Entwickler. Google dagegen überhaupt nicht
Was ist denn das für ein Argument?
Ohne Software läuft die Hardware nicht. Punkt!
Wie überall, 159.990 managen den Laden und 10 dürfen das ganze unter Hochdruck umsetzen, wovon min 3 Praktikanten/studentische Aushilfen sind.
Kann dem nichts abgewinnen, jeder kann jetzt einfach Fake Fotos erstellen und verteilen, spitze
Vorausgesetzt derjenige kann schreiben, das werden gefühlt such immer weniger :D
Etwas hart, dennoch leider zutreffend.
Gerade mal versucht. Es schreit mich an, das es nicht machbar ist, Personen entweder zu verändern bzw. in ein anderes Foto zu projizieren, wegen Privatsphäre.
Geht bislang nur im Browser bei mir.
Geht bei mir bislang nur im Browser.
Grad mit der iOS App getestet. War kein Problem. Menschen und Hintergründe hat er mir überraschend gut angepasst
Vor einem Jahr habe ich mir noch ein iPhone 15 Pro gekauft, da es das letzte iPhone war, dass noch Apple Intelligence unterstützen sollte. Was soll ich sagen, 1 Jahr später ist Apple Intelligence immer noch Beta und heute morgen hat es Apple Mail nicht geschafft eine etwas längere E-Mail zusammenzufassen. Sorry, aber von Apple erwarte ich in dieser Richtung nichts mehr.
Wer weniger erwartet wird weniger enttäuscht :) Richtiger Ansatz +1
Wer weniger erwartet, kauft auch weniger. Richtige Reaktion ab dem 09.September…
Das ist jetzt also die KI Revolution Einsicht hier viele ins Hösschen scheißen das Apple das verpassen könnte. Haha.
Du hast in so viel Themen und Belangen die Weitsicht, aber wenn es um Apple geht, bist du echt geblendet. Das ist immer noch ein Apple thematischer Blog, keine Sekte oder Kult. Du darfst chillen
Das immerhin ein großer Schritt. Für dich schaut es so aus als ob einfach ein Bild bearbeitet wird, aber Bilder zu kombinieren, ihnen eine neue Dynamik etc. zu geben ist schon revolutionär
Stell dir vor, du kannst als Leihe Produktbilder erstellen oder aber auch bestehende Elemente von Webseiten neu konstruieren und und und
*ist
@Jens
ob sich Produktbilder leihen lassen, kann ich nicht sagen, da ich auf diesem Gebiet ein Laie bin ; )
@joekurt Puh, der war gut. +1. Hätte mir nicht unterlaufen sollen :)
Ich glaube eher ins Hösschen machen … :))))
Es heißt Höschen.
Das geht aus Datenschutzgründen nicht in Deutschland oder?
Kann man nur hoffen ….
Alles Blödsinn! Bei Apple kann man Emojies generieren. Das muss mal erstmal jemand nachmachen!
Solche Tools für private Bilder wären super liebes Apple Team! Endlich geschlossene Augen oder unpassende Blicke oder oder oder einfach ändern und das perfekte Bild haben.