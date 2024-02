Fast kein Tag, an dem die treibenden KI-Unternehmen nicht einen signifikanten Durchbruch, ein neues Produkt oder eine Erweiterung der bisherigen Kapazitäten vermelden würden. Das nach Googles Ankündigung von Gemini 1.5 jüngste Beispiel: Die für den Chatbot ChatGPT verantwortlichen KI-Experten von OpenAI haben mit Sora nun ein erstes KI-Modell vorgestellt, das realistische Videosequenzen aus einfachen Texteingaben erstellen kann.

Noch steht Sora nicht zur allgemeinen Nutzung bereit, die auf der Projektseite veröffentlichten Beispielvideos laden jedoch schon zum Staunen ein. Die hier veröffentlichten Videosequenzen, die etwa eine Frau beim Abendspaziergang durch Tokio, einen Jeep während einer Offroad-Geländetour oder den Spaziergang durch eine Kunstgalerie zeigen, wurden alle lediglich durch Eingabe einfacher Textbeschreibungen generiert.

Die Texteingabe für den Abendspaziergang besteht dabei nur aus sechs Sätzen, die ihrerseits einmal den Hintergrund der Neon beleuchteten Großstadt beschreiben, kurz auf das Outfit der Frau mit schwarzen Schuhen, Lederjacke und rotem Kleid eingehen und anschließend noch den selbstbewussten Gang, die spiegelnde Straße und die im Hintergrund spazierenden Fußgänger skizzieren.

Der Prompt im Volltext:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.