OpenAI führt native Bildgenerierung mit GPT-4o ein

OpenAI hat den Funktionsumfang von GPT-4o um eine stark nachgefragte Funktion erweitert: Mit der nativen Bildgenerierung im GPT-4o-Modell können Nutzer nun direkt in ChatGPT und Sora hochpräzise, fotorealistische Bilder erstellen. Diese Funktion, die ab sofort für alle Nutzer der Plus-, Pro-, Team- und sogar Free-Tarife verfügbar ist, markiert einen Meilenstein in der Entwicklung multimodaler KI-Technologien und ermöglicht eine intuitivere Bildbearbeitung.

Im Unterschied zu früheren Ansätzen wie DALL-E, das als eigenständiger Bildgenerator agierte, ist die neue Funktion vollständig in GPT-4o integriert. Das Modell greift auf sein umfassendes Wissen und den Kontext eines Chats zurück, um Bilder zu erzeugen, die nicht nur visuell beeindruckend, sondern auch inhaltlich passgenau sind. Nutzer können durch einfache Textanweisungen – etwa mit Angaben zu Seitenverhältnissen, Farbcodes oder Stilrichtungen – detaillierte Bilder anfertigen lassen und diese in einem natürlichen Dialog weiter anpassen. Besonders bemerkenswert ist die Fähigkeit von GPT-4o, Texte präzise in Bilder einzubetten, was es perfekt für Anwendungen wie Infografiken, Speisekarten, wissenschaftliche Diagramme oder kreative Designs macht.

OpenAI unterstreicht die Bedeutung dieser Entwicklung: „Bilder sind seit jeher ein zentrales Medium der menschlichen Kommunikation – von Höhlenmalereien bis hin zu modernen Visualisierungen. Mit GPT-4o wird Bildgenerierung endlich alltagstauglich und intuitiv“, heißt es in der offiziellen Mitteilung. Das Modell kann bis zu 20 Objekte in einer Szene korrekt darstellen und bleibt auch bei komplexen oder mehrstufigen Anweisungen konsistent. Dennoch gibt es Grenzen: Die Darstellung von nicht-lateinischen Schriftzeichen oder sehr dichtem Text bleibt eine Herausforderung, die OpenAI in Zukunft weiter verbessern will.

Sicherheit und Transparenz stehen im Fokus: Alle generierten Bilder tragen C2PA-Metadaten, die sie als KI-generiert kennzeichnen, und Inhalte, die gegen die Nutzungsrichtlinien verstoßen, werden konsequent blockiert. In den kommenden Wochen wird die Funktion auch für Enterprise- und Bildungskunden sowie Entwickler über die API freigeschaltet.

Externer Link zu dem Thema:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert