Zwischen Stable Diffusion 3.5 und FLUX.1: Eine Renaissance der Text-zu-Bild-Generierung

Zwischen Stable Diffusion 3.5 und FLUX.1 erlebte dieses Jahr eine weitere Renaissance der Text-zu-Bild-Generierung. Diese Modelle haben einen Fortschritt bei der Einhaltung von Prompts erzielt, die Fähigkeit zur Rechtschreibung mit Open-Source-Modellen hinzugefügt und die Qualität ihrer ästhetischen Ausgaben weiter verbessert. Dennoch bleibt der Kernmechanismus hinter diesen Modellen grundsätzlich derselbe: die Verwendung eines leeren latenten Bildes oder eines Bildprimers zur Generierung eines einzigen Bildes.

OmniGen: Eine neue Architektur für die Text-zu-Bild-Generierung

In diesem Artikel möchten wir eine unglaublich vielversprechende neue Architektur für die Text-zu-Bild-Generierung vorstellen: OmniGen. Inspiriert von ähnlichen Bemühungen in der Forschungsgemeinschaft zu großen Sprachmodellen ist OmniGen der erste vollständig vereinheitlichte Diffusionsmodellrahmen für alle Arten von nachgelagerten Aufgaben wie Bildbearbeitung, subjektgesteuerte Generierung und visuell bedingte Generierung Source.

Lesen Sie weiter, um eine Aufschlüsselung der Architektur zu erhalten, die OmniGen möglich macht, eine Erkundung der Modellfähigkeiten und eine Demonstration, wie Sie OmniGen ausführen und das Modell mit einem GPU Droplet testen können.

Voraussetzungen

  • Python: Der Inhalt dieses Artikels ist technisch anspruchsvoll. Wir empfehlen ihn Lesern, die mit Python und grundlegenden Konzepten des Deep Learning vertraut sind.
  • Cloud-GPU: Für das Ausführen von FLUX.1 wird eine ausreichend leistungsstarke GPU benötigt. Wir empfehlen mindestens Maschinen mit 40 GB VRAM.

Das OmniGen-Framework

OmniGen-Architektur

OmniGen besteht aus einer zweiteiligen Kombination eines Variational AutoEncoder (VAE) und eines großen vortrainierten Transformers. Der VAE extrahiert kontinuierlich visuelle Merkmale aus den Bildern, während der Transformer Bilder basierend auf den Eingabebedingungen generiert. Konkret handelt es sich um den VAE von Stable Diffusion XL, der während des Trainings eingefroren wurde, und das Transformer-Modell wurde mit Microsofts Phi-3 initialisiert. Dies ermöglicht eine funktionale Verbindung zwischen der Stärke des VAE und einem Transformer, der ein erhebliches Verständnis für die Verarbeitung von Textinhalten geerbt hat. Zusammengenommen entsteht dadurch eine einfache, aber starke Pipeline, die zusätzliche Encoder im Modell überflüssig macht, was die Pipeline erheblich vereinfacht. OmniGen kodiert bedingte Informationen von sich aus.

 

„Darüber hinaus modelliert OmniGen Texte und Bilder gemeinsam innerhalb eines einzigen Modells, anstatt unterschiedliche Eingabebedingungen unabhängig voneinander mit separaten Encodern zu modellieren, wie es in bestehenden Arbeiten der Fall ist, bei denen die Interaktion zwischen verschiedenen Modalkonditionen fehlt.“ Source.

Für den Aufmerksamkeitsmechanismus verwenden sie eine modifizierte Version des kausalen Aufmerksamkeitsmechanismus. Konkret funktioniert der Mechanismus, indem er kausale Aufmerksamkeit auf jedes Element in der Sequenz anwendet und gleichzeitig bidirektionale Aufmerksamkeit innerhalb jeder Bildsequenz anwendet. Dadurch kann jeder Patch auf andere Teile des Bildes „achten“ und sicherstellen, dass jedes Bild nur Bild- oder Textsequenzen berücksichtigt, die zuvor aufgetreten sind Source.

Um ein Bild zu generieren, wird ein Gaußsches Rauschen zufällig abgetastet und Flow Matching angewendet, um die Zielgeschwindigkeit vorherzusagen. Danach werden die festgelegten Inferenzschritte iteriert, um die latente Darstellung des Bildes zu erzeugen. Der VAE dekodiert dann den Wert in die endgültige Bildausgabe Source.

Was können wir mit OmniGen tun?

OmniGen ist zu zahlreichen Aufgaben in der Lage, aber wichtiger ist, dass es zusätzliche Schritte aus dem zunehmend langen Prozess der Bildgenerierung/-bearbeitung mit KI-Technologien entfernt. Werfen wir einen kurzen Blick auf die wichtigsten Funktionen, bevor wir in die Code-Demo einsteigen.

  • Text-zu-Bild-Generierung: Ähnlich wie Stable Diffusion oder FLUX ist OmniGen perfekt in der Lage, hochwertige Bilder mit einer hohen Leistungsfähigkeit eigenständig zu generieren. Die Qualität ist vergleichbar mit der Nutzung von Stable Diffusion XL.

  • Textbasierte Bildbearbeitung: OmniGen ermöglicht die einfache Bearbeitung von Bildern in einem einzigen Schritt mit Texteingaben.

  • Bildkomposition: OmniGen erleichtert die nahtlose Kombination von zwei Themen in neuen Umgebungen.

  • Tiefen-/Pose-Schätzung: OmniGen ist mit denselben Technologien integriert, die ControlNet so effektiv machen, und kann selbstständig die Pose extrahieren.

  • Und vieles mehr! OmniGen ist wahrscheinlich die vielseitigste Einzelmodell-Pipeline, die jemals veröffentlicht wurde. Probieren Sie unbedingt alle Beispiele aus, die in der Demo bereitgestellt werden.

OmniGen-Code-Demo

Einrichten des GPU-Droplets

Jetzt, da wir alles besprochen haben, was OmniGen bietet, sind wir bereit für die Code-Demo.

Pakete installieren & Repository klonen

Nachdem Sie sich erfolgreich per SSH mit Ihrem Droplet verbunden haben, können wir fortfahren. Geben Sie folgende Befehle in das Terminal ein:

 
        cd ../home
        sudo apt-get install git-lfs
        git-lfs clone https://huggingface.co/spaces/Shitao/OmniGen
        cd OmniGen/
        pip3 install requirements.txt

Danach können Sie die Demo ausführen:

Klicken Sie auf den freigegebenen Link, um die Gradio-Anwendung in einem beliebigen Browserfenster zu öffnen.

Abschließende Gedanken

OmniGen ist ein faszinierender Schritt nach vorne für Bildgenerierungsmodelle. Besonders beeindruckend ist die Konsolidierung der gesamten Pipeline in eine einzige Modellausgabedatei, die eine Vielzahl von Aufgaben wie Bearbeitung, Bildkomposition und vieles mehr abdeckt. Wir freuen uns auf die Veröffentlichung der nächsten Versionen von OmniGen in den kommenden Monaten, während das Pipeline-Framework auf andere Modelle übertragen wird.

Kostenlosen Account erstellen

Registrieren Sie sich jetzt und erhalten Sie Zugang zu unseren Cloud Produkten.

Das könnte Sie auch interessieren: