Welche Möglichkeiten gibt es KI-generierte Bilder zu hochauf­gelösten Varianten zu skalieren?

Werkzeuge

Stable Diffusion + ControlNet

Prozess

01 Export Glyphe als Kachel
02 Promptdesign
03 Generation des Basisbildes mit Stable Diffusion + ControlNet
04 Upscaling Tests mit unterschiedlichen Upscaling-Modellen und Einstellungen
05 Upscaling Tests mit der ControlNet Tile Funktionalität
06 Export

Prompt & Settings

(intricate mycelium structure:1.5), (organic roots:1.2), ultradetailed, subsurface scattering, octane render, 3D render, houdini particles, studio lighting, microscopic, crisp, high resolution, 8k, (simple white background:1.4) Negative prompt: colorful, dark background, worst quality, low quality, normal quality, ugly, watermark, qr code, cropped, cut of, childish, messy, sketch, amateur, low-res Steps: 35, Sampler: Euler a, CFG scale: 8, Seed: 630818581, Size: 2048x2048, Model hash: e1441589a6, Model: v1-5-pruned, Denoising strength: 0.1, Clip skip: 2, Version: v1.3.0

Learnings

Die klassischen Superresolution-Upscaler bieten den einfachsten Worfklow und eine gute Performance. Die Qualität lässt bei ESRGAN und R-ESRGAN leider zu wünschen übrig. Bestehende Details des Ausgangsbildes werden nachgeschärft, feinere Details werden nicht hinzugefügt. Das beste Ergebnis, dafür jedoch der deutlich langsamste Upscaler ist hierbei LDSR. Er erzeugt die schärfsten und detailliertesten Ergebnisse. Durch das Upscaling und erneute Rendern mit gleichem Prompt durch Stabel Diffusion selbst, werden etwas bessere Ergebnisse erzielt. Jedoch kann sich das Motiv und die Komposition, je nach Stärke des Denoisings, deutlich ändern. Die beste Kontrolle und hochwertigsten Ergebnisse liefert der Einsatz von ControlNets „Tile“ Funktionalität. Sie orientiert sich an der Komposition des Inputs und rendert das neue Bild in einzelnen Kacheln. So könnnen verschiedene Variationen neu erschaffener Details geschaffen werden, ohne die Komposition und Farben des Bildes zu verändern. Durch random Seeds, neue Prompts und die denoising strength kann bei Bedarf größerer Einfluss auf den Output genommen werden. Nachteile der Technik sind ein etwas komplexeres Setup und eine längere Renderzeit als bei ESRGAN.

back