Beim Anlernen wird eine KI mit sehr vielen Bildern und dazugehörigen textlichen Beschreibungen trainiert. Dabei lernt das System, die Zusammenhänge zwischen Text und Bild zu verstehen.
Es gibt Künstliche Intelligenzen, die als generative Modelle bezeichnet werden. Diese Bildgeneratoren können neue Bilder komponieren. Wenn die KI eine Aufgabe erhält, erzeugt sie Bilder, die der Beschreibung entsprechen. Der Prozess berücksichtigt verschiedene Angaben wie Formen, Farben, Texturen und den räumlichen Bezug zwischen Objekten.
Für den menschlichen Benutzer ist es eine Art "Kunst", seine Wünsche in geeigneter Formulierung an den Bildgenerator zu geben, damit keine ungeeigneten Inhalte erzeugt werden, die der Mensch nicht im Sinn hatte. Zu jedem der oben gezeigten Bilder waren meistens schon mehrere Fehlversuche vorausgegangen.