Mijn ervaringen met Midjourney en DALL-E, oorspronkelijk gepubliceerd in het FD van 1 oktober 2022.
In 2018 sprak ik professor Max Welling over de grenzen van kunstmatige intelligentie. Ik wierp op dat creativiteit vooralsnog het exclusieve domein was van mensen. De Amsterdamse hoogleraar nam toen een opvallende positie in. “Ik denk dat we vrij snel naar een moment zullen gaan dat het gewone publiek, of zelfs experts, kunstwerken van een menselijke artiest en van een algoritme niet meer van elkaar kunnen onderscheiden.”
Aan die uitspraak moest ik denken toen eerder deze maand een Amerikaanse jury van kunstkenners in zijn hemd stond toen ze per ongeluk een AI uitriepen tot winnaar van de jaarlijkse kunstwedstrijd in Colorado. Wat was er gebeurd? Kunstenaar Jason Allen had voor zijn ingezonden werk eens geen gebruik gemaakt van verf of inkt, maar van een vorm van kunstmatige intelligentie genaamd Midjourney. Feitelijk had Allen zelf niets geschilderd of getekend. Reden voor de kunstwereld om hem te beschuldigen van oneerlijke concurrentie! Is de voorspelling van Max Welling nu uitgekomen? En… kan iedereen met een internetaansluiting zichzelf nu kunstenaar noemen? Om die vragen te beantwoorden duik ik deze maand in de wereld van ‘prompt engineering’.
Ik start mijn ontdekkingstocht met DALL-E, een vergelijkbare tool als Midjourney. Wat mij verrast is hoe eenvoudig in het gebruik DALL-E blijkt te zijn. De interface van het programma is een enkel invoerveld voor tekst. Wat je daar invult heet de ‘prompt’ en geldt als invoer voor het algoritme. Ik probeer onvoorspelbaar te zijn en tik in: portret van een Engelse bulldog, zittend op een stoel van bananen, in de stijl van Vincent van Gogh. Tot mijn verbazing zie ik enige ogenblikken later vier verschillende afbeeldingen op mijn scherm die precies aan die omschrijving voldoen. En het maakt niet uit hoe creatief of irrationeel ik mijn woorden kies; DALL-E schiet elke keer raak.
Hoe dat kan? Ten eerste is DALL-E uitvoerig getraind met honderden miljoenen plaatjes van internet waarbij steeds de omschrijving in gewone mensentaal is meegegeven. Vervolgens blinkt DALL-E uit in woord associatie. Het model kan jouw prompt vergelijken met combinaties van bestaande afbeeldingen. En tot slot kan DALL-E die verzamelde afbeeldingen weer samensmelten tot een unieke -en gloednieuwe- afbeelding. Onderschat die laatste fase niet. Elke gecreëerde afbeelding is pixel-perfect, het lijkt wel een vorm van digitale alchemie.
Zoals gezegd is DALL-E niet de enige in zijn soort. Zo is er Stable Diffusion, populair in de open source gemeenschap en Google gooit hoge ogen met Imagen. Toch kiezen de meeste creatievelingen -zoals ook Jason Allen- voor Midjourney. De interface is feitelijk een grote chatsessie op het platform van Discord. Dat heeft als voordeel dat ook andere gebruikers met je mee kunnen kijken en je zo voortbouwt op elkaars werk, eh prompt.
In mijn zoektocht stuitte ik ook op het werk van Rodger Werkhoven. Deze Nederlandse artiest is door DALL-E gevraagd om in de testfase hun modellen te controleren op mogelijke racistische of seksistische uitingen. Inmiddels is Werkhoven vastberaden om de Nederlandse creatieve industrie naar een hoger plan te tillen met prompt engineering. Zijn eerste creatie: een fictieve rapper met de naam Lil’ Fake. En zo hoort het. Wat we nodig hebben zijn creatieve geesten, dwarse denkers en vernieuwers die AI zien als gereedschap, niet als concurrentie.