Combineer de creativiteit van Salvador Dali met robot WALL-E en je krijgt DALL-E: een neuraal netwerk dat beelden kan genereren die de gebruiker in de vorm van tekst vraagt. Hoe cool is dat? Je tikt iets in en het algoritme zorgt ervoor dat je het te zien krijgt. Wil je een planeet zien in de vorm van een kop soep, weergegeven in digital art stijl? Hier heb je hem!

DALL-E is ontwikkeld door OpenAI, een A.I. laboratorium in San Francisco (ooit opgericht door onder anderen de man die onlangs de rijkste persoon ter wereld werd: Elon Musk), dat zichzelf als missie heeft gesteld zo slim mogelijke A.I. in te zetten “in het belang van de volledige mensheid”.
In 2020 (dat is nog niet zo lang geleden!) was de wereld al blij verrast door een neuraal netwerk dat beelden kon genereren op basis van tekst. Maar wat daar aan visueels uit kwam verbleekt bij wat het onlangs gepresenteerde DALL-E 2 kan maken. Het ziet er prachtig uit wat er door DALL-E 2 gegenereerd is (waarbij OpenAI wel ongetwijfeld de mooiste voorbeelden laat zien op dit moment). En hoewel het nu nog niet breed beschikbaar is, is dat wel de bedoeling van OpenAI. Dus wil jij om wat voor reden dat ook een vliegende eenhoorn in een kerstoutfit zien in de stijl van Minecraft, dan hoef je dat binnenkort niet meer zelf te maken.

Hoe werkt de techniek? DALL-E 2 werkt in twee fasen. Eerst gebruikt het OpenAI’s taalmodel CLIP, dat geschreven beschrijvingen kan koppelen aan beelden. Zo vertaalt het de tekst in een visuele tussenvorm die de belangrijkste eigenschappen in zich heeft die het beeld zou moeten hebben om bij de tekst te passen. Daarna draait DALL-E 2 een diffusion model (een soort neuraal netwerk) dat een beeld genereert dat voldoet aan alle uitgangspunten die CLIP heeft geschetst.
Bij het op termijn beschikbaar komen van DALL-E 2 voor ons allemaal, komen er meteen gebruikersvoorwaarden en programmatuur bij die deep fakes onmogelijk maken door geen beelden van echte mensen toe te staan. Tevens worden bepaalde soorten beelden (zoals geweld) niet in de trainingsdata meegenomen, zodat die beelden ook niet gegenereerd kunnen worden. Zo hoopt OpenAI de zorgen die bijvoorbeeld in de New York Times zijn geuit weg te nemen.
De voorbeelden van algoritmes die negatieve (bij-)effecten hadden toen ze al lang en breed in productie waren zijn in de afgelopen jaren opgestapeld. In mijn beleving is het een stap voorwaarts dat over mogelijke negatieve gevolgen wordt nagedacht in de designfase en negatieve effecten al worden dichtgetimmerd voordat het model breed beschikbaar komt. Niet alleen technologie ontwikkelt, ook de manier waarop ontwikkelaars technologie loslaten in de wereld evolueert.

Geef een reactie