Google’s AudioLM kan praten en muziek maken zonder eerst uitvoerig te worden getraind

Een nieuw systeem van Google (AudioLM) kan natuurlijk klinkende spraak en zelfs muziek genereren op basis van enkele seconden audio. Deze gegenereerde audio klinkt dan hetzelfde als de input die AudioLM heeft gekregen, inclusief complexe geluiden als pianomuziek en pratende mensen op een manier die bijna niet te onderscheiden is van de originele opname.

Het idee van door A.I. gegenereerde audio is niet nieuw; virtuele assistenten (zoals Alexa, Siri en Google Assistant) gebruiken Natural Language Processing (NLP) en er zijn ook systemen die indrukwekkend goede muziek kunnen maken (zoals Jukebox). Maar deze bestaande technieken hebben mensen nodig om transcripties te maken of trainingdata te labelen, wat een hoop tijd kost van menselijke arbeidskrachten.

AudioLM is daarin anders. Je hebt geen transcriptie of labeling nodig. Geluidsdata worden in het programma gestopt en met machine learning worden deze data gecomprimeerd tot geluids ‘snippets’ (wat AudioLM ‘tokens’ noemt). Deze ‘tokenized’ trainingdata worden vervolgens naar een volgend machine learning model doorgezet dat NLP gebruikt om het patroon van het geluid te ontrafelen.

Om de audio te kunnen genereren worden een paar seconden geluid aan AudioLM gevoed, waarna AudioLM voorspelt wat er logischerwijs op kan volgen. Dit lijkt op de manier waarop taalmodellen zoals GPT-3 werken; welke zinnen en woorden volgen doorgaans op elkaar? Je ziet het in WhatsApp of in Teams bijvoorbeeld ook al vaak langs komen: een suggestie voor een passende reactie. Soms handig.

De audio die AudioLM produceert klinkt erg goed. Er zijn in een online paper korte fragmenten te beluisteren die wat mij betreft indrukwekkend natuurlijk klijnken (dat paper vind je hier). Zowel de manier waarop de spraaktokens worden aangevuld als de manier waarop de (piano)muziek wordt aangevuld geven het gevoel dat er wél een mens aan de knoppen heeft gezeten.

Er zijn verschillende use cases te bedenken. Je kunt op termijn bijvoorbeeld automatisch muziek genereren om onder je (bedrijfs)video’s te zetten. Maar let op: zoals bij zoveel A.I. gerelateerde onderwerpen, komen we hier wel bij een ethisch vraagstuk uit dat beantwoord moet worden. Krijgen de muzikanten die voor de trainingsdata hebben gezorgd ook royalties voor het eindproduct dat AudioLM daarop heeft gebaseerd?

Je kunt het natuurlijk ook heel praktisch in gaan zetten. Heb je wel eens opgezien tegen een moment waarop je bijvoorbeeld kort moet pitchen? Of wie je bent of wat je doet? Of dat je een appgesprek met je nieuwe date op gang moet houden? Daarvoor is een automatische spraakgenerator ook handig. Je spreekt zelf in “Wat ik belangrijk vind in een relatie, is…” Laat AudioLM maar eens wat voorstellen doen en maak je keuze! Opnemen en verzenden als spraakbericht, hoef je zelf niet na te denken, niet in te spreken en maak je toch een goede indruk op je nieuwe liefde. Hou je zelf meer tijd over om leuke blogberichtjes te lezen!

Advertentie

Eén reactie op “Google’s AudioLM kan praten en muziek maken zonder eerst uitvoerig te worden getraind”

  1. […] is een neuraal netwerk, ontworpen door OpenAI. In eerdere blogs besteedde ik al vaker aandacht aan GPT-3, bijvoorbeeld over de manier waarop dit netwerk marketingteksten genereert. Maar […]

    Like

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: