Audio

Je hebt vast al eens spraak omgezet naar tekst of tekst-naar-spraak gebruikt op je smartphone of slimme luidspreker. Deze technologie bestaat al een tijdje, maar is de afgelopen jaren veel nauwkeuriger en veelzijdiger geworden. Met generatieve AI ontstaan nieuwe mogelijkheden: van muziek maken en geluidseffecten creëren tot stemmen die emoties kunnen uitdrukken.

Laten we samen enkele prompts verkennen:

Genres en stijlen: Kies het genre en de stijl die jij wil, zoals ‘een klassieke symfonie’ of ‘een rapnummer’.
Instrumenten en klankkleur: Bepaal welke instrumenten je wil horen en de sfeer die je zoekt. Wil je een warme akoestische gitaar of een elektronische synthesizer?
Tekst en emotie: Geef heldere instructies voor de tekst en de emotie die je wil overbrengen in een spraakopname, of het nu om een enthousiaste reclamespot gaat of een rustige vertelling.

Text-to-speech: nieuwe mogelijkheden

Nieuwe en betere stemmodellen maken het mogelijk om stemopnames te genereren die variëren in intonatie en emotie, afhankelijk van de inhoud. AI kan niet alleen voorlezen, maar ook fluisteren of zelfs hele scènes naspelen. Met maar enkele seconden stemopname, kan je al een stem klonen. Je kan zelfs unieke stemmen creëren door ze alleen te beschrijven. Bij tekst-naar-spraak-modellen werk je meestal niet met prompts. Je selecteert een stem en voert de tekst in die je wil laten uitspreken.

Beluister de onderstaande fragmenten en merk op wat elke stem bijzonder maakt.

Ook bij AI-stemmen zijn hele groepen uit onze samenleving ondervertegenwoordigd. Zo zijn er opvallend weinig vrouwelijke stemmen te bespeuren die spreken met een Vlaams accent.

Andere generatieve AI toepassingen

Muziek

Generatieve AI heeft de manier waarop we muziek maken compleet veranderd. Nieuwe modellen kunnen nu niet alleen instrumentale stukken produceren, maar ook volledige nummers met zang. Kortom, binnen een minuut maak je al een indrukwekkend nummer, maar je mist wel het plezier van een instrument bespelen en melodieën uitproberen.

Probeer het zelf uit. Zoek een gratis proefversie van een AI-muziekgenerator en maak een nummer dat je herinnert aan een vrolijk moment of helpt om dat ene, moeilijke begrip te onthouden. Je kan hiervoor de onderstaande prompt gebruiken of zelf een prompt schrijven.

Genereer een poplied met een opgewekte melodie en een refrein dat wordt gezongen. Het thema van het nummer is vriendschap.

Inspiratie nodig? Beluister de onderstaande nummers. Het Engelse nummer werd automatisch gegenereerd op basis van een eenvoudige prompt. Het tweede nummer gebruikt een bestaande tekst.

Speech-to-speech

Met speech-to-speech-technologie kan je in realtime gesprekken omzetten naar een andere taal of stem. Het behoudt daarbij de intonatie, emotie en nuance van de spreker, waardoor het gesprek natuurlijker klinkt en menselijk aanvoelt. De technologie is ideaal voor live vertalingen, slimme stemassistenten die moeiteloos met gebruikers communiceren en nog zoveel meer.

Bekijk deze demo van OpenAI waarin een gebruiker spreekt tegen GPT-4o. Hij vraagt het LLM om te tellen, eerst sneller, dan met een gemiddelde snelheid, dan langzamer. Het model werkt in dit voorbeeld volledig met speech-to-speech-technologie.

Vorige Topic

Ga terug naar Lesson

Volgende Lesson