Een gezicht op de stem plakken? Dankzij artificiële intelligentie kan het binnenkort misschien

Het algortime van Speech2Face slaagt erin om gender, leeftijd en etniciteit na te bootsen.
arXiv Het algortime van Speech2Face slaagt erin om gender, leeftijd en etniciteit na te bootsen.
Wanneer we een persoon aan de lijn hebben die we niet kennen, hebben we slechts het raden naar hoe die persoon eruit ziet. Maar dankzij artificiële intelligentie (AI) kan er nu ook een digitaal beeld van iemand gegenereerd worden na het horen van diens stem.

Speech2Face is een computer die ongeveer op dezelfde manier denkt als het menselijk brein. Het algoritme van de computer verwerkte ongeveer 100.000 filmpjes van 100.000 verschillende personen die aan het woord waren. Die videofragmenten vormden samen de dataset van Speech2Face. 

Door de vocale signalen te koppelen aan bepaalde fysieke kenmerken van het menselijk gezicht, slaagde de artificiële intelligentie van Speech2Face er ook in om nieuwe fotorealistische gezichten te genereren na het beluisteren van een nieuwe stem. En als bij wonder kwamen de foto’s van Speech2Face ook nog eens goed overeen met het echte gezicht van de persoon die de audiofragmenten insprak. Het resultaat werd gepubliceerd in het vaktijdschrift arXiv.

Imperfect

Gelukkig slaagt artificiële intelligentie er nog niet helemaal in om gezichten perfect na te bootsen. “Het algoritme is nog niet perfect”, aldus de computerwetenschappers die aan Speech2Face werkten. Nog niet, want het eerste model doet het helemaal niet slecht. Zo kon Speech2Face het geslacht, de leeftijd en etniciteit van personen keer op keer raden, althans als de stemmen zich niet ‘vermomden’.

De artificiële intelligentie kan immers makkelijk beetgenomen worden. Wanneer een Aziatische man Chinees, zijn moedertaal, sprak, werd hij eveneens afgebeeld als een Aziatische man. Sprak diezelfde man echter Engels, kreeg hij een witte huidskleur.

Een tweede probleem – dat niet noodzakelijk een fout is van Speech2Face maar wel van zijn makers – is dat de rijke dataset gevuld is met stemmen (en gezichten) die nooit toestemming gaven om onderdeel uit te maken van het onderzoek. Volgens het Amerikaanse tijdschrift Slate is dat echter geen echt probleem. Staat een video op Youtube? Dan mogen onderzoekers de fragmenten gebruiken voor onderzoek. Misschien duik jij binnenkort wel op in de datasat van Speech2Face. 




Reacties

Alle reacties worden voor publicatie gelezen -en goed- of afgekeurd- door het moderatie-team van HLN. Elke reactie moet voldoen aan deze gedragsregels.
Je naam en voornaam verschijnen bij je reactie.