Intelligence artificielle : Un algorithme d’apprentissage capable de générer un visage à partir d’une voix

Les lèvres d'une femme prononçant un mot

 

Un algorithme d’apprentissage automatique du Massachussetts Institute of Technology (MIT) serait capable de générer un visage plausible à partir d’une voix, en extrayant ses caractéristiques essentielles. Le programme aurait un taux de réussite de 94 %, toutes races confondues. Mais pris séparément, le score avec les races noire et indienne est moins impressionnant.

100.000 visages différents pour 4.700 heures de film

Bientôt l’on pourrait identifier une personne rien qu’à partir de sa voix. Une équipe du laboratoire d’informatique et d’intelligence artificielle du Massachussetts Institute of Technology (MIT) aux États-Unis travaille sur un algorithme d’apprentissage automatique, appelé Speech2Face, capable d’associer un type de voix à des caractéristiques faciales. Les chercheurs ont entraîné leur programme avec des millions de vidéos issues de la base de données en ligne AVSpeech (AV pour Audio-Visual). Il s’agit de séquences de 3 à 10 minutes postées sur YouTube. Elles montrent une personne qui parle sans interférence et bruit de fond parasite. En tout plus de 100.000 visages différents pour 4.700 heures de film, soumis à l’appréciation de l’algorithme.

Il ne s’agit pas forcément de produire le visage exact

L’expérimentation consistait à proposer à Speech2Face une voix et un unique plan de la vidéo correspondante. L’algorithme s’attelait ensuite à analyser les données puis à produire un spectrogramme de la voix d’un côté et les caractéristiques crâno-faciales saillantes de l’autre, dont la largeur de la mâchoire, des lèvres, de la bouche, du nez etc. Il faisait ensuite correspondre la voix à un visage plausible, et non forcément le visage exact. Sur cette base, Speech2Face a eu de bons résultats. Il est parvenu à très bien corréler visage et voix d’un même âge, mais également à associer à 94 % voix et visage d’un même genre.

Le programme doit encore se parfaire

Mais les races prises séparément, le résultat est moins fameux chez les Noirs et Indiens que chez les Blancs et Asiatiques. « Il existe une bonne corrélation concernant voix et visage ‘blancs ‘ et voix et visage ‘asiatiques’ mais nous observons de moins bons résultats concernant le type ‘indien‘ et ‘noir’ », ont constaté les chercheurs. Ces derniers croient en revanche savoir pourquoi le programme marche moins bien chez les races noires et indiennes. En effet, la base de données AVSpeech compte plus de 50 % de visages blancs, 28,9 % d’asiatiques mais seulement 12,1 % de locuteurs noirs et 8,7 % d’Indiens. Et forcément la récurrence influe sur le programme.

Outre la différence entre le pourcentage de réussite d’une race à une autre, l’algorithme commet quelques erreurs notables Dans certains cas, il a par exemple présenté un visage de femme à partir de la voix d’un garçon, ou d’une jeune femme à partir d’une femme âgée.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.