L’humanité a fait un pas de plus vers l’inévitable guerre avec les machines (que nous perdrons) avec la création de Vall-E, une IA développée par une équipe de chercheurs de Microsoft capable de produire en quelques secondes des répliques de voix humaines de haute qualité. produire une formation audio de qualité.
Vall-E n’est pas le premier outil vocal alimenté par l’IA—Synthé xVA (s’ouvre dans un nouvel onglet), par exemple, fonctionne depuis quelques années maintenant, mais il promet de tous les surpasser en termes de capacité. Disponible dans un journal L’Université de Cornell (s’ouvre dans un nouvel onglet) (par Centrale Windows (s’ouvre dans un nouvel onglet)), les chercheurs de Vall-E affirment que la plupart des systèmes de synthèse vocale actuels sont limités par leur dépendance à l’égard de “données propres et de haute qualité” pour synthétiser avec précision une parole de haute qualité.
“Les données à grande échelle extraites d’Internet ne peuvent pas répondre à l’exigence et entraînent toujours une dégradation des performances”, indique le document. “Parce que les données de formation sont relativement petites, les systèmes TTS actuels souffrent toujours d’une mauvaise généralisation. La similarité des locuteurs et le naturel de la parole diminuent considérablement pour les locuteurs invisibles dans le scénario zéro-coup.”
(“Scénario zéro coup (s’ouvre dans un nouvel onglet)dans ce cas signifie essentiellement la capacité de l’IA à recréer des voix sans être spécifiquement formée pour le faire.)
Vall-E, d’autre part, a été formé avec un ensemble de données beaucoup plus vaste et plus diversifié : 60 000 heures de discours en anglais de plus de 7 000 locuteurs uniques, tous transcrits par un logiciel de reconnaissance vocale. Les données envoyées à l’IA contiennent “plus de paroles bruyantes et de transcriptions imprécises” que celles utilisées par d’autres systèmes de synthèse vocale, mais les chercheurs pensent que l’ampleur même de l’entrée et sa diversité la rendent beaucoup plus flexible et adaptable. et – c’est le grand – plus naturel que ses prédécesseurs.
“Les expériences montrent que Vall-E surpasse de manière significative le système TTS à la pointe de la technologie en termes de naturel de la parole et d’accord du locuteur”, indique le document, qui regorge de chiffres, d’équations, de diagrammes, etc. complexités. “De plus, nous constatons que VALL-E peut préserver l’émotion du locuteur et l’environnement acoustique de l’invite acoustique en synthèse.”
Vous pouvez réellement entendre Vall-E en action à GithubGenericName (s’ouvre dans un nouvel onglet), où l’équipe de recherche a fourni un bref aperçu de la façon dont tout cela fonctionne, ainsi que des dizaines d’exemples d’entrées et de sorties. La qualité varie : certaines voix sont notamment robotiques, tandis que d’autres semblent assez humaines. Mais comme une sorte de démo technologique de premier passage, c’est impressionnant. Imaginez où en sera cette technologie dans un an, deux ou cinq ans, à mesure que les systèmes s’améliorent et que l’ensemble de données de formation vocale se développe encore plus.
C’est bien sûr pourquoi c’est un problème. Dall-E, le générateur d’art IA, fait face à un refoulement préoccupations concernant la vie privée et la propriété (s’ouvre dans un nouvel onglet)et le bot ChatGPT est suffisamment convaincant pour qu’il soit récent interdit par le ministère de l’Éducation de la ville de New York (s’ouvre dans un nouvel onglet). Vall-E a le potentiel d’être encore plus préoccupant en raison de son utilisation possible dans des appels marketing frauduleux ou pour amplifier des vidéos deepfake. Cela peut sembler un peu tordant, mais comme l’a dit notre rédacteur en chef Tyler Wilde au début de l’année, ce genre de choses ne s’en va pas (s’ouvre dans un nouvel onglet)et il est essentiel que nous reconnaissions les problèmes et réglementions la création et l’utilisation des systèmes d’IA avant que les problèmes potentiels ne deviennent de vrais (et vraiment gros) problèmes.
L’équipe de recherche Vall-E a abordé ces “implications plus larges” dans la conclusion de son article. “Étant donné que VALL-E pourrait synthétiser la parole qui préserve l’identité du locuteur, il pourrait comporter des risques potentiels d’utilisation abusive du modèle, comme falsifier l’identification vocale ou imiter un locuteur spécifique”, a écrit l’équipe. “Pour atténuer ces risques, il est possible de construire un modèle de détection pour distinguer si un clip audio a été synthétisé par VALL-E. Nous allons également Principes d’IA de Microsoft (s’ouvre dans un nouvel onglet) mettre en pratique lors du développement ultérieur des modèles.”
Au cas où vous auriez besoin de preuves supplémentaires que l’usurpation d’identité à la volée mène à de mauvaises places :