¡VALL-E AI simula tu voz en solo 3 segundos!

Microsoft ha desarrollado VALL-E, una inteligencia artificial (IA) capaz de simular un sonido a partir de una muestra de tan solo tres segundos. Algunas de las demostraciones son muy convincentes. La empresa comprende el peligro de poner una herramienta de este tipo en las manos equivocadas.

Para más información sobre esta noticia, descubra el registro de audio de Vitamine Tech, en el que Emma Hollin habla con usted en detalle sobre cómo funciona VALL-E. © Futura

distancia » falso profundo Con foto o video, ¿veremos la llegada del sonido «deep fake»? Es posible desde entonces microsoftmicrosoft Revelando un nuevo modeloInteligencia artificial (IA) llamada de texto a voz Valle. su privacidad? Puede imitar la voz de una persona y así simularla con una simple muestra de audio de tres segundos. Una vez que ha aprendido una voz específica, esta IA puede sintetizar la voz de esa persona, preservando su timbre y emoción.

En Microsoft se cree que VALL-E se puede utilizar para aplicacionesaplicaciones Síntesis de audio, pero también, y esto obviamente es más preocupante, para editar el discurso en la grabación. Será posible editar y modificar el audio de un archivo transcripcióntranscripción Texto de voz. Imagina el discurso de un político cambiado por esto. Inteligencia artificialInteligencia artificial

Aprendizaje automático en acción

Para la empresa, VALL-E es lo que denominan un «paradigma del lenguaje de codificación neuronal» y se basa en la presión de sonidopresión de sonido llamado EnCodec, presentado por Meta (Facebook) el pasado mes de octubre. A diferencia de otros métodos de síntesis de voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códecs de audio a partir de muestras de texto y audio. Básicamente analiza la voz de una persona y descompone esa información en simbolos (simbolossimbolos) Gracias a EnCodec, utiliza «aprendizaje automático» para hacer coincidir el modelo de tres segundos con lo que aprendió.

READ  Para protegerse bien, necesitará 2 mascarillas húmedas.

Para ello, Microsoft se basó en la biblioteca de audio Libre Lite. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, la mayoría de ellos extraídos de audiolibros de dominio público de LibriVox. Para que VALL-E produzca un resultado significativo, el sonido en la muestra de tres segundos debe coincidir con un sonido en los datos de entrenamiento.

Debo hacer algo al respecto.

Ejemplo. © VALL-E

Microsoft es consciente del peligro

Para convencerte, Microsoft ofrece Docenas de ejemplos de audio El modelo de IA en acción. Algunos son inquietantemente similares, pero otros son claramente artificiales y el oído humano puede decir que son IA. Lo impresionante es que además de preservar el tono y la emoción de la persona que habla, VALL-E es capaz de reproducir el entorno y las condiciones de grabación. Microsoft toma el ejemplo de una llamada telefónica con las características de voz y frecuencia de este tipo de conversación.

En respuesta a una pregunta sobre los peligros de dicha inteligencia artificial, Microsoft confirmó que el código fuente no está disponible y que la empresa es consciente de ello. Esto puede generar riesgos potenciales de abuso de forma, como la suplantación o la suplantación de un hablante específico. Para mitigar estos riesgos, es posible construir un modelo de detección para diferenciar si un fonograma fue realizado por VALL-E. También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más modelos. «.

READ  LibreOffice 7.4 mejora la compatibilidad con los documentos de Microsoft Office

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *