A veces llegamos a pensar que Internet es un sitio seguro para almacenar nuestras contraseñas, guardar fotos en la nube o comprar de manera online, ¿verdad? Pues estás equivocado, los ciberataques se han disparado en los últimos meses y entre las más comunes destacan las estafas de phishing y la introducción de malware en los dispositivos. Sin embargo, ¿sería posible que los ciberdelincuentes estén creando un nuevo ataque a través de clonar la voz de una persona?

Puede resultar algo impactante, pero nada novedoso para ellos, porque si los ‘malos’ nos quieren estafar, lo harán por cualquier vía y medio. Hace aproximadamente una semana y media, se publicó una noticia que informaba sobre la creciente preocupación sobre estos posibles delitos cibernéticos para engañar a las personas con las que se podía hablar por teléfono.

Desde 20BITS hemos entrevistado a la empresa tecnológica Aflorithmic (dedicada a la producción de audio escalable y automatizado) para que nos explique si estos posibles ataques son ‘factibles’ en el mundo de la ciberseguridad. Pero antes de nada, es conveniente saber cómo se puede clonar la voz de una persona.

¿Cómo se clona una voz?

Matt Lehmann, COO – Director de operaciones- de Aflorithmic, explica que el proceso comienza con hacer grabaciones a la persona que desee clonar su voz con el objetivo de crear un modelo. Para que el audio salga limpio, cualquier sonido de fondo como música o ruidos distorsionarán el modelo, por esta razón no se suelen usar vídeos de YouTube o entrevistas de radio para clonar voces.

Una vez obtenidas las grabaciones, se alinean con los textos escritos del script que la persona ha grabado y se preparan los datos para modelar la voz. Lehmann afirma que el proceso se lleva a cabo gracias al uso de la Inteligencia Artificial (IA) porque reconoce las características de la voz de una persona y las recrea con un modelo. Este proceso de ‘machine learning’ suele tardar en procesar unos días y, una vez finalizado, cualquier texto escrito se puede convertir en la voz de la persona que dejado las grabaciones.

Tecnologías empleadas para llevar a cabo el proceso

Se requiere un abanico de tecnologías, pero la más esencial es el machine learning que se lleva a cabo con una red neuronal. Básicamente es un cerebro artificial que recibe la información de audio de la persona que quiere clonar su voz y se intenta reconocer sus características, por ello, se emplea un espectrograma (una matriz 3D) que visualiza la voz de una persona.

Matriz 3D
Matriz 3D para ver la voz de una persona.