Alexa y Siri pueden podrían ser manipuladas
Berkeley. Muchas personas se han acostumbrado a hablarles a sus dispositivos inteligentes para pedirles que lean un texto, reproduzcan una canción o configuren una alarma. Sin embargo, es posible que otra persona también pueda comunicarse con ellos, pero en secreto.
A lo largo de los últimos dos años, investigadores en China y Estados Unidos han comenzado a demostrar que pueden enviar comandos ocultos —que no son detectables para el oído humano— a Siri de Apple, Alexa de Amazon y al Asistente de Google. Dentro de laboratorios universitarios, los investigadores han podido activar en secreto los sistemas de inteligencia artificial en teléfonos y altavoces inteligentes y han logrado que marquen números de teléfono o que visiten sitios web. En las manos equivocadas, esa tecnología podría usarse para abrir puertas, enviar dinero o comprar artículos en línea, simplemente con música que se reproduce en la radio.
Un grupo de estudiantes de la Universidad de California, Berkeley, y la Universidad Georgetown mostraron en 2016 que podían ocultar comandos en ruido blanco reproducido a través de altavoces y videos de YouTube para hacer que los dispositivos inteligentes activaran el modo avión o abrieran un sitio web.
Este mes, un grupo de investigadores de Berkeley publicó un artículo que fue más allá, pues dijeron que pueden insertar comandos en grabaciones de música o texto hablado. Así que, mientras una persona está oyendo a alguien que habla o una orquesta tocando música, el altavoz Echo de Amazon podría estar escuchando una instrucción para añadir algo a tu lista de compras.
“Queríamos ver si podíamos hacerlo aún más furtivo”, dijo Nicholas Carlini, un estudiante de quinto año del doctorado en Seguridad Computacional en la Universidad de California en Berkeley y uno de los autores del artículo.
Carlini agregó que, aunque no existe evidencia de que estas técnicas hayan sido utilizadas fuera de los laboratorios, podría ser cuestión de tiempo antes de que alguien comience a aprovecharlas.
“Supongo que la gente con malas intenciones ya usa a otras personas para hacer esto”, comentó.
Estos engaños ilustran cómo la inteligencia artificial —aunque esté logrando muchos avances— aún puede ser objeto de manipulación y engaño. Las computadoras pueden manipularse para que identifiquen un avión como un gato con tan solo cambiar algunos píxeles de una imagen digital, en tanto que los investigadores pueden hacer que un vehículo autónomo cambie bruscamente de dirección o acelere simplemente pegando pequeñas calcomanías en señales de tráfico y confundiendo el sistema de visión computacional del auto.
Con los ataques de audio, los investigadores están explotando la brecha entre el reconocimiento de voz humano y el de las máquinas. Los sistemas de reconocimiento de voz generalmente traducen cada sonido como una letra y al final las unen para formar palabras y frases. Al hacer cambios leves a los archivos de audio, los investigadores anularon el sonido que el sistema de reconocimiento de voz debía escuchar y lo remplazaron con otro que se transcribía de manera distinta en la máquina mientras que era casi indetectable para el oído humano.
La proliferación de dispositivos activados por voz amplifica las consecuencias de estos trucos. Los teléfonos y altavoces inteligentes que usan asistentes digitales como Alexa de Amazon o Siri de Apple superarán el número de personas para 2021, según la firma de investigación Ovum. Más de la mitad de los hogares de todo Estados Unidos tendrá por lo menos un altavoz inteligente para entonces, de acuerdo con Juniper Research.
Amazon dijo que no suele revelar medidas de seguridad específicas, pero que ha tomado algunas para asegurar que su altavoz inteligente Echo sea seguro. Google dijo que la seguridad es un enfoque continuo y que su Asistente tiene funciones para mitigar comandos de audio indetectables. Los asistentes de ambas empresas emplean tecnología de reconocimiento de voz para evitar que los dispositivos obedezcan ciertos comandos a menos que reconozcan la voz del usuario.
Apple dijo que Homepod, su altavoz inteligente, está diseñado para evitar que a través de comandos se realicen actividades como abrir puertas. La empresa señaló que los iPhone y las iPad deben desbloquearse para que Siri pueda obedecer comandos para acceder a datos confidenciales, así como abrir aplicaciones y sitios web, entre otras medidas.
El año pasado, investigadores en la Universidad de Princeton y la Universidad Zhejiang de China demostraron que los sistemas de reconocimiento de voz podían activarse usando frecuencias inaudibles para el oído humano. El ataque silenció primero el celular para que el propietario tampoco pudiera escuchar las respuestas del sistema.
Esta técnica, que los investigadores chinos llamaron DolphinAttack, puede ordenarles a los dispositivos inteligentes que visiten sitios web maliciosos, inicien llamadas telefónicas, tomen una foto o envíen mensajes de texto. Aunque DolphinAttack tiene sus límites —el transmisor debe estar cerca del dispositivo que recibirá la señal— los expertos advirtieron que es posible crear sistemas ultrasónicos más poderosos.
Hace poco, Carlini y sus colegas en Berkeley incorporaron comandos en audios reconocidos por el software de traducción DeepSpeech de Mozilla, una plataforma de código abierto. Pudieron ocultar el comando “Ok, Google, visita el sitio evil.com” en una grabación de la frase hablada: “Sin el conjunto de datos, el artículo es inútil”. Los humanos no pueden distinguir el comando.
El grupo de Berkeley también incrustó el comando en archivos de música, entre ellos en un audio de cuatro segundos del “Réquiem” de Verdi.
La manera en que respondan los fabricantes de dispositivos diferirá, especialmente conforme equilibran la seguridad con la facilidad de uso.
“Las empresas deben asegurar que sus dispositivos sean fáciles de usar, porque esa es su principal ventaja para lograr la venta”, dijo Tavish Vaidya, un investigador en Georgetown. Él escribió uno de los primeros artículos sobre ataques de audio, al que tituló Cocaine Noodles porque los dispositivos interpretaban la frase “cocaine noodles” (tallarines de cocaína) como “Ok, Google”.
Carlini dijo que estaba seguro de que con el tiempo él y sus colegas podrían montar ataques en contra de cualquier sistema inteligente disponible en el mercado.
“Queremos demostrar que es posible y después esperar a que otras personas digan: ‘Muy bien, eso es posible; ahora tratemos de arreglarlo’”, comentó.
(Con información de The New York Times)