Expertos: Solucionar fallas en los chats de inteligencia artificial llevará tiempo
Los funcionarios de la Casa Blanca preocupados por el potencial de daño social de los chatbots que funcionan con inteligencia artificial y las potencias de Silicon Valley que los apresuran a salir al mercado están muy interesados en una competencia de tres días que finaliza el domingo en la convención de hackers DefCon en Las Vegas.
Unos 3.500 competidores han aprovechado laptops que buscan exponer fallas en ocho modelos líderes de lenguaje a gran escala representativos del próximo gran avance de la tecnología. Pero no esperes resultados rápidos de este primer “equipo rojo” independiente.
Los hallazgos se harán públicos más o menos hasta febrero. E incluso entonces, corregir fallas en estas construcciones digitales —cuyo funcionamiento interno no es del todo confiable ni es totalmente comprensible ni siquiera para sus creadores— llevará tiempo y millones de dólares.
Los modelos actuales de inteligencia artificial son simplemente demasiado difíciles de manejar, frágiles y maleables, según muestra la investigación académica y corporativa. La seguridad fue una idea de último momento en su formación, a medida que los científicos de datos acumularon colecciones de imágenes y texto asombrosamente complejos. Estos son propensos a prejuicios raciales y culturales, y son fáciles de manipular.
“Es tentador pretender que podemos rociar un poco de polvo mágico de seguridad en estos sistemas después de que estén construidos, parchearlos para que se sometan o atornillar aparatos especiales de seguridad en el costado”, dijo Gary McGraw, un veterano de seguridad cibernética y cofundador del Berryville Institute of Machine Learning.
Michael Sellitto de Anthropic, que proporcionó uno de los modelos de prueba de inteligencia artificial, reconoció en una conferencia de prensa que comprender sus capacidades y problemas de seguridad “es una especie de área abierta de investigación científica”.
El software convencional utiliza un código bien definido para emitir instrucciones explícitas paso a paso. ChatGPT de OpenAI, Bard de Google y otros modelos de lenguaje son diferentes. Entrenados en gran parte mediante la ingestión y clasificación de miles de millones de puntos de datos en rastreos de internet, son trabajos en progreso perpetuos, una perspectiva inquietante dado su potencial transformador para la humanidad.
Después de lanzar públicamente los chatbots el otoño pasado, la industria de la inteligencia artificial generativa ha tenido que tapar repetidamente los agujeros de seguridad expuestos por investigadores y expertos.
Tom Bonner, de la firma de seguridad de inteligencia artificial HiddenLayer, un orador en la DefCon de este año, engañó a un sistema de Google para que etiquetara una pieza de malware como inofensiva simplemente insertando una línea que decía “esto es seguro de usar”.
“No hay buenas barandillas”, dijo.
Otro investigador hizo que ChatGPT creara correos electrónicos de phishing y una receta para eliminar violentamente a la humanidad, una violación de su código de ética.
Un equipo que incluye a investigadores de Carnegie Mellon descubrió que los chatbots líderes son vulnerables a los ataques automatizados que también producen contenido dañino. “Es posible que la naturaleza misma de los modelos de aprendizaje profundo haga que tales amenazas sean inevitables”, escribieron.
Las alarmas ya habían sonado desde antes.
En su informe final de 2021, la Comisión de Seguridad Nacional de Inteligencia Artificial de Estados Unidos dijo que los ataques a los sistemas comerciales de inteligencia artificial ya estaban ocurriendo y que “con raras excepciones, la idea de proteger los sistemas de inteligencia artificial ha sido una ocurrencia tardía en la ingeniería y el despliegue de sistemas de inteligencia artificial, con una inversión inadecuada en investigación y desarrollo”.
Los hackeos serios, reportados regularmente hace solo unos años, apenas se revelan. Hay demasiado en juego y, en ausencia de regulación, “la gente puede barrer las cosas debajo de la alfombra en este momento y lo están haciendo”, dijo Bonner.
Los ataques engañan a la lógica de la inteligencia artificial de maneras que quizás ni siquiera estén claras para sus creadores. Y los chatbots son especialmente vulnerables porque interactuamos con ellos directamente en un lenguaje sencillo. Esa interacción puede alterarlos de formas inesperadas.
Los investigadores han descubierto que “envenenar” una pequeña colección de imágenes o texto en el vasto mar de datos utilizados para entrenar los sistemas de inteligencia artificial puede causar estragos y pasar desapercibido fácilmente.
Un estudio en coautoría de Florian Tramér de la Universidad suiza ETH Zurich determinó que corromper solo el 0,01% de un modelo era suficiente para estropearlo, y costaba tan solo 60 dólares. Los investigadores esperaron a que expiraran dos modelos de un puñado de sitios web utilizados en rastreos. Luego compraron los dominios y publicaron datos incorrectos sobre ellos.
Hyrum Anderson y Ram Shankar Siva Kumar, quienes formaron equipo rojo con la inteligencia artificial mientras eran colegas de Microsoft, califican el estado de la seguridad de la inteligencia artificial para los modelos basados en texto e imágenes como “lamentable” en su nuevo libro “Not with a Bug but with a Sticker”. Un ejemplo es el asistente virtual Alexa, la cual es engañada para que interprete un clip de concierto de Beethoven como un comando para ordenar 100 pizzas congeladas.
Al encuestar a más de 80 organizaciones, los autores encontraron que la gran mayoría no tenía un plan de respuesta para un ataque de envenenamiento de datos o robo de datos. La mayor parte de la industria “ni siquiera sabría que sucedió”, escribieron.
Andrew W. Moore, exejecutivo de Google y decano de Carnegie Mellon, dice que lidió con los ataques al software de búsqueda de Google hace más de una década. Y entre finales de 2017 y principios de 2018, los spammers manipularon cuatro veces con el servicio de detección de Gmail que funciona con inteligencia artificial.
Los grandes actores de la inteligencia artificial dicen que la seguridad y la protección son las principales prioridades y se comprometieron voluntariamente con la Casa Blanca el mes pasado a presentar sus modelos, en gran parte “cajas negras” cuyo contenido se mantiene en secreto, para el escrutinio externo.
Pero existe la preocupación de que las empresas no hagan lo suficiente.
Tramér prevé que los motores de búsqueda y las plataformas de redes sociales sean manipulados para obtener ganancias financieras y desinformación al explotar las debilidades del sistema de inteligencia artificial Un solicitante de empleo inteligente podría, por ejemplo, averiguar cómo convencer a un sistema de que es el único candidato correcto.
A Ross Anderson, científico informático de la Universidad de Cambridge, le preocupa que los bots de inteligencia artificial erosionen la privacidad a medida que las personas los involucren para interactuar con hospitales, bancos y empleadores, y actores maliciosos los aprovechen para extraer datos financieros, laborales o de salud de sistemas supuestamente cerrados.
Los modelos de lenguaje de inteligencia artificial también pueden contaminarse a sí mismos al volver a entrenarse a partir de datos basura, según muestra la investigación.
Otra preocupación son los secretos de empresas que son ingeridos y generados por los sistemas de inteligencia artificial. Después de que un medio de noticias de negocios coreano informara sobre un incidente de este tipo en Samsung, corporaciones como Verizon y JPMorgan prohibieron a la mayoría de los empleados usar ChatGPT en el trabajo.
Si bien los principales jugadores de inteligencia artificial tienen personal de seguridad, es probable que muchos competidores más pequeños no lo tengan, lo que significa que los complementos y los agentes digitales mal protegidos podrían multiplicarse. Se espera que las empresas emergentes lancen cientos de ofertas basadas en modelos preentrenados con licencia en los próximos meses.