La vulnerabilidad de la inteligencia artificial
En 2015, el científico de la computación Ian Goodfellow y sus colegas en Google describieron lo que podría considerarse el fracaso más famoso de la inteligencia artificial. Primero, una red neuronal entrenada para clasificar imágenes correctamente identificó una fotografía de un panda. Luego, el equipo de Goodfellow agregó una pequeña cantidad de ruido cuidadosamente calculado a la imagen. El resultado era indistinguible para el ojo humano, pero ahora la red afirmaba con confianza que la imagen era de un gibón. Este es un ejemplo icónico de lo que los investigadores llaman ejemplos adversarios: entradas cuidadosamente diseñadas para engañar a los clasificadores de redes neuronales.
Aunque inicialmente muchos investigadores pensaban que este fenómeno revelaba vulnerabilidades que debían corregirse antes de desplegar estos sistemas en el mundo real, esas preocupaciones nunca se materializaron fuera del laboratorio. «Por lo general, hay formas más fáciles de romper un sistema de clasificación que hacer una pequeña alteración en el espacio de los píxeles», dice el científico de la computación Nicholas Frosst.
Los grandes modelos de lenguaje (LLMs) que impulsan chatbots como ChatGPT, Gemini y Claude son capaces de realizar una amplia variedad de tareas y, a veces, pueden parecer inteligentes. Sin embargo, estos sistemas todavía producen rutinariamente errores y pueden tener comportamientos no deseados o incluso perjudiciales. Están entrenados con vastas cantidades de texto de Internet, por lo que tienen la capacidad de producir intolerancia o desinformación, o proporcionar a los usuarios información problemática, como instrucciones para construir una bomba. Para reducir estos comportamientos, los desarrolladores de los modelos toman diversas medidas, como proporcionar retroalimentación para ajustar las respuestas de los modelos, o restringir las consultas que satisfarán. Sin embargo, aunque esto podría ser suficiente para evitar que la mayoría del público general se encuentre con contenido indeseable, personas más decididas, incluidos los investigadores de la seguridad de la inteligencia artificial, pueden diseñar ataques que eluden estas medidas.
La raíz de todos los errores
Ha habido sugerencias de que los LLM muestran un «rendimiento cercano al nivel humano» en diversas áreas, como matemáticas, codificación y derecho. Pero estas afirmaciones se basan en pruebas diseñadas para evaluar la cognición humana, y esto no es una buena manera de revelar las debilidades de los LLM, dice Thomas McCoy, un lingüista computacional en la Universidad de Yale. «Es importante no caer en la trampa de ver los sistemas de inteligencia artificial de la misma manera que vemos a los humanos».
Muchas de las vulnerabilidades de estos sistemas están relacionadas con los mismos problemas que aquejaron a los clasificadores de imágenes, y si la investigación pasada sobre ese tema sirve de indicación, es probable que estas vulnerabilidades no desaparezcan pronto. A medida que los chatbots se vuelven más populares y capaces, hay preocupación de que la seguridad se esté pasando por alto. «Estamos aumentando la capacidad, pero no estamos poniendo casi tanto esfuerzo en todos los problemas de seguridad y protección», dice Yoshua Bengio, un científico de la computación de la Universidad de Montreal en Canadá. «Necesitamos hacer mucho más para entender tanto lo que sale mal como cómo mitigarlo». Algunos investigadores piensan que la solución radica en hacer que los modelos sean más grandes y que entrenarlos con cantidades crecientes de datos reducirá los fallos a niveles insignificantes. Otros dicen que algunas vulnerabilidades son fundamentales para la naturaleza de estos modelos y que ampliarlos podría empeorar el problema. Muchos especialistas abogan por un mayor énfasis en la investigación de seguridad y defienden medidas para obligar a las entidades comerciales a tomar en serio este problema.