Avances en el Aprendizaje en Contexto (ICL) y los Desafíos de Seguridad en Modelos de Lenguaje Grande
2 de Abril de 2024 in Análisis y Reseñas by Alejandro García
Los últimos avances en inteligencia artificial revelan que los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) están alcanzando nuevas alturas en su capacidad para el Aprendizaje en Contexto (ICL). Esta metodología permite a los modelos aprender de ejemplos proporcionados en el prompt, ajustando sus respuestas basadas en el contexto dado. Los investigadores han observado que, a medida que el tamaño de estos modelos aumenta, su habilidad para asimilar y aplicar nueva información en tareas específicas se amplifica significativamente.
Un aspecto notable de este progreso es la expansión del 'ventana de contexto' de los modelos. Hace apenas un año y medio, un modelo que podía considerar 8,000 tokens (equivalente a un ensayo extenso) era considerado de vanguardia. Hoy en día, modelos desarrollados por empresas como Google pueden analizar hasta 1.5 millones de tokens, lo que les permite procesar el contenido de varios libros simultáneamente.
Sin embargo, este incremento en capacidad trae consigo nuevos desafíos, especialmente en términos de seguridad. Un estudio reciente de Anthropic destaca cómo las ventanas de contexto más largas abren nuevas posibilidades de ataques a los modelos. Los atacantes pueden manipular los prompts para incluir numerosos ejemplos de respuestas a preguntas prohibidas o no éticas, engañando al modelo para que responda preguntas delicadas de manera detallada, al ver estos ejemplos como una norma aceptable.
Para contrarrestar estos riesgos, Anthropic propone una solución innovadora: utilizar un modelo separado para clasificar y, si es necesario, reescribir las solicitudes antes de que sean procesadas por el modelo principal. Esta estrategia, similar a la empleada por DALL-E 3, donde una LLM reescribe las solicitudes de los usuarios, podría ser la norma en el futuro cercano, asegurando que los modelos interpreten las solicitudes de los usuarios en un "lenguaje esterilizado", elevando los estándares de seguridad en la inteligencia artificial.