El Poder Persuasivo de los Modelos de Lenguaje Avanzados: Un Ensayo Controlado Aleatorio
24 de Marzo de 2024 in Análisis y Reseñas by Alejandro García
En las últimas décadas, la proliferación de redes sociales y otras plataformas en línea ha ampliado el potencial de la persuasión masiva mediante la personalización o micro-targeting, adaptando los mensajes a individuos o grupos específicos para aumentar su persuasión. Sin embargo, los enfoques clásicos eran difíciles de escalar debido al costo de recopilar información del perfil seguido de la creación de mensajes personalizados dirigidos a personas específicas con un mensaje específico.
En este contexto, los senadores expresaron preocupaciones hace casi un año durante las audiencias sobre los Modelos de Lenguaje Avanzados (LLM, por sus siglas en inglés). Si pueden asumir esta función, comenzará una increíble guerra de persuasión en internet. Si antes el Estado podía contratar, digamos, a varias decenas de miles de personas para que trabajaran en una fábrica de trolls y escribieran comentarios (quizás incluso no personalizados), con recursos a nivel de país se podría proporcionar a CADA persona un persuasor personalizado que no se cansa, puede presentar cualquier punto de vista sobre cualquier tema y durante el tiempo que desee.
Italianos y suizos se preguntan: ¿pueden los modelos de la generación actual persuadir a las personas en debates? Para responder a esta pregunta, se lleva a cabo un estudio controlado con la participación de 820 personas (todas mayores de edad de los Estados Unidos). Cada uno completa un cuestionario sobre sí mismo, incluidos datos personales fácilmente recopilables en promedio: género, edad, etnia, nivel de educación, estado laboral y afiliación política.
Luego, cada participante se une a debates de 10 minutos sobre uno de los temas. Su oponente puede ser otra persona o GPT-4. En algunos experimentos, al participante se le proporciona información personalizada sobre su oponente, en otros no. El tema se elige al azar, al igual que la posición sobre el tema (es decir, a veces es necesario defender una posición que no se comparte, al igual que en debates reales).
¿Cuáles son estos temas? Inicialmente, se creó una lista de 60 temas. Se filtró según 1) el conocimiento de la población (para no debatir sin argumentos), 2) la sesgo del acuerdo (donde las personas más a menudo tenían la misma posición) y 3) la dificultad para persuadir (se eliminaron los temas en los que las personas afirmaban que su posición no podía ser cambiada en absoluto). Como resultado, quedaron 30 temas agudos para los debates, por ejemplo: "¿Las redes sociales están volviendo estúpidas a las personas?", "¿Deberían los ricos pagar más impuestos?", "¿Deberían los gobiernos tener derecho a censurar Internet?". Como puede ver, los temas son muy relevantes, por lo que la capacidad de LLM para cambiar la opinión de las personas sobre ellos es una señal muy importante.
Antes de los debates, los participantes indicaban su acuerdo con su posición, y lo mismo hacían después del round de 10 minutos. En el estudio, se midió cómo cambiaba la posición del participante y si su oponente lograba persuadirlo.
Sin personalización, los resultados no son muy interesantes, pero con ella... Si mostramos un bloque con información para las personas, por lo general, durante los debates, las posiciones se radicalizan. Pero si es GPT-4, tienen mucho más éxito en la persuasión que las personas, y se logra una diferencia estadísticamente significativa en el estudio. GPT-4 logró una probabilidad de acuerdo del oponente con su posición un 81,7% mayor que si lo hiciera una persona. Es decir, una vez más, las personas con acceso a información personal no pueden ser tan hábiles como un LLM que entiende cómo presentar algo no deseado bajo la apariencia de algo deseable específicamente para usted.
Y las personas a menudo realmente cambian su opinión en un corto período de tiempo, es decir, cambian de opinión.
😐 ¿Estamos esperando nuevas regulaciones?