La Revolución de Mixture of Experts (MoE): El Futuro de los Modelos de IA

5 de Abril de 2024 in Análisis y Reseñas by Alejandro García

Estas capas MoE

En el ámbito de la inteligencia artificial, la arquitectura de Mixture of Experts (MoE) está marcando un antes y un después en la eficiencia y velocidad de los modelos de aprendizaje profundo. Esta metodología, que ya se intuye forma parte de la infraestructura detrás de gigantes como GPT-4, se diferencia de los modelos tradicionales (dense) por su diseño innovador que integra capas sparse (o dispersas) reemplazadas por MoE-layers.

Estas capas MoE están compuestas por múltiples "expertos", pequeñas subunidades que trabajan de manera especializada. En lugar de procesar cada token a través de todas las unidades, solo se utiliza una fracción de estos expertos, seleccionados por una "red de enrutamiento" dedicada. Este enfoque no solo acelera significativamente los tiempos de entrenamiento y de inferencia en comparación con los modelos densos, sino que también optimiza el uso de recursos.

¿Pero por qué están ganando tanta tracción los modelos MoE? La respuesta radica en su asombrosa eficiencia. Según reportes, la configuración MoE de DBRX aprende dos veces más rápido que su contraparte densa, mientras que en el caso de Qwen-MoE, la mejora en velocidad alcanza un impresionante 4x. Esta variabilidad en la eficiencia de entrenamiento entre diferentes modelos MoE se debe a la necesidad de balancear el consumo de memoria, la eficacia del entrenamiento y la velocidad de ejecución, ajustando el número total y activo de expertos, así como su tamaño.

Sin embargo, a pesar de sus ventajas, el uso de MoE no es universal. La razón principal es su intensivo consumo de memoria, tanto en entrenamiento como en inferencia, lo que se traduce en la necesidad de un mayor número de GPUs. Por ejemplo, el modelo Grok requiere ocho tarjetas gráficas, mientras que para GPT-4 se rumorea que son necesarias hasta 64. Esta demanda de recursos limita la viabilidad de los modelos MoE a aplicaciones con un nivel de carga considerable y dificulta su ejecución en hardware de consumo.

Para implementar estos modelos, se distribuyen entre varias GPUs, empleando técnicas como el paralelismo tensorial para asegurar una distribución equitativa de la carga. En el caso de los transformadores, los expertos en MoE generalmente se basan en las capas MLP internas, funcionando en paralelo pero utilizando solo una porción a la vez, mientras que otras partes del modelo, como la atención y los embeddings, se mantienen comunes para todos los expertos.

La adopción de MoE señala una evolución significativa en el diseño de modelos de IA, prometiendo una mayor eficiencia y velocidad que podrían revolucionar tanto la investigación como la aplicación práctica de la inteligencia artificial en diversos campos.

More articles from Análisis y Reseñas