Si estás metido en el mundo de la Inteligencia artificial te interesará saber que Google Research ha presentado PERL (Parameter Efficient Reinforcement Learning), una técnica que promete mejorar la eficiencia en el entrenamiento de los Modelos de Lenguaje Grandes (LLMs) mediante el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF).
El objetivo de esta técnica es solucionar dos problemas que tenemos en el sector: el alto costo computacional y la complejidad existente casi siempre en el proceso de entrenamiento de estos modelos.
PERL utiliza una técnica llamada Adaptación de Bajo Rango (Low-Rank Adaptation, LoRA) para afinar eficientemente un número reducido de parámetros en el modelo. Este enfoque permite actualizar solo ciertas partes del modelo, llamadas adaptadores, manteniendo el resto sin cambios. El resultado es una notable reducción en los recursos necesarios para el entrenamiento, tanto en términos de datos como de potencia computacional. Es decir, que si vemos que hay que cambiar el modelo, podemos enfocarnos en alteraciones solo en una parte del mismo, no en todo (esto le vendría de perlas a ChatGPT para eliminar los entrenamientos realizados con contenido protegido por derechos de autor).
El equipo de Google Research ha puesto a prueba PERL en siete conjuntos de datos, destacando entre ellos dos novedades: Taskmaster Coffee y Taskmaster Ticketing. Los resultados obtenidos son prometedores, ya que PERL alcanza un rendimiento comparable al de los métodos tradicionales de RLHF, pero con una mayor velocidad de entrenamiento y un uso más eficiente de la memoria.
No confundir PERL con Perl
Es importante mencionar que el nombre PERL podría generar cierta confusión con el lenguaje de programación Perl, conocido por su uso en scripts de servidor y procesamiento de texto. Sin embargo, en este contexto, PERL se refiere específicamente a esta innovadora técnica de entrenamiento de modelos de lenguaje.
Últimamente estoy encontrando muchos proyectos pensados para optimizar el entrenamiento de LLMs. Está claro que cada día hay nuevos modelos, pero si seguimos entrenándolos con las técnicas tradicionales, tendremos que contratar a cinco NVIDIAS para procesar imágenes.. El objetivo es hacer que todo crezca, pero de forma sostenible para que no estalle la burbuja.
PERL destaca la importancia de buscar constantemente métodos más eficientes y sostenibles en el campo de la inteligencia artificial, aunque aún estamos lejos de llegar al punto óptimo.
Referencia
- PERL: Parameter Efficient Reinforcement Learning from Human Feedback https://huggingface.co/papers/2403.10704