Prompt Engineering, nueva categoría en WWWhatsnew para que dominéis el tema

Prompt Engineering es un campo emergente dentro de la Inteligencia Artificial que se centra en la creación de secuencias de tokens de entrada para guiar a los modelos de lenguaje en la generación de texto coherente y relevante en respuesta a una tarea o pregunta específica. Esta técnica ha demostrado ser muy útil en una amplia variedad de aplicaciones, desde la generación de texto predictivo hasta la programación asistida por lenguaje natural.

La importancia de Prompt Engineering radica en la necesidad de controlar y guiar la salida de los modelos de lenguaje, ya que estos tienen una tendencia natural a producir textos irrelevantes o incluso inapropiados. Al proporcionar al modelo un prompt adecuado, podemos influir en la salida generada, lo que puede ser especialmente útil para tareas en las que se requiere una respuesta específica o se debe evitar la producción de textos inapropiados.

Prompt Engineering permite una mayor flexibilidad y personalización en la generación de texto. Al entrenar los modelos con prompts específicos, podemos ajustar la salida generada para satisfacer las necesidades de una tarea o aplicación específica. Esto puede mejorar significativamente la calidad del texto generado y hacer que la tarea sea más eficiente y efectiva.

El caso es que si habéis probado Midjourney unos días, sabréis que hay que tener mucha práctica para obtener la imagen que tenemos en la mente. Con el prompt adecuado, se puede conseguir prácticamente cualquier cosa.

Es tan importante el tema, que hoy estrenamos categoría en WWWhatsnew sobre Prompt Engineering, y todas las semanas enviaremos lo más relevante en nuestra newsletter.

Un artículo de obligada lectura

Comenzamos el asunto con un artículo de obligada lectura, «Controllable Neural Text Generation: A Survey» de Lilian Weng, donde se explora cómo las técnicas de aprendizaje profundo pueden utilizarse para generar texto de manera controlada. El objetivo de este enfoque es permitir a los usuarios influir en la dirección de la generación de texto y garantizar que se produzcan resultados más precisos y consistentes.

En particular, el artículo se centra en las técnicas de «Prompt Engineering», que implican la adición de un conjunto de tokens prefijo a un modelo de lenguaje pre-entrenado para guiar su generación de texto. Estos prefijos se pueden optimizar a través de técnicas como AutoPrompt, Prefix-Tuning, P-tuning y Prompt-Tuning, que buscan mejorar la calidad y la eficacia de la generación de texto.

Una de las principales ventajas de estas técnicas es que pueden adaptarse a una amplia variedad de tareas de generación de texto, como la traducción automática, la respuesta a preguntas, la generación de resúmenes y la creación de textos creativos. Esto se debe en gran medida a la flexibilidad de los prefijos, que se pueden ajustar para enfatizar ciertos aspectos del contexto de entrada o para modificar el comportamiento del modelo de lenguaje subyacente.

El artículo también destaca la importancia de la recuperación de información externa para la generación de texto controlada. Muchas tareas de generación de texto requieren acceso a conocimientos o datos específicos que no están disponibles en el modelo de lenguaje pre-entrenado. En estos casos, se puede utilizar la recuperación de información para proporcionar al modelo acceso a bases de conocimiento externas o para recuperar información relevante del contexto.

Otra técnica interesante que se discute en el artículo es la utilización de API externas para la generación de texto. Los modelos de lenguaje pueden conectarse a herramientas externas como motores de búsqueda o calculadoras para ayudar en la generación de texto, lo que permite un mayor grado de precisión y control en la generación de texto.

En general, el artículo destaca la importancia de las técnicas de generación de texto controladas para una amplia variedad de aplicaciones. A medida que la generación de texto se vuelve cada vez más automatizada, estas técnicas pueden proporcionar un medio para garantizar que los resultados sean precisos, coherentes y relevantes para el contexto de entrada.

Estas técnicas pueden ayudar a mejorar la transparencia y la interpretabilidad de los modelos de lenguaje, lo que es importante en muchas aplicaciones prácticas. Es así como gestionaremos la información en el futuro, no lo olvidéis.