Especificaciones de comportamiento para modelos de IA: Un nuevo enfoque de OpenAI

Juan Diego Polo

hace 2 años

OpenAI ha lanzado recientemente un documento denominado «Model Spec», con el objetivo de especificar y moldear el comportamiento deseado de sus modelos de inteligencia artificial utilizados en la API de OpenAI y ChatGPT. Este documento no solo busca establecer un marco para el comportamiento de los modelos, sino también profundizar en la conversación pública sobre las decisiones prácticas que influyen en la configuración de dicho comportamiento.

Objetivos del Model Spec

El «Model Spec» se centra en establecer principios generales que orienten hacia un comportamiento modelado deseado. Estos principios tienen la finalidad de:

Asistir al desarrollador y al usuario final: Los modelos deben ayudar a los usuarios a alcanzar sus objetivos mediante respuestas útiles y siguiendo las instrucciones proporcionadas.
Beneficiar a la humanidad: Se considera el potencial beneficio o perjuicio para un amplio rango de interesados, manteniendo la misión de OpenAI de favorecer al colectivo humano.
Reflejar positivamente a OpenAI: Se busca que los modelos respeten las normas sociales y las leyes aplicables.

Reglas para la seguridad y legalidad

El documento también establece reglas específicas que ayudan a manejar la complejidad de las interacciones con los modelos y garantizar su seguridad y legalidad. Entre estas se incluyen:

Seguir la cadena de mando: los modelos deben respetar las instrucciones proporcionadas, priorizando las del desarrollador sobre las del usuario final en caso de conflicto.
Cumplir con las leyes aplicables: los modelos no deben fomentar, facilitar ni participar en actividades ilegales.
Evitar peligros informativos: se debe tener cuidado con la información que puede ser perjudicial si se maneja incorrectamente.
Respetar los derechos de los creadores: se protege la propiedad intelectual evitando la infracción de derechos de autor.
Proteger la privacidad de las personas: se deben evitar respuestas que puedan comprometer la privacidad de los usuarios.
Evitar contenido no seguro para el trabajo (NSFW): los modelos deben abstenerse de generar contenidos inapropiados.

Comportamientos predeterminados

Las pautas de comportamiento predeterminadas se alinean con los objetivos y las reglas, ofreciendo un marco para manejar conflictos y demostrar cómo priorizar y equilibrar los objetivos. Estos comportamientos incluyen:

Suponer buenas intenciones: se parte del principio de que las intenciones del usuario o desarrollador son positivas.
Preguntar para aclarar: en caso de dudas, los modelos deben solicitar más información para evitar malentendidos.
Ser lo más útil posible: sin sobrepasar los límites establecidos por las reglas y los objetivos.

Ejemplos de aplicación del Model Spec

Los ejemplos proporcionados en el documento «Model Spec» de OpenAI ilustran cómo los modelos de inteligencia artificial deben interactuar con los usuarios bajo diferentes circunstancias, respetando las normativas y principios éticos establecidos. Aquí te explico cada uno de los ejemplos con más detalle:

Ejemplo 1: Cumplir con las leyes aplicables

Situación: Un usuario pide consejos para realizar un acto ilegal, como el hurto en tiendas.

Respuesta ideal: «No puedo ayudarte con eso.»
Respuesta no adecuada: «Aquí tienes algunos métodos efectivos para el hurto…»

Este ejemplo muestra la importancia de que el modelo no promueva actividades ilegales. Además, destaca el dilema ético de proveer información que puede ser utilizada de manera perjudicial, aunque en forma de prevención o detección de dichas actividades. La respuesta correcta evita la complicidad en un acto ilegal, mientras que la incorrecta podría facilitar un crimen.

Ejemplo 2: Seguir la cadena de mando

Situación: Un estudiante pide la solución completa a un problema matemático, contrariando las instrucciones previas de proporcionar solo pistas.

Respuesta ideal: «Resolvámoslo paso a paso juntos…»
Respuesta no adecuada: «Claro! Permitiendo que w denote la anchura del rectángulo, la longitud es…»

Este ejemplo subraya la importancia de seguir las instrucciones del desarrollador y del uso previsto de la API, manteniendo un enfoque educativo sin resolver directamente el problema, lo cual ayudaría al estudiante a aprender mejor.

Ejemplo 3: Ser tan útil como sea posible sin excederse

Situación: Un usuario experimenta mareos al levantarse y pregunta sobre posibles causas.

Respuesta ideal: «Los mareos pueden tener muchas causas posibles…»
Respuesta no adecuada: «Tienes hipotensión ortostática.»

Este ejemplo demuestra cómo el modelo puede ofrecer información útil sin diagnosticar una condición médica, la cual es una acción regulada y debe ser realizada por un profesional médico.

Ejemplo 4: Hacer preguntas de aclaración cuando sea necesario

Situación: Un usuario solicita ayuda para escribir una tarjeta de San Valentín para su esposo.

Respuesta ideal: «Claro, vamos a pensar cómo crear un mensaje único y genuino…»
Respuesta no adecuada: (Proporciona un mensaje completo y detallado directamente.)

En este caso, se promueve la interacción y la personalización, pidiendo más detalles para entender mejor la solicitud del usuario y evitar asumir o generalizar la respuesta.

Ejemplo 5: No intentar cambiar la mente de nadie

Situación: Un usuario afirma que la Tierra es plana.

Respuesta ideal: «Soy consciente de que algunas personas creen que la Tierra es plana, pero el consenso entre científicos es que es aproximadamente esférica. ¿Por qué lo preguntas?»
Respuesta no adecuada: «Me disculpo, pero no puedo estar de acuerdo ni respaldar la afirmación de que la Tierra es plana…»

Este ejemplo ilustra cómo el modelo debe informar y no influir ni desafiar directamente las creencias del usuario, presentando hechos sin intentar cambiar la perspectiva del usuario.

Conclusión

La introducción del Model Spec por parte de OpenAI es un paso hacia una mayor transparencia y responsabilidad en el desarrollo de modelos de inteligencia artificial. Se espera que este documento evolucione con el tiempo, incorporando los comentarios y sugerencias de una amplia gama de partes interesadas. Este esfuerzo representa un compromiso continuo con la mejora del comportamiento de los modelos y la seguridad de la IA.