La revolución de los chatbots ha llenado nuestros espacios digitales con texto generado por inteligencia artificial (IA). Ya sea en los feeds de noticias, trabajos académicos o bandejas de entrada, la IA está presente más que nunca. Con este crecimiento, han surgido dos tipos de herramientas: las que intentan identificar texto creado por IA y aquellas que «humanizan» estos textos para que no se noten como artificiales. Ambas han demostrado ser imperfectas, lo que hace cada vez más difícil discernir entre las palabras escritas por un humano o un algoritmo.
La solución de Google DeepMind: marcas de agua para texto
Google ha dado un paso adelante con una solución diferente. Google DeepMind ha presentado SynthID-Text, un sistema que agrega una marca de agua a los textos generados por IA sin afectar la calidad, creatividad o velocidad de generación del contenido. Este enfoque no es completamente nuevo, pero lo que distingue a SynthID-Text es su capacidad para ser integrado directamente en los modelos de lenguaje utilizados por los chatbots, como el chatbot Gemini de Google.
Lo interesante aquí es que este sistema permite que el texto marcado sea detectable por un «detector SynthID», diseñado para analizar si el texto ha sido generado por un modelo de IA. Aunque esta tecnología todavía está en una fase temprana y no está disponible para todos, representa un importante avance hacia la identificación confiable de contenido generado por IA.
Marcas de agua en imágenes y vídeos: el camino hacia los textos
Las marcas de agua no son algo nuevo en el ámbito digital. Han sido ampliamente utilizadas en imágenes y vídeos, especialmente para combatir los deepfakes y otros tipos de manipulación digital. Organizaciones como C2PA han desarrollado un sistema para adjuntar metadatos cifrados a archivos multimedia, indicando si el contenido es real o generado por IA. Pero aplicar este mismo enfoque a los textos es un reto más complicado, ya que las palabras pueden ser modificadas fácilmente para borrar o alterar una marca de agua.
SynthID-Text es la primera herramienta que se ha probado a gran escala, con 20 millones de prompts diferentes en el chatbot Gemini. Este es un avance significativo, pero los desarrolladores de Google DeepMind reconocen que no es una solución perfecta. Si un texto es editado significativamente o resumido por otro chatbot, la marca de agua puede desaparecer, lo que representa un desafío para su efectividad a largo plazo.
¿Cómo funciona SynthID-Text?
El funcionamiento de SynthID-Text es bastante ingenioso. En lugar de alterar el contenido visible del texto, el sistema modifica las palabras generadas por el chatbot de manera sutil, introduciendo una firma estadística que solo es detectable por el detector SynthID. Básicamente, cuando el modelo de lenguaje genera texto, el sistema asigna puntuaciones numéricas a diferentes palabras candidatas, y elige aquellas con puntuaciones más altas. De este modo, un detector puede luego analizar un fragmento de texto y calcular su puntuación total; si es lo suficientemente alta, significa que el texto fue generado por un modelo con marca de agua.
Aunque este sistema ha mostrado mejores resultados que otras tecnologías similares, sigue siendo vulnerable a modificaciones. Si un usuario edita el texto lo suficiente, la marca de agua puede desaparecer.
Un primer paso en un largo camino
Si bien el uso de marcas de agua para texto no resolverá todos los problemas asociados con el contenido generado por IA, es un paso importante hacia la transparencia en la era de la IA. La detección de texto generado por IA es crucial, especialmente en contextos donde la autenticidad del contenido es esencial, como en los medios de comunicación, la educación o la política.
Expertos externos que trabajan en credenciales de contenido han elogiado este avance. Bruce MacCormack, miembro del comité directivo de C2PA, señaló que si bien hay desafíos en la implementación práctica de este tipo de tecnología, la investigación de DeepMind es prometedora. Aunque queda mucho trabajo por hacer, este es el primer paso en un camino que podría cambiar la forma en que entendemos y gestionamos el contenido generado por IA.
Para que esta solución funcione a mayor escala, más empresas de IA necesitarán adoptar tecnologías de marcado de contenido de manera interoperable, para que un solo detector pueda identificar textos generados por diferentes modelos de lenguaje. Sin embargo, incluso si las principales compañías de IA acordaran implementar estas tecnologías, aún quedarían los modelos de código abierto, que fácilmente podrían ser modificados para eliminar la funcionalidad de marca de agua.
El futuro del contenido generado por IA
El desafío de identificar texto generado por IA es solo una parte del panorama más amplio de la inteligencia artificial en la generación de contenido. A medida que los modelos de lenguaje continúan mejorando, será cada vez más difícil distinguir entre lo que es creado por humanos y lo que es obra de una IA. Aunque SynthID-Text no es la solución definitiva, es una herramienta que podría desempeñar un papel clave en el futuro del contenido digital.
Es probable que veamos más avances en esta área, y será interesante ver cómo estas tecnologías se integran en el ecosistema de IA generativa. Por ahora, SynthID-Text es un experimento prometedor, pero el camino hacia una identificación confiable de contenido generado por IA es largo y está lleno de desafíos.