La minería de datos o Data Mining, es en general una ciencia computacional que trata grandes volúmenes de datos mediante herramientas como las que proporciona la Estadística, para tratar de inferir comportamientos que a simple vista son imposibles de ver. Una especialidad es el análisis textual -prescindo de las ambiguedades de referirle como minería textual, tema que Fernando Santamaría trata mejor- que, trivialmente, trata de encontrar patrones y armar estructuras de diferentes volúmenes de texto, desde un simple párrafo hasta decenas de miles de comentarios en una base de datos.
Un buen ejemplo de aplicación del análisis textual es el buscador de Google que no solo indexa contenido sino que además aplica avanzados algoritmos a las búsquedas ingresadas para presentar mejores y más adecuados resultados, aunque también hay aplicaciones más sencillas que en esencia no son más que conteos de letras y palabras pero que en efecto pueden mostrar, por ejemplo, los temas más destacados o los sentimientos registrados en centenares de comentarios.
Aplicaciones en la web social
Hace un tiempo comentaba sobre los proyectos de Jonathan Harris cuantificando las emociones en la red a través de las publicaciones en redes sociales, blogs y datos demográficos, entre muchas más variables, para luego poner los resultados en útiles y visualmente agradables aplicaciones interactivas. Pues bien, una parte importante de su trabajo está en el análisis textual que aplica al material que extrae de millares de sitios web.
Otras ideas más sencillas para aplicarlo pueden verse en el análisis de los temas más destacados en varios artículos de opinión o notas de prensa, para revisar las palabras más frecuentes en los comentarios y enfocar el contenido, buscar nichos y trabajar en SEO con lo más buscado (combinado con Google Analytics), analizar emails, crear infografías y en general trabajar con las publicaciones escritas de determinada comunidad en línea (foros y redes sociales).
Herramientas web para el análisis textual
Hay ya montones de herramientas online como Sentiment140, SocialBro (ambas para el caso de Twitter), WordStream, los que presentan en KDNuggets, las muchas funciones de Google Analytics y la herramienta de palabras clave de AdWords que captan tendencias en la web y las presentan gráficamente para su posterior análisis. Hasta las herramientas para crear nubes de palabras como Wordle sirven para encontrar tendencias y analizarlas fácilmente aprovechando la forma como se destacan en tamaños y colores. También hay programas de escritorio bastante potentes y especializados como SPSS, Gephi (open source), o los que comentan el Grupo de Fonética de la Universidad Autónoma de Barcelona desde su sitio web que realizan la tarea con rigurosidad.
Se puede empezar con pequeños ejercicios a partir de texto plano capturado (copy&paste y Evernote Clearly como sugerencias si es contenido con formato) para tratar de encontrar lo más frecuente en cierto escrito. Entre las más sencillas opciones está una llamada Textalyser.net que permite definir los parámetros de filtrado de los resultados: Caracteres por palabra, palabra o frase especial para analizar, ignorar números, limitar las palabras a revisar, revisar a partir de un fichero o sitio web, etc.
No todo es color de rosa
El análisis textual es un campo realmente interesante pero muy joven, especialmente porque sólo hasta ahora hay una amplia cobertura de equipos de cómputo para las tareas pesadas, así que tal vez la información que se encuentra sobre el tema es un tanto limitada. También vale resaltar que es bastante subjetivo y que aunque se pueden cuantificar muchas cosas, los resultados y aplicaciones (por ejemplo en campañas) dependen estrictamente de la interpretación de quien los utiliza, eso sin contar lo complicado que resulta tratar con idiomas tan complejos como el español con tantas palabras y modos diferentes de entenderlo.