Wikilinks Corpus – conjunto de datos para facilitar el entendimiento del lenguaje humano por parte de sistemas informáticos

Los seres humanos atribuimos los significados correspondientes a las palabras según el contexto donde las encontremos. Y es que una misma palabra puede tener distintos significados, ya que por ejemplo, mañana puede ser una fase del día o referirse al día siguiente. Las atribuciones las aprendemos a través de años de aprendizaje mediante las interacciones sociales, lo que no nos supondrá dificultad alguna. Pero la «desambiguedación» no es un elemento fuerte de los sistemas informáticos, para lo cual requerirán ayuda.

Es por ello por lo que desde el blog de investigación de Google anuncian el lanzamiento de Wikilinks Corpus, que básicamente es un conjunto de datos conformado por 40 millones de enlaces individuales de sitios web referidos por artículos de wikipedia bajo el nombre de menciones. La idea está en el análisis del contexto de cada mención junto con los contenidos del artículo correspondiente para que los ingenieros puedan determinar con mayor precisión el significado de las palabras ambiguas, con el objeto de facilitar a los sistemas informáticos entender en lenguaje de las personas.

Wikilinks Corpus ha contado con la colaboración de Sameer Singh y Andrew McCallum, pertenecientes a la Universidad de Massachusetts, y ofrece un directorio de enlaces a sitios web, en lugar de los contenidos por temas de copyright, así como las herramientas para la creación de conjunto de datos.

Más información: Blog de investigación de Google | Vía: The Verge