Extraen modelos de temas en farsi mediante APIs

_MG_0226

¿Cómo encajar las exigencias de diseño de una API REST con el Machine Learning y, en concreto, con la modelización de temas? El advenimiento de la era Machine Learning va a cambiar para siempre la forma en que diseñamos, estructuramos y escribimos nuestro código. Este auge se debe a la optimización de la tecnología y a su traslado desde mundo académico a la industria, lo cual tendrá su lógico impacto en el futuro de la informática y del software en general.

Ali Kheyrollahi de ASOS nos invitó en APIdays Mediterranea a unirnos a él en el análisis de un caso de Machine Learning en el que se toma un gran corpus de documentos en farsi y se intenta encontrar los temas que se tratan en ellos. Se exploró Latent Dirichlet Allocation como técnica no supervisada de modelización de temas, ya que permite habilitar búsquedas y construir una matriz de similitud documento a documento. Se repasaron también brevemente los retos del procesamiento de textos en farsi, que es el vigésimotercer idioma más hablado en el mundo y, lo que es más impactante, el décimocuarto más usado en internet, por delante del coreano o el sueco.

Finalmente Ali presentó un nuevo concepto denominado Mills: una nueva forma de sacar a la luz las capacidades del Machine Learning a través de APIs. Este modelo, al contrario que los recursos convencionales, define un endpoint especializado, seguro e idempotente, que extrae el modelo de Machine Learning al mundo exterior. Más información en su presentación.

Fotografía de Mariano Cuesta.

Leticia Martín-Fuertes

Licenciada en Filología Clásica, le apasiona todo lo que tenga que ver con la lengua y la tecnología. Ha trabajado como editora de diccionarios especializados multilingües y libros de economía. Actualmente trabaja como lingüista en la empresa de procesamiento del lenguaje natural Molino de ideas, adecentando textos lo más automáticamente posible que puede, y también es traductora, correctora y redactora especializada en tecnología y contenidos audiovisuales.