Extraen modelos de temas en farsi mediante APIs

Publicado el

¿Cómo encajar las exigencias de diseño de una API REST con el Machine Learning y, en concreto, con la modelización de temas? El advenimiento de la era Machine Learning va a cambiar para siempre la forma en que diseñamos, estructuramos y escribimos nuestro código. Este auge se debe a la optimización de la tecnologí­a y a su traslado desde mundo académico a la industria, lo cual tendrá su lógico impacto en el futuro de la informática y del software en general.

Ali Kheyrollahi de ASOS nos invitó en APIdays Mediterranea a unirnos a él en el análisis de un caso de Machine Learning en el que se toma un gran corpus de documentos en farsi y se intenta encontrar los temas que se tratan en ellos. Se exploró Latent Dirichlet Allocation como técnica no supervisada de modelización de temas, ya que permite habilitar búsquedas y construir una matriz de similitud documento a documento. Se repasaron también brevemente los retos del procesamiento de textos en farsi, que es el vigésimotercer idioma más hablado en el mundo y, lo que es más impactante, el décimocuarto más usado en internet, por delante del coreano o el sueco.

Finalmente Ali presentó un nuevo concepto denominado Mills: una nueva forma de sacar a la luz las capacidades del Machine Learning a través de APIs. Este modelo, al contrario que los recursos convencionales, define un endpoint especializado, seguro e idempotente, que extrae el modelo de Machine Learning al mundo exterior. Más información en su presentación.

Fotografí­a de Mariano Cuesta.