¿Cómo encajar las exigencias de diseño de una API REST con el Machine Learning y, en concreto, con la modelización de temas? El advenimiento de la era Machine Learning va a cambiar para siempre la forma en que diseñamos, estructuramos y escribimos nuestro código. Este auge se debe a la optimización de la tecnología y a su traslado desde mundo académico a la industria, lo cual tendrá su lógico impacto en el futuro de la informática y del software en general.
Ali Kheyrollahi de ASOS nos invitó en APIdays Mediterranea a unirnos a él en el análisis de un caso de Machine Learning en el que se toma un gran corpus de documentos en farsi y se intenta encontrar los temas que se tratan en ellos. Se exploró Latent Dirichlet Allocation como técnica no supervisada de modelización de temas, ya que permite habilitar búsquedas y construir una matriz de similitud documento a documento. Se repasaron también brevemente los retos del procesamiento de textos en farsi, que es el vigésimotercer idioma más hablado en el mundo y, lo que es más impactante, el décimocuarto más usado en internet, por delante del coreano o el sueco.
Finalmente Ali presentó un nuevo concepto denominado Mills: una nueva forma de sacar a la luz las capacidades del Machine Learning a través de APIs. Este modelo, al contrario que los recursos convencionales, define un endpoint especializado, seguro e idempotente, que extrae el modelo de Machine Learning al mundo exterior. Más información en su presentación.
Sin embargo, hace unos años descubrieron que tenían un problema: a pesar de que su API era uno de sus principales productos, no hablaban de ella. La API era un concepto técnico, casi místico, con el que los trabajadores no se sentían cómodos. Por ejemplo, no eran capaces de decir nada más que que una API era un estándar entre dos sistemas para comunicarse. Mientras su API no paraba de cosechar éxitos, Esendex no estaba transmitiéndoselo a nadie, con todo lo que ello conlleva.
En su charla,
La riqueza de un archivo multimedia es enorme en cuanto a datos se refiere, y estas tecnologías de procesamiento pueden extraer de ellos palabras e interpretar las emociones, identidades, objetos, hechos… a los que hacen referencia. ¿No sería genial disponer de toda esa información de forma ordenada?
Además, es más ágil en cuanto a la obtención de licencias se refiere: la solución es ofrecer una versión gratis y otra de pago, y el cliente final es quien elige entre las diferentes licencias.