Cada vez vemos más ofertas de empleo en las que piden un Científico de datos, un “Big Data Scientist” que ayude a analizar la información recogida en empresas de todo tipo.
Si lo analizamos de forma superficial parece que estamos hablando de una especialización de estadística, peor no podemos caer en ese error. Un Big Data Scientist es un profesional que tiene muy buen conocimiento de matemáticas, pero también bastante habilidad a la hora de programar y de obtener información de bases de datos.
En Internet se recoge una enorme cantidad de información a diario, y esos datos deben ser analizados para poder obtener conclusiones sobre los más diversos temas. Desde las estadísticas incluidas en los informes de Google Analytics hasta las que se pueden obtener a partir de formularios de entrada de datos en tiendas online, la información que tenemos que gestionar es cada vez mayor, y los productos que se deben ofrecer tienen que tener en cuenta esos datos.
Si saltamos al mundo de la inteligencia artificial y el aprendizaje automático, con ordenadores que aprenden solos a medida que se usan, la importancia del Científico de Datos aumenta. Los sensores no paran de recoger información de forma automática, y las acciones que se toman a partir de esos datos deben ser extremadamente bien calculadas.
Este nuevo perfil profesional se ha ido generando poco a poco. Muchos autodidactas han ido completando su currículo para transformarse en un científico de datos, aprovechando la formación obtenida ya en otras áreas. En Burtch Works, por ejemplo, comentan que 1 de cada 3 de los Big Data Scientist vienen de las matemáticas y la estadística, mientras que 1 de cada cinco llega de informática.
Qué hay que aprender
Entendiendo así que estamos hablando de una ciencia extremadamente relacionada con las matemáticas, es obvio que hay que tener buenos conocimientos sobre estadística, pero también es importante apostar por lenguajes de programación y consultas en bases de datos.
Cuando hablamos de consultar información en bases de datos, rápidamente nos viene a la cabeza SQL, ideal para trabajar con bases de datos relacionales, y cuando pensamos en programar no podemos evitar recordar uno de los lenguajes más utilizados en todo el mundo Python, pero en este punto tenemos que hablar de otro lenguaje mucho más específico, muy usado en el mundo de la estadística: R.
El gráfico que veis arriba corresponde al resultado de una encuesta realizada en 2014, donde los entrevistados comentaban lo más importante en el mundo de la Ciencia de los Datos.
Además de estos grandes protagonistas, podemos ver cómo otros siempre presentes aparecen, como : Scala, Perl, C#, Matlab, Java… incluso el viejo conocido Excel no falta en este tipo de encuestas.
Si analizamos el currículo de un gran Big Data Scientist nos encontramos con elementos como:
- Inteligencia artificial: clasificación, regresión, clustering…
- Métodos estadísticos: series de tiempo, modelos de regresión, intervalos de confianza y pruebas de hipótesis, análisis de componentes principales y la reducción de dimensionalidad, ecuaciones diferenciales estocásticas (SDES)
- Software y lenguajes de programación: Python (scikit-learn, numpy, scipy, pandas, gensim), R, SQL, Hadoop (Colmena, MapReduce), Linux, Oracle, Microsoft Excel, LaTeX
- Otros: Procesos estocásticos, estocástico de simulación, Random Matrix Theory, álgebra lineal, probabilidad y estadística.
Como veis, no parece sencillo transformarse en un experto en el tema, pero nada que no se pueda aprender dentro y fuera de Internet.
Aquí os explicamos el motivo por el cual es necesario aprender a usar estos lenguajes:
– SQL: Es obligatorio saber SQL par apoder obtener datos de bases de datos relacionales, como MySQl, por ejemplo. Realizar consultas de forma eficiente y exportar el contenido para posterior análisis es parte del día a día del científico de datos.
– Python: Es uno de los lenguajes de programación más utilizado en cualquier sector. En muchas ocasiones es el primer lenguaje aprendido por un profesional, ya que es muy legible. Contiene también una gran cantidad de bibliotecas que aumentan sus posibilidades de forma impresionante.
– R: El lenguaje de programación más usado por los profesionales de estadística. Es una versión del lenguaje S pero con soporte de alcance estático, siendo muy popular en el campo de la minería de datos, la investigación biomédica, la bioinformática y las matemáticas financieras.
– Javascript: Contiene bibliotecas de representación de datos que permite la creación de informes con los datos obtenidos, siendo posible publicarlos en diferentes plataformas para su visualización, incluyendo plataformas web.
Dónde se pueden hacer cursos sobre este tema
En las principales ciudades del mundo existen escuelas especializadas en programación, y allí podemos encontrar cursos intensivos sobre muchas de las áreas que se necesitan en este sector (Python, SQL, Java, etc.). En Internet también se ofrecen con frecuencia cursos en formato MOOC con la Ciencia de Datos como protagonista, cursos que solemos publicar siempre aquí, en WWWhatsnew.
Desde la propuesta de skylabcoders.com en Barcelona, especializados en Javascript y diseño de informes con DS3, a los cursos online especializados en Coursera, existen varias alternativas que pueden ayudarnos a completar nuestro currículo para transformarnos en un científico de datos.
¿Cuánto gana un Científico de Datos?
La pregunta del salario es inevitable, y aunque la media es de 55.000 euros al año en Europa occidental, la cantidad depende mucho del empleador y del tipo de relación que se tiene con la empresa (freelance, empleado, etc.).
En kdnuggets.com tenéis un informe actualizado con algunas estadísticas en este sentido.