10 razones para desconfiar de las estadí­sticas y los estudios en la web

Son miles los flamantes titulares que se encuentran en la red donde se destacan llamativos estudios e investigaciones realizados también a través de ésta, el problema es que con palabras bonitas y en especial un mal manejo de las estadí­sticas, muchos tratan de ocultar la falta de rigurosidad en la obtención de sus resultados o tratan de dar fe de una veracidad inexistente. Los siguientes son algunos consejos para tratar de detectar ese tipo de estudios que sólo generan desconfianza:

1. Números cerrados (30%, 40%, 50%)

estadí­sticasEsto tiene sentido si son exactamente 10 personas las estudiadas, pero con estudios cuya muestra son 1553 usuarios, qué clase de cálculos hace falta realizar para llegar a resultados como «exactamente un 20% de personas cree que…» o «el 50% de las personas opina que…».

El primer motivo para desconfiar de un estudio o un titular en la web es que haya tantas cifras cerradas; la razón: los números son infinitos y es poco probable (aunque posible) que todos los resultados siempre se limiten a apenas 10 (10%, 20%, 30%,… 100%) ó 20 (5%, 10%, 15%, 20%…) porcentajes.

 

2. Fuentes tan confiables como el que las cita

Causa pena que hasta los diarios prestigiosos con versiones en lí­nea publiquen los resultados amarillistas de estudios que hicieron quién sabe dónde sin información sobre los datos técnicos que les permitieron llegar a esos resultados. Así­ pues, si ves en algún sitio que se publiquen comentarios sobre resultados o estudios de este estilo sin un enlace a una fuente confiable en la que se encuentren explicaciones detalladas de los métodos utilizados, prescinde de creer en lo publicado, en la fuente y en quien la enlaza. Por ejemplo, hace unos dí­as compartí­ una investigación del SEO en 2013 que aunque parecí­a cometer el error de redondear algunas correlaciones, contaba con un completo documento de 70 páginas que le fundamentaba y le daba bastante credibilidad.

3. Muestras elegidas por conveniencia

Algunos dirán que el tamaño de muestra no importa pero tal vez en pocas excepciones (p.e., si hago sopa para dos personas o para 500 personas la pruebo para ver si está bien de sal con la misma cuchara en ambos casos), pero sí­ importa, tanto como la forma de selección de la muestra que a veces se realiza por conveniencia, esto es, controlando todas las variables que le afectan. En la vida real se suele hacer para ahorrar costos (encuestas telefónicas, encuestas en sólo determinados lugares de la ciudad, etc.) y en la web se suele hacer lo mismo incluso de forma inconsciente. Por ejemplo, si se pone una larga encuesta en Google Drive, sólo gente que tenga el suficiente tiempo libre la llenará por completo, de esa forma se sesga automáticamente la muestra y el estudio a la opinión exclusiva de tales «desocupados» -en el buen sentido de la palabra-.

4. Métodos de captura de datos igualmente dudosos

Por ejemplo, si el estudio lo hicieron mediante encuestas, qué programa utilizaron para recoger las respuestas, ¿acaso fue a través de Google Drive o quizá con alguna herramienta basada en Flash o JavaScript? Si es el segundo caso, qué pasa con los usuarios que no tienen JavaScript o Flash habilitado en su navegador, ¿se eliminan automáticamente del estudio y no son tenidos en cuenta? Finalmente, ¿el sistema de captura de datos contó con alguna medida para evitar trolls? Son muchas las preguntas que surgen en torno a los métodos y herramientas de captura de respuestas, y entre más grande sea el número de dudas sin resolver, más desconfiable será el estudio.

5. Bonitos y coloridos gráficos con efectos 3D

graficos tramposos
No hace falta ser un especialista en Microsoft Excel para crear gráficos en 3D con decenas de filtros de colores, transparencias, reflexiones, traslaciones, etc., el lí­o es que por querer llamar la atención se pueden afectar terriblemente los resultados. Como ejemplo, gira un diagrama de pastel en 3D y mira como cambia la percepción de estos, y lo mismo sucede con gráficos de barras tridimensionales que a veces incluyen cosas raras en los ejes o en las escalas. Entre más colores y más efectos tengan los gráficos de un estudio en la web (o en cualquier otro lugar), trata de ser más desconfiado pues podrí­a tratarse simplemente de contenido basura, basura en un muy bonito envoltorio.

6. Resultados e interpretaciones sesgadas

¿Cómo es posible que especialistas y profesionales salgan a decir que el público mundial de Internet tiene determinados comportamientos si han utilizado en su «estudio» una muestra con apenas 100 personas ubicadas en New York, USA -lo peor es que hasta en TV lo hacen-? Eso se hace simplemente para ser amarillistas («consumir café produce blablabla», «dar 10 besos al dí­a causa blablabla», etc.). Mucho peor es cuando se tratan de ajustar forzosamente las estadí­sticas a los resultados, y no al contrario. De ese modo, si el candidato polí­tico que sigue quien publica las conclusiones del estudio obtuvo un 13% de favorabilidad en las investigaciones, es bastante probable que se traten de hacer subjetivas las interpretaciones con comentarios bonitos para hacer que parezca que tal candidato realmente ha conseguido un 61%. Aplica tu criterio y decide si creer o no en tales interpretaciones.

7. Mucho texto técnico, poco texto práctico

Las estadí­sticas web están enfocadas a ser consumidas, o al menos sus interpretaciones, por un público general, con conocimientos básicos mas no avanzados. Así­ pues, empezar a enunciar conceptos y cosas complejas que sólo el redactor entenderá, sólo muestra el ánimo de éste de engatusar a los lectores junto a su ineficacia para entender los resultados e interpretarlos.

8. No sólo por ser periodista se poseerán facultades estadí­sticas

Periodistas de grandes diarios y populares portales creen que su fama les da automáticamente las facultades académicas para leer cualquier tipo de gráfico estadí­stico o tabla con datos. Por supuesto, habrá varios que tendrán el fundamento matemático suficiente para hacerlo, pero no cualquiera puede permití­rselo ya que es algo tan grave como recetar medicamentos sin ser médico.

9. En promedio…

Mi vecino gana 100 dólares al mes y yo gano 600 dólares también al mes, en promedio ambos ganamos 350 dólares al mes. Ahora bien, ¿qué tal que se cobraran los impuestos usando promedios? Desviaciones estándar, modas, mí­nimos, máximos, valores atí­picos, porcentajes, promedios ponderados (en el ejemplo no es aplicable) son medidas simples que dicen muchí­simo más sobre los datos, especialmente que la Estadí­stica, incluyendo las estadí­sticas web, no trata sólo de promedios aritméticos.

10. La Estadí­stica tiene sus limitaciones


Llevándole la contraria a Homero Simpson, no todo se puede demostrar con estadí­sticas y no por hablar de porcentajes y promedios se dará mágicamente el valor de verdad a determinados argumentos, especialmente a los falaces. La Estadí­stica es un conjunto de métodos que tratan de llevar a otro plano los problemas, tratarlos con herramientas basadas en matemáticas, y devolverlos a la realidad para ver si se ha obtenido algo interesante. Y todo ese proceso está limitado por aproximaciones porque simplemente la Estadí­stica no es exacta y no en todos los casos sus métodos son aplicables. Por ejemplo, una limitación importante en la web es que todos los estudios son tan veraces como lo quieran los sujetos estudiados, y las únicas opciones que hay son confiar o no confiar en sus respuestas.

Imagen: estadí­sticas de shutterstock

Twitter confirma la compra de una empresa de análisis de datos de TV

twitter

Desde el blog de Twitter confirman los rumores de los últimos dí­as: Han comprado Bluefin Labs, una de las principales empresas de análisis de TV que generan datos para anunciantes, agencias y cadenas de televisión. La idea es permitir obtener los conocimientos y la experiencia de los profesionales de esta empresa para crear nuevos productos publicitarios y mejorar la integración entre el mundo Twitter y el mundo de la Televisión.

Esta adquisición refleja nuestro compromiso con el mercado de la televisión social, compromiso demostrado con nuestra asociación exclusiva con Nielsen para desarrollar la Nielsen Twitter TV Rating,, una nueva forma de medir la forma de actuar la gente delante de la televisión.

Van a seguir cumpliendo con los contratos de los clientes de Bluefin Labs, pero dejarán de vender sus productos para concentrarse en el desarrollo de nuevos proyectos con sus actuales colaboradores.

En la Super Bowl del domingo, igual que en años pasados, se demostró que la gente aumentaba su actividad en Twitter de forma espectacular. Esos datos pueden ser de mucha utilidad en el mundo de la publicidad, así­ como en el de la sociologí­a o incluso en el más teórico mundo estadí­stico de previsión de resultados deportivos. Tener gente que sepa obtener y analizar datos pueden ayudarnos a entender mejor la sociedad en la que vivimos y ofrecer exactamente lo que necesita, ni más ni menos.

Ví­a Blog de Twitter

Introducción a la estadí­stica moderna con R: curso gratuito online

r estadistica
Gracias a Raúl Vaquerizo de AnalisisyDecision.es, nos enteramos de un interesante curso online sobre R que Juanjo Gibaja y Carlos Gil de Datanalytics.com empezarán a dictar de forma gratuita a partir del próximo lunes 29 de octubre. Se enfoca tanto a principiantes como a usuarios frecuentes que deseen ahondar en sus conocimientos para aprovechar esta valiosa herramienta de mejor manera.

R es en general un popular paquete estadí­stico que facilita el tratamiento de datos, su cálculo y representaciones gráficas para su análisis, que cualquiera puede aprender a manejar fácilmente sin importar su área de trabajo. Lo mejor es que es software libre y cuenta con una extensa documentación además de una igualmente amplia comunidad académica tras su desarrollo y mantenimiento.

Para más detalles sobre el curso (inscripción, programa, prerrequisitos, contenidos, metodologí­a, etc.) se ha creado un documento en Google Drive con toda la información relevante, archivo que puede ser revisado desde este enlace. Algo importante es que la mayor parte del curso se basa en la interacción con los otros asistentes, a través de preguntas y respuestas a modo de foro, para llegar a solucionar los ejercicios planteados. El registro puede realizarse con las credenciales de redes sociales.

Ya está disponible countly, la solución de estadí­sticas para aplicaciones móviles

Os hablamos de su existencia hace poco más de un mes, presentándolo como un proyecto de código abierto que podrí­amos instalar en nuestro servidor para monitorizar todos los datos relacionados con la vida activa de nuestra aplicación móvil.

Hoy count.ly abre sus puertas y ya está disponible para instalación de forma gratuita.

Desde su panel de control podemos analizar el comportamiento de los usuarios de la aplicación, así­ como la forma que tienen de usar nuestro programa, el origen de las visitas, el momento de desistencia y muchas otras variables que ayudan a conocer el uso y, consecuentemente, mejorar nuestras aplicaciones.

Podéis acceder a una demostración en count.ly/login con los datos de acceso demo/demo y encontrar ayuda con instalación en su página de soporte support.count.ly y en su blog blog.count.ly

Releadme – El sistema de estadí­sticas que te dice quién visita tu web, no cuántos

Google Analytics nos ofrece información macro sobre las visitas realizadas en nuestra web, sin muchos detalles sobre el tipo de visita, concentrándose más en números generales. Eso es lo que quiere complementar relead.me, una web que se abre hoy al público ofreciendo un sistema que informa detalles sobre los visitantes de una web.

Podemos filtrar las visitas según la distancia de nuestra empresa, las ganancias estimadas del visitantes, el tipo de negocio al que se dedica, la ocupación profesional… datos que se pueden obtener en bastantes casos analizando la historia de navegación de cada uno de los interesados en nuestro contenido.

En tiempos en los que la privacidad es uno de los temas más comentados dentro y fuera de la web, proyectos como Releadme muestran que es posible obtener detalles que para muchos pueden considerarse confidenciales, aunque siempre juegan con las medias estadí­sticas y nunca con los datos privados de cada persona que, en este caso, no se divulgan en ningún momento.

parsely – Una plataforma para que conozcamos lo más popular de nuestras publicaciones

Parse.ly crea un nuevo producto, ofreciendo ahora una plataforma para publicaciones web que permite a los responsables conocer los artí­culos más leí­dos, comentados y distribuidos en las redes sociales.

Aunque muchos de nosotros usamos el sistema de estadí­sticas de postrank (que desde que lo compró Google no se ha actualizado nada), parse.ly ofrecerá contenido en tiempo real, mostrando cómo las noticias se hacen más o menos populares a media que pasa el dí­a.

Por la entrevista que les han hecho en Venturebeat parece que estamos hablando del producto definitivo para las grandes publicaciones, aunque tiene dos problemas importantes:

– Se accede por invitación. No es cualquier publicación que puede usar la paltaforma.
– El plan más barato cuesta 499 dólares al mes, dejándolo muy lejos de las posibilidades de la mayorí­a de los editores de blogs y publicaciones en Internet.

Ni chartbeat, ni Google analytics en tiempo real, ni ninguna otra de las alternativas ofrece aún una solución inteligente para descubrir de forma rápida y sencilla el contenido más popular, sus fuentes y los motivos por los que se está accediendo a determinadas zonas en un momento especí­fico.

Personalmente tengo que usar Google analytics, chartbeat, postrank y topsy para sacar conclusiones de este tipo, algo que otra herramienta podrí­a ofrecerme en un solo panel.

KidBox – Internet para nuestros hijos


La propuesta de Kidbox no es nueva, pero sí­ está muy bien realizada, creando una aplicación que filtra webs, juegos y ví­deos para niños de 2 a 8 años, sin posibilidad de salir del contenido existente en la misma.
Está disponible en español y dentro de poco lo estará en portugués, siendo compatible únicamente con sistema operativo Windows como uno de los mejores navegadores para niños de la actualidad.
Al instalarlo los niños verán, en pantalla completa, la selección del contenido de forma muy intuitiva y atractiva, existiendo la posibilidad de que los padres determinen las categorí­as más frecuentes en dicha selección.

También podemos definir lí­mites de tiempo y consultar estadí­sticas sobre lo que nuestros hijos hacen en el programa.
Un producto fantástico que transforma nuestro ordenador en una herramienta de ocio y aprendizaje seguro para los niños.

salary – Para saber lo que gana un profesional en Estados Unidos

Si os interesa conocer detalles sobre los salarios que se ganan en otros paí­ses, os recuerdo el artí­culo Sites para comparar salarios en todo el mundo que publicamos en marzo de 2010. Hoy vamos a revisar uno particularmente interesante para los que quieran probar suerte en Estados unidos.
Se trata de Salary.com, donde podemos informar la categorí­a y la ciudad en la que será realizada la búsqueda.
En el ejemplo estoy incluyendo «jefe de proyectos» en «New York».

Una vez seleccionado el dato, podemos filtrar el tipo de profesional (Project Manager II, Construction, etc), obteniendo una hoja de datos generales como la mostrada en la imagen inferior:
Continúa leyendo «salary – Para saber lo que gana un profesional en Estados Unidos»

simplereach – Mostrando artí­culos relacionados de forma inteligente


La mayorí­a de las publicaciones web muestran siempre una lista de artí­culos relacionados dependiendo de las etiquetas o categorí­as en las que se clasificó el texto original.
Esto siempre ha sido así­ y continúa siéndolo en la mayorí­a de los casos ya que, por lógica, los lectores de un artí­culo relacionado con un buscador de hoteles pueden estar interesados en un buscador de vuelos baratos o en ofertas de turismo, por poner un ejemplo.
SimpleReach quiere alterar la forma como se muestra esta información añadiendo un ingrediente muy importante: los temas más populares en un momento determinado dentro de las redes sociales.
Si estamos, por ejemplo, hablando sobre un buscador de hoteles y, precisamente, en las redes sociales todo el mundo está hablando sobre alguna solución particular de la que hablamos en el pasado, SimpleReach ofrecerá como contenido relacionado el artí­culo que tega más éxito en su distribución por la web.
La forma de instalarlo es bien simple, necesitando informar la url de la web e instalar el código en la plantilla de nuestros artí­culos, existiendo plugin para usuarios de Wordpress.
Tarda algunas horas en rastrear la web para almacenar el contenido y ofrecer el adecuado, mostrando los datos en forma de ventana emergente.
Podremos, en cualquier momento, consultar las estadí­sticas del número de impresiones y el número de clicks realizados, para poder verificar si, efectivamente, estamos aumentando el número de páginas vistas.

picuous – Nueva forma de mostrar y compartir fotos en Internet

De la misma forma que miles de personas comparten ví­deos de youtube copiando y pegando el código mostrado en su web, picuous quiere revolucionar la forma como los fotógrafos publican imágenes en la web, permitiendo que otras personas copien el código, y no la foto, en sus páginas.

Cada fotografí­a tendrá un link asociado y un botón en una de sus esquinas que permitirá a cualquier lector la distribución rápida en redes sociales, facilitando que el crédito del fotógrafo esté siempre presente y evitando así­ la distribución no controlada del material.
Picuous, que ha estado durante mucho tiempo en estado beta cerrada, abre ahora las puertas a cualquier persona que quiera empezar a probar este sistema, teniendo varios ejemplos en photo.martinpannier.fr y disponiendo de un código que cualquier nuevo usuario que quiera usarlo tendrá que instalar en su web.
Estadí­sticas de cada imagen, posibilidad de añadir marca de agua con nuestro logo, enlaces automáticos en cualquier web apuntando a vuestro sitio… excelente solución para profesionales del mundo de la fotografí­a.
Link: Picuous | Ví­a TNW