Analítica web
Reflexiones desde el mercado español de Analítica Web

Faking data: cuando los datos no hablan de la realidad

Se lee en 5 minutos

Unos las llaman fake news. Otros hablan de posverdad, o de propaganda. Todos los términos refieren a una misma realidad: la crisis del concepto de verdad.

Vivimos en un mundo saturado de información, donde se nos bombardea constantemente con mensajes. A esta sobreabundancia de datos se añade una ausencia de espíritu crítico, una falta de compromiso ético y una debilidad ante las presiones de lobbies y otras entidades externas. Las consecuencias de ello son terribles: si renunciamos al concepto de verdad, en su sentido científico, cualquier cosa puede ser cierta. No hace falta siquiera manipular los hechos: basta con tergiversar las conclusiones para afirmar que el calentamiento global no existe, o que el hombre no viene del mono.

Faking data

Lo cierto es que este problema nos ocurre como ciudadanos, pero también como profesionales del dato. Al igual que un periodista, nuestro trabajo consiste en transformar el dato, la información cruda, en conocimiento. Y sufrimos los mismos problemas que sufren los medios de comunicación. Nadamos en un mar de métricas y dimensiones que nos superan y que a menudo no entendemos. Nos doblamos a las exigencias de los departamentos de negocio, que retuercen los datos para adecuarlos a sus objetivos y prejuicios. Carecemos de una verdadera metodología crítica que nos capacite para extraer conclusiones correctas. Pero, sobre todo, pecamos de no exigirnos como profesionales lo que deberíamos. Con todo ello, corremos el riesgo de convertir al dato en posdato.

Critical thinking: aprendiendo a razonar

Una de las grandes lagunas formativas que acusan los analistas digitales es lo que los anglosajones llaman critical thinking. Básicamente, el pensamiento crítico consiste en el aparato lógico que habilita al hombre para interpretar correctamente la realidad y discernir entre la verdad y la mentira. Este concepto se aterriza en el mundo digital en nuestra capacidad de plantear hipótesis correctas a partir de los datos que recogemos. Aquí entran disciplinas clásicas, como la lógica clásica o la estadística, pero también otras más modernas como la psicología cognitiva. El objetivo último es evitar las falacias, es decir, los argumentos que parecen verosímiles pero que son falsos.

Fuente: Gilbert.com

Lo cierto es que esta competencia, a día de hoy, es mayormente humana, aunque parcialmente asistida por las máquinas. No es raro que un analista ejecute un análisis de correlación entre dimensiones, por ejemplo. Sin embargo, esta ayuda se limita por el momento a una mera asistencia de calculación. Los algoritmos aún no tienen aún capacidad de distinguir entre la verdad y la mentira, aunque no parece que sea muy lejano el día en que una IA pueda ayudarnos a realizar este trabajo. En un futuro, es incluso probable que sea la propia máquina la que extraiga automáticamente insights de un set de datos. Y ciertamente, los módulos de análisis de anomalías van por este camino. En tanto que llega este día, es fundamental entrenar nuestras habilidades como razonadores.

En este blog ya hemos identificado algunas de las falacias más comunes, como la paradoja del cumpleaños o la confusión entre correlación y causación. Existen otras muchas, como el uso selectivo de evidencias (donde se seleccionan ciertos datos y se ignoran otros para derivar conclusiones), la falacia del apostador (donde se considera erróneamente que los sucesos aleatorios pasados afectan a los sucesos aleatorios futuros) o la paradoja de Simpson (en la cual una tendencia que aparece en distintos sets de datos desaparece cuando estos grupos se agregan). Conviene en todo caso conocer los mecanismos que nos permiten construir una hipótesis válida. Son las mejores armas de un analista.

Cuando las métricas engañan

Al igual que un escritor cuenta con un extenso vocabulario a su disposición, es conveniente que un analista conozca bien la definición y uso de que hace de las métricas. Volviendo a la analogía del escritor, todo el mundo sabe escribir, pero muy pocos saben hacer de esta escritura un arte. El cometido del analista es pues conocer en profundidad el verdadero significado de sus métricas.

Todo esto, que puede sonar muy baladí, supone un ejercicio de reflexión que, desgraciadamente, no realizamos siempre. La primera pregunta que debemos hacernos es sobre la naturaleza de los datos. ¿Qué es exactamente una métrica? ¿Existen las métricas en el mundo real, o son meras construcciones artificiales? Hay que tener en cuenta que nuestro trabajo consiste en analizar el comportamiento de los usuarios, y sin embargo siempre trabajamos con datos que simbolizan este comportamiento. Por decirlo de algún modo, el dato es un intermediario de la realidad, y no la realidad per ser. Si olvidamos esto, corremos el riesgo de realizar observaciones irrelevantes sobre datos que no están relacionados con el mundo real, lo que a menudo supone una pérdida total de tiempo e incluso dinero.

Tomemos el ejemplo de una visita. En términos técnicos, una visita supone una consecución de hits realizados en un periodo de tiempo concreto por un mismo usuario. Sin embargo, esta definición puede o no puede coincidir con lo que nosotros consideremos una visita: así, si un usuario accede dos veces a una web para dos consultas distintas, se unificarán bajo una misma visita. Otro tanto sucede con el término visitante: por todos es conocidos que una persona que accede desde distintos dispositivos se contabilizaría como distintos usuarios.

En otros casos, utilizamos métricas a las que otorgamos inconscientemente un significado que no poseen. Existen multitud de casos en nuestro día a día. Un ejemplo clásico es el abuso que hacemos de la media, una de las métricas más engañosas, ya que cuando la muestra de datos tiene un índice de dispersión muy alto, la media se convierte en un valor poco representativo al no tener en cuenta la variabilidad de la serie. Aquí conviene más utilizar la mediana o la moda, que se adecúan mejor a la pregunta original que queríamos hacernos.

Otro ejemplo clásico es el de la tasa de rebote. Esta métrica se ha acabado convirtiendo en indicador más utilizado para medir el interés que genera una página de aterrizaje en el usuario: a mayor tasa de rebote, peor rendimiento. Sin embargo, esta conclusión es artificial y no tiene por qué representar siempre la intención real del usuario. Así, un usuario que aterriza en un medio de comunicación, lee la noticia y abandona el sitio, se considera un rebote, aunque se haya cumplido el objetivo. Es importante contextualizar siempre las métricas con la vertical de negocio, los objetivo concretos y las características propias del usuario.

Un último caso de métrica engañosa es el del NPS. En los últimos años, este KPI se ha convertido en uno de los indicadores más representativos de para medir la opinión de los clientes. No obstante, en los últimos años también se ha desarrollado una corriente crítica que pone en duda su baja accionabilidad o la escasez de la muestras recogidas, entre otros.

Y tú, ¿conoces algún otro caso de mal uso de métrica?

*Fuente de las imágenes: Freepik (imagen principal); Individual psychological therapies in forensic settings (Jason Davies), Gilbert.com y Wikipedia.org.

Escribe tu comentario

4 × 1 =

Navegar