Analítica web
Reflexiones desde el mercado español de Analítica Web

Música o Ruido: La estadística al rescate

Se lee en 3 minutos

Un alto porcentaje de las personas que leemos este blog trabajamos con gráficas, es decir, representaciones de datos generalmente numéricos siguiendo un determinado formato (puntos, barras, superficies…) plasmadas sobre un determinado sistema. A su vez, cuando vemos que los patrones que siguen nuestros datos bajan o fluctúan de forma errante, normalmente nos preguntamos ¿qué demonios ha pasado aquí? Pues bien, la inmensa mayoría de las veces, la respuesta a esta pregunta es “nada”.

En este post expondremos una serie de términos y técnicas, que todo analista que se precie debería conocer, para comprender mejor los datos de los que dispone, mejorando su criterio a la hora de interpretar los mismos y por consiguiente extraer conclusiones más acertadas.

Comenzaremos con unos consejos para mejorar la interpretación y toma de decisiones a partir de los resultados obtenidos en entornos de testing:

Hemos realizado un test A/B sobre nuestra página de descripción de un producto y queremos saber cuál de las dos versiones ha tenido más éxito. Los resultados obtenidos nos dicen que en la versión A la página de un producto con 1000 vistas ha conseguido 29 conversiones (2,9% de conversión), mientras que la B ha obtenido 850 vistas y 37 conversiones (4.35% de conversión). Obviamente la versión B es mejor que la A ya que tiene más porcentaje de conversión, pero, ¿podemos asegurarlo?. ¿Cómo sabemos que estos resultados no se deben al azar?. Pues bien, reformulemos la pregunta: ¿Son estos resultados estadísticamente significativos? .

Saltándonos los cálculos matemáticos (existen miles de herramientas que nos hacen el trabajo sucio), la significancia estadística es un coeficiente numérico que nos indica “cuánto de buenos” son los resultados obtenidos, en el sentido en que no son fruto del azar. Si este coeficiente supera el 95%, puede asegurarse que los resultados obtenidos en nuestro experimento son estadísticamente significativos, es decir, el componente de azar en la obtención de los mismos es nulo o mínimo. Por lo tanto, volviendo al escenario anterior y realizando una serie de cálculos, se puede concluir que la versión B de la página de producto es más eficiente que la A con una seguridad del 95%. Como podéis ver, extraemos conclusiones muy precisas con una muestra de tan solo 1000 vistas de producto. ¿Útil o no?

Por otra parte, os planteamos el siguiente escenario:

Tenemos una gráfica que representa el comportamiento de un determinado KPI a lo largo del tiempo, pero ésta fluctúa de forma extraña y no conseguimos extraer un patrón con sentido o explicarlo de alguna forma coherente. ¿Qué está pasando aquí?, ¿es esto normal?, ¿por qué un día tenemos 100 objetivos cumplidos, al siguiente 10 y al otro 60? , ¿significa esto que el día de las 10 conversiones hubo una incidencia?, ¿dónde?.

Como veis, son muchas preguntas. Afortunadamente tenemos para vosotros una técnica que puede ayudarnos significativamente a la hora de responder a ellas: Límites de Control.

Esta estrategia trata de separar la paja del grano, quedándose sólo con lo que no es normal en el comportamiento natural de un KPI determinando. Unos puntos límite que nos indicarán la frontera entre lo que debemos y no debemos tener en cuenta. ¡Piensa en la cantidad de tiempo que nos ahorraremos en estudiar “incidencias” que realmente no son tal!.

Estadísticamente pueden calcularse estos límites, denominados límite superior e inferior de control, tomando como base la media aritmética de los datos, la desviación estándar de los mismos, y aplicando la siguiente fórmula: Límites = Media Aritmética ± 1.5 x Desviación Estándar. De esta forma, todo lo que queda por debajo del límite superior y por encima del inferior está dentro de la “normalidad”, y, en caso contrario, nos encontraremos ante una más que posible incidencia.

Por ejemplo, si nos centramos en la figura 1, vemos claramente como tras aplicar los límites de control, existen puntos que quedan fuera de su ámbito, siendo éstos los que deberían ser objeto de estudio ya que es probable que se correspondan con alguna anomalía. De esta forma, podemos ver como todo lo que queda comprendido entre los límites de control es consecuencia de eventos naturales en el comportamiento del KPI, incluso cuando las variaciones de un valor con el siguiente son relativamente drásticas. Este aspecto nos llevaría a más de uno a emplear tiempo estudiando las razones de este descenso puntual, pero gracias a los límites de control, podemos dar por hecho que este descenso entra dentro del comportamiento natural del KPI.

Por último, es necesario apuntar que esta técnica resulta más efectiva conforme se aplica a conjuntos de datos más amplios, ya que los límites de control quedan mucho más afinados al depender directamente de la cantidad de datos sobre los que se pretende actuar.

¿Te animas a probarlo?.

4 Comentarios

  1. Pingback: Tweets that mention Música o Ruido: La estadística al rescate | Analítica Web | MVConsultoría -- Topsy.com

  2. que bien! números y con sentido!. Me permito añadir una cosa mas. uno de los “secretos” para que los datos sean significativos es la correcta elección y configuración de la muestra. es importante que la muestra se refiera a un universo concreto y lo represente bien. Para esto existen, por un lado las técnicas de muestreo ( aleatorio simple, estratificado, etc) y por otro el sentido común del investigador.
    Por eso antes de mirar muestras, hay que definir el universo, y en base a eso construir una muestra con el menor error muestral posible… o el mas aceptable. A partir de ahi, recopilamos datos de la muestra y calculamos intervalos de confianza y demas…

    un saludo!

  3. Martin McNulty Responder

    Buenos días

    En primer lugar, muchas gracias por tu comentario.

    Como muy bien comentas, la elección de la muestra en consonancia con el universo o población es un punto crítico en cualquier estudio estadístico; debería ser el “Paso 1” a la hora de planificar nuestras pruebas.
    Realmente creo que la estadística, o al menos un cierto conocimiento de técnicas básicas como las presentadas en el post o las que tu apuntas, son de especial importancia para entender mejor los datos de los que disponemos a diario y sobre todo ser más precisos en nuestra interpretación de los mismos.

    Un saludo!!

    P.D: Me lo apunto como posible tema para futuros posts

  4. Fantástico post Martin.

    Muchas veces nos olvidamos de los conceptos estadísticos básicos al hacer nuestros análisis y todo el mundo los debería de tener muy presentes a la hora de presentar la información.

    Tengo en mis favoritos esta web http://www.analyticalgroup.com/sigtest.html que creo que descubrí en el blog de Avinash en el que se pueden encontrar plantillas de Excel para realizar ese tipo de análisis.

    Os la recomiendo.

    Saludos

Escribe tu comentario

Doce + cuatro =

Navegar