Y eso de la estadística… ¿¿Te gusta??

No me gusta, me encanta. Porque, como cualquier otra disciplina técnica, me permite combinar la parte racional con la parte emocional de mi cerebro desarrollando proyectos que requieren de:

  • Disciplina. Para extraer, limpiar, transformar, validar y modelizar todo tipo de información
  • Rigor. Para revisar la validez y la representatividad de los resultados obtenidos
  • Persistencia. Para mantener el interés en el desarrollo de la investigación aunque sea necesario repetir los experimentos o re-definir el estudio.
  • Inteligencia práctica. Para obtener el resultado deseado de la forma más eficiente posible
  • Curiosidad. Para investigar nuevas técnicas, herramientas, fuentes de información y/o formas de presentación
  • Flexibilidad. Para adaptar el resultado a las necesidades del cliente (interno ó externo)
  • Transparencia. Para compartir conocimientos con el resto del equipo
  • Comunicación. Para conocer necesidades, buscar recursos y transmitir resultados
  • Imaginación. Para diseñar nuevos procesos ó nuevos formatos de informes
  • Valor. Para salir del marco establecido

… mientras masajeo datos… y les escucho…

Análisis con R. Gráficos con ggplot2

El canal RevoAnalytics ofrece una amplia galería de vídeos relacionados con el uso de R para desarrollar proyectos de análisis.

Comparto dos que me han encantado: La presentación de R como herramienta de Minería de Datos y la masterclass de ggplot2 impartida por su creador, Hadley Wickham.

Introduction to R for Data Mining

[youtube http://www.youtube.com/watch?v=6jT6Rit_5EQ&w=520&h=293]

A Backstage Tour of ggplot2 with Hadley Wickham

[youtube http://www.youtube.com/watch?v=RHu5vgBZ1yQ&w=520&h=390]

Interpreta hasta 6 variables con Tableau

Todo analista de datos debe elaborar informes de resultados que permitan comprender la situación con el mínimo esfuerzo. Para ello, dispone de un amplio abanico de recursos que debe combinar para contextualizar la información sin sobrecargar excesivamente el documento. Evitando el riesgo de infoxicación y/o parálisis por análisis.

A grandes rasgos, el analista combina:

Indicadores.
– Variables de segmentación (tiempo, productos, regiones,…)
– Elementos de referencia (competencia, cliente, entorno, …)
– Recursos gráficos (formas, colores, …)

Recursos que pueden combinarse de infinitas formas. Por dicho motivo, el analista de datos debe estar cuestionándose constantemente si ya tiene suficiente con las fuentes de información, técnicas y herramientas que conoce ó si existe algún nuevo método que permita comprender mejor la situación y, en consecuencia, afinar en la toma de decisiones.

A modo de ejemplo, comparto una presentación gráfica, hecha con Tableau Public, que permite comparar 3 indicadores respecto a 3 variables de segmentación (volumen de ventas, margen promedio, promedio de incidencias vs región, producto y tiempo).

3 indicadores vs. 3 variables de segmentación con Tableau Public

– Las líneas representan la evolución de ventas semanales a lo largo del tiempo
– La anchura de la línea corresponde al porcentaje medio de margen.
– El color de la línea está relacionado con el porcentaje de incidencias (más rojo cuanto mayor es el número de incidencias).

Y ahora… ¿Cómo podemos seguir?

¿Indicador? Contexto y acción

Me encanta la definición de indicador que hizo Bauer hace casi medio siglo. Una definición, concisa y elegante, que recoge los principales elementos que considero que debe tener un buen indicador:

“Entendemos como indicador cualquier valor que nos facilita el estudio de donde estamos y hacia donde nos dirigimos en relación a un determinado objetivo. Así como evaluar programas específicos y determinar su impacto” (Bauer, 1966).

  • Valor -> Debe ser una magnitud
    Indicador
    cuantitativa, objetiva. Con el nivel de precisión 
    adecuado para la dimensión analizada (valor entero para el número de visitas, un decimal para la temperatura, 4 decimales para la cotización en bolsa,…).
  • Facilita el estudio -> Debe permitir la evaluación de la situación y la toma de decisiones. Para ello, es imprescindible disponer de un sistema que incluya elementos de referencia para estudiar el comportamiento del indicador (tiempo, categorías, productos, entorno,…)
  • Donde estamos y hacia donde nos dirigimos -> Debe permitir la comparación de dicho valor durante el periodo de tiempo suficiente como para estudiar su evolución.
  • En relación a un determinado objetivo -> Todo indicador debe estar vinculado con un plan de acción de la compañía que establezca qué medidas adoptar en función de la evolución de dicho indicador.
  • Evaluar programas específicos y determinar su impacto -> Desarrollar investigaciones aplicadas.

No obstante, la definición de Bauer puede quedarse corta en algunos casos. Por dicho motivo, podríamos completarla con algunas características del acrónimo S.M.A.R.T. (inteligente, en inglés):

  • eSpecífico. Dirigidos a un objetivo concreto. Con una definición explícita, compartida y conocida por todos los miembros de la organización.
  • Medible. Cuantificable. Con el nivel de precisión requerido.
  • Accionable. Relacionado con un plan de acción.
  • Relevante. Con resultados que permitan la toma de decisiones con la consulta del mínimo suficiente de indicadores. Minimizando el nivel de infoxicación.
  • a Tiempo. En el momento adecuado. De nada nos sirve disponer de un indicador cuando ya no es necesario.

Además de las características descritas, también podríamos completar las descripción con dos características adiciones:

  • Actualizable. Con un histórico de mediciones que permitan estudiar su evolución.
  • Revisable. Con una verificación exhaustiva de su definición y su capacidad de análisis.

Un amplio abanico de características que nos permitirán conocer, a modo de ejemplo:

  • ¿Cuál es y cómo evoluciona la temperatura del motor de nuestro coche?
  • ¿Cuáles son los valores de referencia?
  • ¿Qué debemos hacer cuando la temperatura se salga del rango de seguridad?
  • ¿Qué otros indicadores pueden incidir en la temperatura (velocidad, nivel líquido de refrigeración, temperatura externa,…)?
  • Y, sobretodo, ¿cuál és el mínimo suficiente de indicadores que necesito para viajar con seguridad?

Análisis de tendencias con Google Trends

Me encanta jugar con Google Trends. La herramienta de Google que permite hacer consultas sobre el volumen de búsquedas asociadas a los términos indicados que, entre otra funcionalidades, permite también segmentar los resultados por tiempo, término buscado, zona geográfica y términos relacionados.
Es la herramienta ideal para plantear hipótesis o, dicho de otro modo, desarrollar pequeños proyectos de investigación exploratoria.

A modo de ejemplo, supongamos que estamos interesados en disponer de información exploratoria sobre el comportamiento de los principales sistemas operativos móviles: symbian, bada, android, windows phone y ios. Bastará con introducir dichos términos separados con comas en el buscador del servicio para obtener los resultados incluidos en el presente post.
Podréis acceder al resultado seleccionando tendencias de búsqueda cada uno de los los objetos indicados.


Interés a lo largo del tiempo

Google Trends - Interés a lo largo del tiempo

Interés geográfico y Términos relacionados

Google Trends - Interés geográfico y Términos relacionados

A partir de los resultados, podemos establecer las siguientes hipótesis de trabajo:

– Android es el sistema operativo que aglutina el volumen máximo de búsquedas. Con una tendencia de crecimiento impresionante.
– iOS mantiene cierto crecimiento pero tiende a estancarse.
– Windows Phone, Bada y Symbian presentan un volumen de búsquedas testimonial. Windows Phone registra una tendencia creciente, muy alejada de Android i iOs. Bada y Symbian una tendencia descendiente.

Como próximos pasos, podríamos ir segmentando resultados por zona geográfica para identificar diferencias significativas e ir comparando términos de búsqueda cruzados para ver intereses comunes.

También podríamos ir enriqueciendo el fichero con noticias, información del mercado (fuentes secundarias), información cualitativa y cualquier otro tipo de información que permita ir haciendo preguntas y más preguntas… ¿Y si?…

El ecosistema de análisis de información

Llevo tiempo reflexionando los factores a tener en cuenta en el desarrollo de todo análisis. Hace un par de años, proponía un modelo que combinase técnicas y herramientas de análisis en un entorno creativo.

Un modelo que ha evolucionado y que ahora incorpora tres elementos clave como son los criterios de definición de indicadores, las técnicas de representación escogidas y la habilidad para interrelacionar elementos eficientemente (inteligencia práctica).

Un ecosistema que evoluciona mediante la combinación eficiente de técnicas y herramientas, aplicadas sobre factores medidos con el indicador adecuado y representados con el diseño que permita comprender la situación en una sola hoja.

Un ecosistema donde herramientas y técnicas deben ser escogidas para satisfacer el nivel de significación esperado y donde siempre deberá existir una componente lúdica para revisar y reinventar procesos.

Análisis gráfico de información. Selección de herramientas 2013

Comparto mi selección de herramientas de representación gráfica de información. Todas ellas ofrecen una licencia gratuita.

Let’s paint the data !!