Manipulado y masajeado de datos

Por más que le doy vueltas, no puedo quitarme esta sonrisa de la cara. Nunca me había imaginado que preparar un fichero de datos podría describirse como algo tan físico y sensitivo: manipular y masajear datos. Genial.

Entrando en la definición, vemos que ambos conceptos corresponden a etapas complementarias que forman parte del preproceso de información:

Manipulado de datos: Modificación ó creación de variables.

    • Categorización de variables. Convertir variables cuantitativas en un número más pequeño de categorías
    • Recodificación de variables. Agrupación de variables, cuantitativas ó categorías en un número más reducido de categorías. 
    • Transformación de variables. Generación de una nueva variable mediante la aplicación de una función sobre una o varias variables (cuantitativas ó cualitativas).

Masajeado de datos: Repaso de la superficie de las variables con el objetivo de corregir imperfecciones que puedan comprometer la calidad de los resultados del análisis.

    • Homogeneizar formatos.
    • Reemplazar valores que faltan (missing) por valores predeterminados.
    • Normalizar datos y eliminar registros duplicados.
    • Filtrar registros y seleccionar variables.
    • Revisar la consistencia de la información recogida (validación cruzada).

Una suerte de fisioterapia de la información que, como la disciplina homónima, debe basarse en un profundo conocimiento de los objetivos, las técnicas de análisis y la información necesaria para aplicarlas. De este modo, una vez manipulado y masajeado el fichero, sólo hará falta valorar si hace falta enriquecerlo con algún campo adicional para comenzar a resolver preguntas.

¿Y tú? ¿Manipulas, masajeas y enriqueces datos?

Análisis con R. Gráficos con ggplot2

El canal RevoAnalytics ofrece una amplia galería de vídeos relacionados con el uso de R para desarrollar proyectos de análisis.

Comparto dos que me han encantado: La presentación de R como herramienta de Minería de Datos y la masterclass de ggplot2 impartida por su creador, Hadley Wickham.

Introduction to R for Data Mining

[youtube http://www.youtube.com/watch?v=6jT6Rit_5EQ&w=520&h=293]

A Backstage Tour of ggplot2 with Hadley Wickham

[youtube http://www.youtube.com/watch?v=RHu5vgBZ1yQ&w=520&h=390]

Interpreta hasta 6 variables con Tableau

Todo analista de datos debe elaborar informes de resultados que permitan comprender la situación con el mínimo esfuerzo. Para ello, dispone de un amplio abanico de recursos que debe combinar para contextualizar la información sin sobrecargar excesivamente el documento. Evitando el riesgo de infoxicación y/o parálisis por análisis.

A grandes rasgos, el analista combina:

Indicadores.
– Variables de segmentación (tiempo, productos, regiones,…)
– Elementos de referencia (competencia, cliente, entorno, …)
– Recursos gráficos (formas, colores, …)

Recursos que pueden combinarse de infinitas formas. Por dicho motivo, el analista de datos debe estar cuestionándose constantemente si ya tiene suficiente con las fuentes de información, técnicas y herramientas que conoce ó si existe algún nuevo método que permita comprender mejor la situación y, en consecuencia, afinar en la toma de decisiones.

A modo de ejemplo, comparto una presentación gráfica, hecha con Tableau Public, que permite comparar 3 indicadores respecto a 3 variables de segmentación (volumen de ventas, margen promedio, promedio de incidencias vs región, producto y tiempo).

3 indicadores vs. 3 variables de segmentación con Tableau Public

– Las líneas representan la evolución de ventas semanales a lo largo del tiempo
– La anchura de la línea corresponde al porcentaje medio de margen.
– El color de la línea está relacionado con el porcentaje de incidencias (más rojo cuanto mayor es el número de incidencias).

Y ahora… ¿Cómo podemos seguir?

Análisis de tendencias con Google Trends

Me encanta jugar con Google Trends. La herramienta de Google que permite hacer consultas sobre el volumen de búsquedas asociadas a los términos indicados que, entre otra funcionalidades, permite también segmentar los resultados por tiempo, término buscado, zona geográfica y términos relacionados.
Es la herramienta ideal para plantear hipótesis o, dicho de otro modo, desarrollar pequeños proyectos de investigación exploratoria.

A modo de ejemplo, supongamos que estamos interesados en disponer de información exploratoria sobre el comportamiento de los principales sistemas operativos móviles: symbian, bada, android, windows phone y ios. Bastará con introducir dichos términos separados con comas en el buscador del servicio para obtener los resultados incluidos en el presente post.
Podréis acceder al resultado seleccionando tendencias de búsqueda cada uno de los los objetos indicados.


Interés a lo largo del tiempo

Google Trends - Interés a lo largo del tiempo

Interés geográfico y Términos relacionados

Google Trends - Interés geográfico y Términos relacionados

A partir de los resultados, podemos establecer las siguientes hipótesis de trabajo:

– Android es el sistema operativo que aglutina el volumen máximo de búsquedas. Con una tendencia de crecimiento impresionante.
– iOS mantiene cierto crecimiento pero tiende a estancarse.
– Windows Phone, Bada y Symbian presentan un volumen de búsquedas testimonial. Windows Phone registra una tendencia creciente, muy alejada de Android i iOs. Bada y Symbian una tendencia descendiente.

Como próximos pasos, podríamos ir segmentando resultados por zona geográfica para identificar diferencias significativas e ir comparando términos de búsqueda cruzados para ver intereses comunes.

También podríamos ir enriqueciendo el fichero con noticias, información del mercado (fuentes secundarias), información cualitativa y cualquier otro tipo de información que permita ir haciendo preguntas y más preguntas… ¿Y si?…

El ecosistema de análisis de información

Llevo tiempo reflexionando los factores a tener en cuenta en el desarrollo de todo análisis. Hace un par de años, proponía un modelo que combinase técnicas y herramientas de análisis en un entorno creativo.

Un modelo que ha evolucionado y que ahora incorpora tres elementos clave como son los criterios de definición de indicadores, las técnicas de representación escogidas y la habilidad para interrelacionar elementos eficientemente (inteligencia práctica).

Un ecosistema que evoluciona mediante la combinación eficiente de técnicas y herramientas, aplicadas sobre factores medidos con el indicador adecuado y representados con el diseño que permita comprender la situación en una sola hoja.

Un ecosistema donde herramientas y técnicas deben ser escogidas para satisfacer el nivel de significación esperado y donde siempre deberá existir una componente lúdica para revisar y reinventar procesos.