Manipulado y masajeado de datos

Por más que le doy vueltas, no puedo quitarme esta sonrisa de la cara. Nunca me había imaginado que preparar un fichero de datos podría describirse como algo tan físico y sensitivo: manipular y masajear datos. Genial.

Entrando en la definición, vemos que ambos conceptos corresponden a etapas complementarias que forman parte del preproceso de información:

Manipulado de datos: Modificación ó creación de variables.

    • Categorización de variables. Convertir variables cuantitativas en un número más pequeño de categorías
    • Recodificación de variables. Agrupación de variables, cuantitativas ó categorías en un número más reducido de categorías. 
    • Transformación de variables. Generación de una nueva variable mediante la aplicación de una función sobre una o varias variables (cuantitativas ó cualitativas).

Masajeado de datos: Repaso de la superficie de las variables con el objetivo de corregir imperfecciones que puedan comprometer la calidad de los resultados del análisis.

    • Homogeneizar formatos.
    • Reemplazar valores que faltan (missing) por valores predeterminados.
    • Normalizar datos y eliminar registros duplicados.
    • Filtrar registros y seleccionar variables.
    • Revisar la consistencia de la información recogida (validación cruzada).

Una suerte de fisioterapia de la información que, como la disciplina homónima, debe basarse en un profundo conocimiento de los objetivos, las técnicas de análisis y la información necesaria para aplicarlas. De este modo, una vez manipulado y masajeado el fichero, sólo hará falta valorar si hace falta enriquecerlo con algún campo adicional para comenzar a resolver preguntas.

¿Y tú? ¿Manipulas, masajeas y enriqueces datos?

Hoja de cálculo. La principal herramienta de Business Intelligence

La elección de una solución de BI requiere de un profundo proceso de reflexión que evalúe un amplio abanico de factores:

  • La potencia y agilidad en la carga y extracción de resultados
  • La sencillez para definir outputs, consultarlos y modificarlos
  • La facilidad de interpretación de los resultados
  • La apariencia (look & feel personalizable)
  • El margen de libertad para que el usuario interactúe con los cuadros de mando
  • Los canales de difusión de informes (licencias, formatos, soportes, …)
  • La relación prestaciones/precio

Necesidades que, para un volumen de información medio (datasets con un volumen inferior a un millon de registros), pueden ser satisfechas mediante el uso de hojas de cálculo (Excel, LibreOffice ó Google Docs) para :

  • Visualizar información
  • Valorar la evolución temporal de indicadores
  • Comparar resultados por variables de segmentación (tipos de usuarios, motivaciones, zonas, productos, canales,… )
  • Simular resultados
  • Extraer listados
  • … con un ROI positivo (licencias gratuitas ó de coste bajo)

En una segunda fase, cuando necesitemos más interactividad, más volumen y/o más canales de difusión; la hoja de cálculo se convierte en un elemento de referencia para el análisis funcional y propotipado de la nueva solución. Aportando la definición de indicadores y los criterios de presentación de resultados.

¿Y tú? ¿Qué herramienta/s de BI utilizas?