Manipulado y masajeado de datos

Por más que le doy vueltas, no puedo quitarme esta sonrisa de la cara. Nunca me había imaginado que preparar un fichero de datos podría describirse como algo tan físico y sensitivo: manipular y masajear datos. Genial.

Entrando en la definición, vemos que ambos conceptos corresponden a etapas complementarias que forman parte del preproceso de información:

Manipulado de datos: Modificación ó creación de variables.

    • Categorización de variables. Convertir variables cuantitativas en un número más pequeño de categorías
    • Recodificación de variables. Agrupación de variables, cuantitativas ó categorías en un número más reducido de categorías. 
    • Transformación de variables. Generación de una nueva variable mediante la aplicación de una función sobre una o varias variables (cuantitativas ó cualitativas).

Masajeado de datos: Repaso de la superficie de las variables con el objetivo de corregir imperfecciones que puedan comprometer la calidad de los resultados del análisis.

    • Homogeneizar formatos.
    • Reemplazar valores que faltan (missing) por valores predeterminados.
    • Normalizar datos y eliminar registros duplicados.
    • Filtrar registros y seleccionar variables.
    • Revisar la consistencia de la información recogida (validación cruzada).

Una suerte de fisioterapia de la información que, como la disciplina homónima, debe basarse en un profundo conocimiento de los objetivos, las técnicas de análisis y la información necesaria para aplicarlas. De este modo, una vez manipulado y masajeado el fichero, sólo hará falta valorar si hace falta enriquecerlo con algún campo adicional para comenzar a resolver preguntas.

¿Y tú? ¿Manipulas, masajeas y enriqueces datos?