Y eso de la estadística… ¿¿Te gusta??

Posted on 7 marzo, 2013 por erodriguezgar

No me gusta, me encanta. Porque, como cualquier otra disciplina técnica, me permite combinar la parte racional con la parte emocional de mi cerebro desarrollando proyectos que requieren de:

Disciplina. Para extraer, limpiar, transformar, validar y modelizar todo tipo de información
Rigor. Para revisar la validez y la representatividad de los resultados obtenidos
Persistencia. Para mantener el interés en el desarrollo de la investigación aunque sea necesario repetir los experimentos o re-definir el estudio.
Inteligencia práctica. Para obtener el resultado deseado de la forma más eficiente posible
Curiosidad. Para investigar nuevas técnicas, herramientas, fuentes de información y/o formas de presentación
Flexibilidad. Para adaptar el resultado a las necesidades del cliente (interno ó externo)
Transparencia. Para compartir conocimientos con el resto del equipo
Comunicación. Para conocer necesidades, buscar recursos y transmitir resultados
Imaginación. Para diseñar nuevos procesos ó nuevos formatos de informes
Valor. Para salir del marco establecido

… mientras masajeo datos… y les escucho…

Análisis con R. Gráficos con ggplot2

Posted on 3 marzo, 2013 por erodriguezgar

Responder

El canal RevoAnalytics ofrece una amplia galería de vídeos relacionados con el uso de R para desarrollar proyectos de análisis.

Comparto dos que me han encantado: La presentación de R como herramienta de Minería de Datos y la masterclass de ggplot2 impartida por su creador, Hadley Wickham.

Introduction to R for Data Mining

[youtube http://www.youtube.com/watch?v=6jT6Rit_5EQ&w=520&h=293]

A Backstage Tour of ggplot2 with Hadley Wickham

[youtube http://www.youtube.com/watch?v=RHu5vgBZ1yQ&w=520&h=390]

Primeros pasos con KNIME

Posted on 1 marzo, 2013 por erodriguezgar

Responder

KNIME es una de mis herramientas preferidas para preprocesar y analizar información.

Comparto el vídeo introductorio de la herramienta. Incluido en una interesantísima colección de vídeos publicados en KNIMETV.

[youtube http://www.youtube.com/watch?v=ft7Ksgss3Tc&w=520&h=293]

Interpreta hasta 6 variables con Tableau

Posted on 28 febrero, 2013 por erodriguezgar

Todo analista de datos debe elaborar informes de resultados que permitan comprender la situación con el mínimo esfuerzo. Para ello, dispone de un amplio abanico de recursos que debe combinar para contextualizar la información sin sobrecargar excesivamente el documento. Evitando el riesgo de infoxicación y/o parálisis por análisis.

A grandes rasgos, el analista combina:

– Indicadores.
– Variables de segmentación (tiempo, productos, regiones,…)
– Elementos de referencia (competencia, cliente, entorno, …)
– Recursos gráficos (formas, colores, …)

Recursos que pueden combinarse de infinitas formas. Por dicho motivo, el analista de datos debe estar cuestionándose constantemente si ya tiene suficiente con las fuentes de información, técnicas y herramientas que conoce ó si existe algún nuevo método que permita comprender mejor la situación y, en consecuencia, afinar en la toma de decisiones.

A modo de ejemplo, comparto una presentación gráfica, hecha con Tableau Public, que permite comparar 3 indicadores respecto a 3 variables de segmentación (volumen de ventas, margen promedio, promedio de incidencias vs región, producto y tiempo).

– Las líneas representan la evolución de ventas semanales a lo largo del tiempo
– La anchura de la línea corresponde al porcentaje medio de margen.
– El color de la línea está relacionado con el porcentaje de incidencias (más rojo cuanto mayor es el número de incidencias).

Y ahora… ¿Cómo podemos seguir?

Visualización de Información. Herramientas

Posted on 5 junio, 2012 por erodriguezgar

Responder

Selección de herramientas de Visualización de Información (realizada con Mertxe Pasamontes).

Visualización de Datos – Herramientas [slideshare id=13203356&w=520&h=355&sc=no]

View more presentations from Enrique Rodríguez García

O’Reilly | Building Data Science Teams

Posted on 29 marzo, 2012 por erodriguezgar

Responder

As data science evolves to become a business necessity, the importance of assembling a strong and innovative data teams grows. In this in-depth report, data scientist DJ Patil explains the skills, perspectives, tools and processes that position data science teams for success.

Topics include: What it means to be «data driven.» The unique roles of data scientists. The four essential qualities of data scientists. Patil’s first-hand experience building the LinkedIn data science team.

Download «Building Data Science Teams»

Is data the new oil ?

Posted on 9 enero, 2012 por erodriguezgar

Responder

Intro video from the opening keynote from Platon’s Information Management conference line 2010 (im2010.net). Is data really the new oil? A look into the similarities between oil and the importance of data in the information age.

Lisa Randall | La creatividad es tan determinante en matemáticas como en poesía

Posted on 22 diciembre, 2011 por erodriguezgar

Responder

Entrevista a Lisa Randall, cosmóloga y física cuántica en La Contra de la Vanguardia (22/12/2011)

Cree usted en partículas invisibles e intangibles.
No creo: sé que existen.

¿Cómo lo sabe?
Indicios, modelos teóricos, proyecciones matemáticas…

¿Y a qué conclusiones llega?
Existen universos ocultos.

¿Dónde?
Aquí.

¿Otros mundos, pero dentro de este?
Es un modo poético de decirlo.

Dígamelo a su modo.
El cosmos tiene dimensiones extras.

¿Qué entiende por dimensiones extras?
Otras dimensiones más allá de las tres que experimentamos cada día.

¿Desde cuándo lo sabe?
Se planteó tal posibilidad hace casi un siglo, y trabajos de los últimos años nos lo confirman.

¿Qué trabajos?
Los que buscan unificar todas las fuerzas de la física, la teoría de cuerdas, las branas…

¿Qué son las branas?
Otros planos de la realidad, otras dimensiones.

Explíquemelo para que se entienda.
Imagine una cortina de ducha.

Bien.
Imagine unas gotitas de agua deslizándose por esa cortina.

De acuerdo.
Viajan por el plano de la cortina, y para las gotitas sólo existen dos dimensiones.

Sí.
Para nosotros, que las vemos, hay tres dimensiones: vemos las gotas desde una tercera dimensión, desconocida para ellas.

Entendido.
Análogamente, si nosotros somos como esas gotas, además de las tres dimensiones que captamos, existen otras.

¿Cuántas?
No se sabe. Quizá nueve o diez dimensiones más, según la teoría de cuerdas…

¿Cómo son?
Algunas son muy pequeñas, otras son muy grandes. Están enrolladas, o arqueadas… Me interesan las que son lo bastante grandes como para que detectemos su influjo.

¿Qué influjo?
En la fuerza de gravedad, para lo que no hay explicación satisfactoria… si no consideramos el influjo de otra dimensión. Es lo mismo para otros fenómenos raros del cosmos.

¿Qué le fascina más de lo que investiga?
¡Todo! Me resulta fascinante la posibilidad de entender el universo, de conocer los elementos que lo constituyen: he llegado a la conclusión de que hay una dimensión extra infinita.

¿Infinita?
Es la única solución coherente para encajar ciertos efectos físicos que resultaban inexplicables de otro modo.

¿La estética de una solución puede cegar a un científico?
La belleza no es garantía de nada, pero anima a continuar indagando.

¿Puede una ecuación ser tan bella como un poema?
La creatividad es tan determinante en matemáticas como en poesía.

Las ideas, los sueños… ¿guardan alguna relación con esas dimensiones extras?
No tengo respuesta para eso.

¿Qué partícula es la más elemental del universo?
Los quarks y los leptones son los constituyentes fundamentales de la materia visible. Pero es probable que haya más cosas.

¿Qué quiere decir?
Afinando la tecnología actual, podríamos descubrir nuevas partículas elementales. Con el colisionador de partículas de Ginebra hallaremos –calculo que en menos de un año– partículas que confirmen las dimensiones extras del cosmos.

¿Confirmarán que los neutrinos son más rápidos que la luz?
Hay que seguir contrastando esos experimentos. Si fueran correctos, evidenciarían una teoría subyacente a la de Einstein, sin invalidarla por ello.

¿Qué le ilusionaría encontrar?
Algo sobre la naturaleza de la materia oscura. La materia oscura interactúa con la gravedad, pero no con la luz.

¿Qué es la materia oscura?
Sólo el 4% del universo es materia: las estrellas, el Sol, los planetas, usted y yo… El 23% del universo es materia oscura.

¿Y el 73% restante?
Energía oscura, la energía del vacío, un campo que ocupa todo el espacio…

Me pierdo…
Además, para cada partícula hay una antipartícula, íntimamente relacionadas ambas: hay materia y antimateria.

¿Cuál es su partícula favorita?
De los seis tipos de quark que conocemos, me interesa especialmente el top, que es el quark más pesado, con más masa.

¿Aparecerá Dios en el colisionador?
Es bastante improbable.

¿No hay riesgo de que el colisionador cree un agujero negro y un cataclismo?
Un agujero negro aparecería y desaparecería a gran velocidad. No hay ningún peligro, ja, ja… De hecho, el centro de nuestra galaxia, en uno de cuyos brazos estamos, es un agujero negro.

Glups.
No se preocupe por eso: ¡deberíamos preocuparnos más de otras cosas!

¿De qué?
Del futuro de la democracia, por ejemplo.

Stephen M. Kosslyn | Las facultades de Periodismo y Diseño deberían enseñar Psicología Cognitiva (por @albertocairo)

Posted on 11 diciembre, 2011 por erodriguezgar

Responder

Por: Alberto Cairo (@albertocairo) en Periodismo con futuro (elpais.com)

(Foto: Microsoft)

Stephen M. Kosslyn es un maestro de maestros. A pesar de que durante nuestra conversación telefónica no le pregunto por sus estudiantes, ni siquiera por los más famosos (la actriz Natalie Portman fue asistente en su laboratorio de Neuropsicología en Harvard), no evita mencionar a algunos, como Steven Pinker, (Cómo funciona la mente), de quien Eduard Punset dijo que debería ser candidato al premio Nobel.

Kosslyn habla de sus alumnos con cierto pudor y frases lentas, meditadas; en tono parecido, explica por qué los periodistas debemos preocuparnos por cómo el cerebro de cada lector se enfrenta a textos, gráficos y fotografías, partiendo del aprendizaje de ciertos rudimentos de psicología cognitiva, que estudia la interrelación entre percepción, memoria y conocimiento.

El curriculum de Kosslyn ocupa varias páginas, así que limitémonos a sus credenciales más notables: director del Centro de Estudios Avanzados en Ciencias del Comportamiento de la Universidad de Stanford desde enero de este año; fue profesor emérito en Harvard, jefe del Departamento de Psicología de la misma institución y, entre 2008 y 2010, decano de su área de Ciencias Sociales. Neurocientífico especializado en percepción e imágenes mentales (mental imagery), Kosslyn ha escrito varios libros sobre comunicación visual, además de numerosos artículos académicos ([1], [2]).

Alberto Cairo – Sus libros de divulgación, como Graph Design for the Eye and Mind («Diseño de gráficos para el ojo y la mente»), se ocupan de la aplicación de la psicología cognitiva a la comunicación. ¿Por qué se interesó por este asunto?

Stephen M. Kosslyn – Hace años, cuandoSteven Pinker era estudiante de doctorado en Harvard, una empresa llamada Consulting Statisticians Inc. se puso en contacto conmigo. Una agencia gubernamental les había pedido que hiciesen algunos estudios sobre por qué los gráficos estadísticos funcionan tan bien para comunicar ciertos tipos de información. Steve y yo pasamos tres años investigando, aunque nunca llegamos a publicar los resultados en un único volumen. Todos mis libros de tono menos académico y orientación más práctica tienen su origen en esa época.

AC – ¿Los que tratan de PowerPoint también?

SK– Sí. De hecho, están basados en los mismos principios y reglas que los que hablan de gráficos. Cuando era director del Departamento de Psicología de Harvard, una de mis obligaciones era ir a numerosas conferencias de profesores visitantes, candidatos a empleos en la universidad, etc. Un día, comencé a notar que las proyecciones usadas en aquellos actos no respetaban lo que conocemos sobre cómo funciona la mente.

Recuerdo un caso que me llamó especialmente la atención. Se trataba de una clase magistral impartida por un psicólogo. Comenzó a mostrar imágenes del Sistema Solar: fondos negros cargados de estrellas, planetas de colores muy claros, etc. El problema era que sobre dichos planetas había colocado textos diminutos de color blanco y escritos con fuentes de trazos muy finos. Eso hacía que fuesen no sólo muy difíciles de ver, sino también de leer. Fue una revelación. Me dije: «esto es increíble; puedo identificar un buen montón de problemas muy básicos; estas diapositivas ignoran lo que conocemos sobre la importancia del contraste, por ejemplo. ¿Por qué?» Así que comencé a tomar notas.

AC – Todo su trabajo de divulgación es producto de ese «instante eureka»…

SK– Oh, no, no fue sólo aquella conferencia. Después de ella, comencé a prestar atención no sólo al contenido de otras charlas, sino también a la forma en la que se utilizaban apoyos visuales. Todas, incluso las de expertos en percepción, tenían fallos graves.

Eso fue lo que me llevó a escribir Clear and to the Point, mi libro sobre principios de psicología aplicados a PowerPoint. Lo menciono porque algunas de las reseñas señalaron que lo que digo es bastante obvio: sé claro y directo, no intentes colocar demasiada información en cada diapositiva, organiza jerárquicamente los elementos en la página, usa correctamente el contraste… Pero, a juzgar por lo que me veía obligado a sufrir cada día, los consejos que di eran necesarios. Toda persona que tenga que enfrentarse a una audiencia debe familiarizarse con cómo funcionan la percepción, la memoria y los mecanismos del razonamiento. Mi objetivo siempre ha sido ayudar en ese proceso.

AC – ¿Tiene sentido entonces incluir asignaturas de Psicología Cognitiva en las facultades de Periodismo y en las escuelas de Diseño Gráfico? Le advierto de que debo de estar saltándome varias reglas éticas con esta pregunta porque tengo un interés personal en ella; es una de mis propuestas para el futuro de la enseñanza de esas profesiones…

SK– No tengo la menor duda. Es aconsejable por varios motivos. El primero es que los periodistas se dirigen siempre a audiencias compuestas de seres humanos. Otra obviedad, ¿no es cierto? No tanto. La percepción, el procesamiento de información procedente de los sentidos, la comprensión y la memoria tienen muchas limitaciones y peculiaridades. Entenderlas en profundidad es un requisito para ser buen comunicador, para presentar gráficos con eficacia. Ser capaz de prever cómo tu audiencia va a procesar unos contenidos ayuda a no ser presa de las debilidades de la mente y a aprovechar al mismo tiempo sus capacidades innatas.

Esto se aplica no sólo a los gráficos, sino también al texto, a la forma de escribir noticias y reportajes. No hay diferencia alguna entre ambos en el sentido de que aprender cómo los ojos y el cerebro funcionan es una ventaja para cualquier profesional. La única forma de adquirir este conocimiento es a través de una sólida educación.

AC – ¿Por qué los errores a la hora de escribir, crear gráficos y diseñar presentaciones en PowerPoint son tan comunes, incluso entre aquellos que mejor conocen los entresijos de la mente?

SK– Porque existe una disociación entre nuestras intuiciones y nuestro conocimiento. En nuestro día a día, es común que nos dejemos guiar por intuiciones y que no siempre apliquemos lo que sabemos. El proceso creativo es casi automático, en él tienen más peso los prejuicios y las convenciones –que adquirimos a lo largo de la vida– que la razón. Es algo natural: si muchas de nuestras actividades cotidianas no fuesen automáticas e inconscientes, no seríamos capaces de sobrevivir.

Aplicar conocimientos al trabajo creativo requiere un gran esfuerzo, y dudo que podamos hacerlo mientras trabajamos en un texto o un gráfico. Por eso, en cualquier proyecto debe haber dos fases: la creativa, rápida, intuitiva, automática, en la que uno genera el producto, y lacrítica, en la que nos paramos, editamos, filtramos los contenidos y la forma de presentarlos. Esto dobla la cantidad de energía que necesitaremos invertir, y no todo el mundo está dispuesto a hacerlo porque confían demasiado en sus intuiciones. Creen, erróneamente, haber internalizado sus conocimientos hasta el punto de que estos se han vuelto automáticos.

(Foto: Jenn Chang)

AC – La visualización de información es un área en constante crecimiento. Segun la definición más habitual en sus textos fundacionales, se trata de una disciplina que tiene como objetivo crear presentaciones gráficas interactivas que «amplían la cognición«, las capacidades perceptivas y de comprensión. ¿Se trata de una metáfora o es cierto que, en cierto sentido, cuando usamos una visualización o leemos un gráfico, estos se convierten en extensiones de nuestra mente, de la misma forma en que un disco duro y un libro son extensiones de nuestra memoria?

SK– Para responder a esta pregunta es necesario que hagamos una distinción entre gráficos figurativos (depictive graphics) y gráficos simbólicos (symbolic graphics). Un gráfico figurativo es aquel que tiene una semejanza con lo que representa, como el plano de un apartamento, la explicación de cómo funciona un aparato, el mapa de una región, etc. En un gráfico simbólico, por el contrario, la relación con el fenómeno representado es formal: piense en los gráficos estadísticos.

Pues bien, la forma de leer e interpretar esos dos tipos de gráfico depende de cada persona. La lectura de los primeros es sencilla pero, para entender los segundos, uno debe aprender ciertas convenciones: que existen ejes X e Y, que la altura de las barras es proporcional a las cantidades que codifican, etc. Hoy en día, los gráficos estadísticos son muy comunes, por lo que pensamos que su lectura es natural, pero no lo es.

Maria Kozhevnikov, una científica de origen ruso, ha estudiado este problema. En varios artículos, ha mostrado que no todo el mundo entiende gráficos estadísticos con facilidad. Todo depende de los patrones de activación de ciertas regiones cerebrales, que varían dependiendo del individuo. En uno de sus estudios, Maria demostró que artistas, arquitectos y científicos interpretan gráficos de formas diferentes. Lo mismo sucede con los lectores comunes.

Por ejemplo, existe un grupo de personas para cuyos cerebros los gráficos, aunque sean simbólicos, representan objetos reales. Leen gráficos abstractos como si fuesen representaciones pictóricas de fenómenos reales, físicos, y acaban sumidos en la confusión.

AC – Los gráficos estadísticos, simbólicos ¿son como la lengua escrita? Antes de ser capaces de leerlos ¿es necesario aprender su vocabulario, su gramática, su sintaxis? Eso es lo que sugieren libros como Reading in the Brain, del neurocientífico francés Stanislas Dehaene, que relacionan nuestra capacidad de lectura con la habilidad innata de extraer patrones visuales de lo que nos rodea…

SC- Exacto. Una buena analogía.

AC – ¿Durante la interpretación de gráficos simbólicos y estadísticos usamos las mismas áreas cerebrales en las que reside la capacidad de lectura de textos?

SC- Excelente pregunta. No creo que nadie se la haya hecho hasta hoy. Puede ser una interesante línea de investigación.

AC – En sus libros define ocho principios para la correcta presentación visual de contenidos, agrupados en tres categorías. La primera de ellas es «conozca a su audiencia»…

SC- Sí. En esa categoría entran los dos principios más importantes, de los que depende el resto. El primero de ellos es el principio de «relevancia», que quiere decir que un gráfico debe contener sólo la cantidad de información necesaria para defender un argumento o contar una historia, ni más, ni menos. En realidad, el principio es aplicable tanto a gráficos como a textos: antes de comenzar a trabajar, uno debe plantearse qué es lo que quiere decir.

El segundo, el principio de «conocimiento apropiado», establece que debemos usar códigos que nuestra audiencia entienda de antemano. Es aceptable utilizar gráficos innovadores, pero siempre teniendo cuidado de incluir pistas y explicaciones para que el lector no se pierda. Ocurre algo parecido con el texto: no escribimos de la misma manera para audiencias especializadas que para un público amplio.

AC – Sin embargo, no todos los gráficos que vemos en los medios hoy en día tienen un mensaje concreto. Algunos de ellos (y estoy pensando en uno de The New York Times, con los principales datos del Censo), no plantean preguntas y luego las responden para los lectores, sino que cada lector tiene la libertad de navegarlos, interactuar con ellos, etc. De alguna forma, el usuario se transforma en editor. ¿Respetan este tipo de gráficos los principios de «relevancia» y de «conocimiento apropiado»?

SC- Todo depende de los objetivos. Esas herramientas son bases de datos, no gráficos propiamente dichos. Pero, incluso en ellos, el diseñador toma decisiones sobre lo que incluir y lo que no, y sobre cómo hacerlo. Así que ambos principios son aplicables: el diseñador debe tener una idea del tipo de cuestiones que los usuarios van a desear responder, y elegir los datos y programar la interfaz conforme a ellas. De todas maneras, intuyo que esos gráficos son tan abrumadores que la mayor parte de los lectores no les presta atención.

AC – Uno de sus intereses es la forma en que el cerebro genera y manipula imágenes mentales. Sin embargo, psicólogos y filósofos como Zenon Pylyshyn y Jerry Fodor rechazan la idea de que tengamos imágenes en la mente y defienden que nuestro pensamiento es totalmente proposicional, verbal, que razonamos usando solo palabras. ¿Por qué esta noción es tan polémica, cuando la experiencia de «ver» imágenes en la mente es común ? ¿Tiene que ver con el rechazo de tantos académicos y pensadores por lo visual en general, en favor de lo textual ?

SC- Los motivos para negar que muchos seres humanos experimentan ciertos patrones de activación neuronal como imágenes y que usan esas imágenes como herramientas para razonar son abundantes. Algunos de ellos tienen raíces históricas, que se remontan a John Locke y los empiristas.

Otros son más recientes. Hay quien piensa que las imágenes son una forma menos sofisticada de representación que el lenguaje. Basan esa idea equivocada en que los niños aprenden primero a dibujar y, más tarde, a escribir, así que deducen que manipulamos imágenes solo antes de conocer la forma «correcta» de razonar y comunicarnos, el lenguaje hablado y escrito. Es absurdo, por supuesto.

Alberto Cairo (Twitter: @albertocairo) es director de infografía y multimedia de la revista Época (Editora Globo, Brasil)

Hans Rosling representa el crecimiento de la población mundial con una técnica revolucionaria

Posted on 6 octubre, 2011 por erodriguezgar

Responder

En los próximos 50 años, la población mundial llegará a los 9.000 millones de habitantes. Sólo elevando el nivel de vida de los más pobres podremos controlar el crecimiento poblacional.

Una reflexión que Hans Rosling desarrolla mediante una colorida nueva tecnología de visualización de datos ;).

DataNauta

Smart Data Analyst

Archivo de la categoría: Estadística

Y eso de la estadística… ¿¿Te gusta??

Análisis con R. Gráficos con ggplot2

Primeros pasos con KNIME

Interpreta hasta 6 variables con Tableau

Visualización de Información. Herramientas

O’Reilly | Building Data Science Teams

Is data the new oil ?

Lisa Randall | La creatividad es tan determinante en matemáticas como en poesía

Stephen M. Kosslyn | Las facultades de Periodismo y Diseño deberían enseñar Psicología Cognitiva (por @albertocairo)

Hans Rosling representa el crecimiento de la población mundial con una técnica revolucionaria