Archive for the ‘estadística’ Category

Análisis estadístico 1: Segmentar categorías

Saturday, August 29th, 2009

Una de las primeras operaciones que debemos hacer cuando comenzamos a analizar la base de datos de una encuesta es reorganizar los datos. Para poder presentar los resultados y facilitar el cruce de variables tenemos que agrupar los valores de las variables escalares “naturales”. Por ejemplo, en edad nos conviene recoger el número exacto de años del encuestado en un primer momento, y luego construir los grupos de edad como nos convenga.

Uno de los problemas que nos encontrarmos más frecuentemente es donde hacer ‘los cortes’ que delimitan un grupo de otro. La mayoría de las veces es muy importante que las categorías tengan el mismo número de valores, es decir, grupos cada 5 o 10 años, cada 1.000 €, cada 100 visitas, etc. Salvo en los grupos límite, los de “más de 65 años” o  “menos de 1.000€ al mes”

Una distribución de frecuencias también nos ayudará bastante, dándonos una idea de cómo quedará la distribución de datos con las nuevas categorías. Así, por ejemplo, si de 20 a 30 años tenemos el 50% de los casos, y por encima de 40 años sólo hay un 5%, igual nos conviene hacer grupos de 5 añosy agrupar a todos los de más de 40 años en un solo grupo (aunque incluyamos ahí a gente de 52, 61, 79, 45, etc).

Tampoco debe darnos reparo hacer varias categorizaciones, según diferentes intereses o simplemente para hacer pruebas. Podemos hacer una categoría de grupos de edad quinquenales y otra decenales, y luego al probar correlaciones metemos los dos y vemos cúal se comporta mejor. O podemos crear una variable ‘operativa’ y otra ‘descriptiva’: la primera enfocada para servirnos en el análisis y la segunda para dar una descripción (sólo para un gráfico). Por ejemplo, si un 0,5% de los casos son menores de edad eso es interesante para poner en el gráfico de presentación de edades, pero no es operativo de cara al análisis tener un grupo que representa sólo al 0,5% de los casos. Será mejor aislarlo y hacer un perfil separado para ese subgrupo si es que nos interesa.

Por último, hay un detalle que hay que cuidar: se trata de expresar correctamente los puntos de corte. Por ejemplo, no repitiendo números (de 10 a 20, de 20 a 30: se repite el 20 en dos grupos…). Esto nos lleva a otra duda que parece sin importancia, pero puede dar más de un quebradero de cabeza: ¿acabo las decenas en 9 o las empiezo en 1? El CIS y el INE acaban en 9 y aunque esta respuesta puede parecer aleatoria, no lo es: hay que contar también el 0, así que las decenas acaban en 9 y empiezan en 0. Esta es la regla del 9.

Más allá de las categorías, un pequeño consejo sobre el análisis cuantitativo: no hay que dar nada por sentado, hay que probarlo todo. Partimos de una gran matriz de números y con la ayuda de una motor de análisis estadístico tenemos que darle forma y sentido a la maraña de datos. El programa nunca se cansa de trabajar, así que prueba de todo hasta descubrir inter-relaciones interesantes, no te conformes con describir!