Posts Tagged ‘cluster’

Una consulta estadística multivariable: tipologías

Wednesday, January 27th, 2010

De vez en cuando, me llegan algunos mails de estudiantes que me preguntan por algún tema en particular. Normalmente de estadística.

Como dedico bastante tiempo a responderles, creo que es mejor hacerlo sobre el blog en lugar de en un mail privado, porque puede ser interesante también para otros lectores.

En este caso, una estudiante me pregunta sobre el uso en la práctica de el análisis factorial y el cluster. No reproduciré su pregunta, puesto que es un mensaje privado, pero sí la respuesta.

De todas formas, ya escribí algo sobre el tema en: http://www.investigacionymarketing.com/2008/12/tipologias-consumudor-validacion-estadistica-analisis-factorial/

——

En primer, antes de pasar al análisis multivariable (entre los que se cuentan las técnicas de análisis factorial y cluster), conviene explotar suficientemente el análisis bi-variable con tablas de contingencia (que también permite convinar tres variables) y con correlaciones.

La distribución de frecuencias nos permite hacer un análisis descriptivo preliminar, para saber ‘de qué va nuestra muestra’, pero para sacarle algún sentido tenemos que combinar variables. Por ejemplo, el 30% responde que ’si’ a la pregunta: “sigo las noticias de política”, pero ese 30%… ¿son hombres o son mujeres? ¿son mayores o jóvenes? ¿ganan mucho o poco?. O dicho de otra manera, ¿quién sigue más la política, los hombres o las mujeres? ¿o no hay ninguna diferencia significativa entre hombres y mujeres?

Hay dos formas especialmente útiles de relacionar variables: las correlaciones y las tablas de contingencia.

- La primera es más abstracta y más general, nos dan un indicador de correlación. sirve para cuando no sabemos por donde van los tiros y queremos correlacionar muchas variables de una sola vez. Muchas vaiables pero de dos en dos. Lo único que tenemos que tener en cuenta es la naturaleza de las variables, si son nominales, ordinales o de escala, para seleccionar la medida de correlación pertinente.

-La segunda es más ‘fina’, ya que nos da la correlación por cada uno de los valores de cada una de las variables. A veces hay que recodificar las variables para que las tablas de contingencia tengan sentido. Por ejemplo, en edad tenemos los años, pero hay que hacer grupos de edad. Así tendremos que sólo el 5% de los menores de 25 años sigue la política, mientras que entre los de 25 y 35 son el 10%, y entre los de 35-45 son el 20%… etc. Por supuesto, cada tabla viene acompañada de sus medidas de correlación y la significación.

Sólo con correlaciones y tablas de contingencia podemos hacer una explotación más que decente de los datos, y sacar conclusiones de lo más útiles.

—-

Ahora el multivariable:

La explotación anterior nos servirá para determinar qué queremos hacer con el multivariable. El factorial agrupa variables por afinidad (correlación), dandonos grupos de variables. En principio, tienen que ser variables de escala, aunque a veces se incluyen también ordinales y nominales (es un error técnico, pero a veces puede estar justificado por las necesidades del análisis y por una fuerte correlacion).

Siempre hay que hacer la rotación, la varimax es la más corriente. La verdad, no soy un experto en las diferentes modalidades de rotación. Hay que tener en cuenta ‘el sentido’ de los factores y aquellos que saturan en positivo o en negativo. También conviene hacer varias pruebas, seleccionar diferentes grupos de variables, quitar las que no saturan bien, las que no dan sentido al conjunto, etc.

El coeficiente de esfericidad es el que nos dice lo ajustada que está la relación factorial. A partir de 0,6 puede valer, aunque lo mejor es pasar de 0,7.

También podemos ‘jugar’ con el número de factores. Por defecto el programa te da aquellos que ‘explican la variaza’ en un porcentaje suficiente, pero puedes seleccionarlo para sacar más o menos, si consideras que así los factores cuadran más con tu teoria o tu explicación.

No hay nada de malo en ‘manipular’ la construcción del factorial. De hecho, la estadística multivariable es una ‘construcción’, una ‘creación’ que se logra combinando variables. La parte ‘científica’ del asunto es el resultado de la combinación, es decir, es ‘lo que los datos te dicen’. En cierto sentido, es como ‘hablar’ con los datos. Tu les combinas y ellos te responden (el leísmo es intencionado).

La conexión con el cluster:

El cluster lo que hace es agrupar ‘casos’, mientras que el factorial agrupa variables. Algunos investigadores seleccionan las variables que definen la agrupación de casos ellos mismos, pero en la mayoría de los casos lo que conviene es que ‘hablar con los datos’ para acordar con ellos cómo se quieren agrupar, es decir, hacer un factorial.  (El tono místico es para motivarse: si no sientes que lo que haces te gusta, es mejor dedicarse a otra cosa).

Cuando haces el análisis factorial hay una opción de crear una variable nueva que aplica a cada caso un valor en cuanto a su relación con el factorial. Luego, el cluster se hace sobre esta variable, con lo que a cada ‘caso’ de la encuesta se le asigna un grupo. Hay que definir previamente el número de grupos, normalmente tantos como factores. También se puede incluir en el cluster alguna variable nominal que haya quedado fuera del factorial pero que consideremos importante, como el sexo.

Así obtenemos la tipología. Porque no sé si ha quedado claro, pero la combinación factorial-cluster se hace para obtener una tipología. En la práctica estadística, la tipología consiste en otra nueva variable que da un número a cada caso, el número del grupo al que pertenece.

Luego volvemos a relacionar esa nueva variable con las variables que hemos usado para el factorial: edad, gustos, hábitos, etc. Ya sea con distribución de medias, correlaciones o tablas de contingencia. Así sabremos las características de cada grupo. Y en función de estas características nombramos al grupo.

—-

Conclusión.

Espero haber aclarado un poco la cuestión. Pero por si acaso, voy a concluir con dos consejos que a mí me han servido de mucho.

El primero, hacer muchas pruebas. El método científico de prueba y error nunca pasará de moda. Así que preparate para sacar varios factoriales, y crear muchas variables diferentes. Sólo tienes que tener cuidado de no liarte cuando lo haces, porque obtendrás muchos resultados diferentes.

Segundo y mucho más importante: Hazte con un libro en el que se exponga un estudio estadístico real, y hazte si puedes con los microdatos del estudio (la matriz). Y sigue el estudio paso a paso, probando a obtener por tí mismo/a los resultados que aparecen publicados en el libro.

En mi caso, escogí un estudio de Andres Canteras Murillo sobre Creencias y valores en los jóvenes, que sigue un barómetro del CIS, que pude encontrar en los ordenadores de mi facultad. En realidad, así es como aprendí a hacer tipologías.