Archive for the ‘metodología estadística’ Category

Una consulta estadística multivariable: tipologías

Wednesday, January 27th, 2010

De vez en cuando, me llegan algunos mails de estudiantes que me preguntan por algún tema en particular. Normalmente de estadística.

Como dedico bastante tiempo a responderles, creo que es mejor hacerlo sobre el blog en lugar de en un mail privado, porque puede ser interesante también para otros lectores.

En este caso, una estudiante me pregunta sobre el uso en la práctica de el análisis factorial y el cluster. No reproduciré su pregunta, puesto que es un mensaje privado, pero sí la respuesta.

De todas formas, ya escribí algo sobre el tema en: http://www.investigacionymarketing.com/2008/12/tipologias-consumudor-validacion-estadistica-analisis-factorial/

——

En primer, antes de pasar al análisis multivariable (entre los que se cuentan las técnicas de análisis factorial y cluster), conviene explotar suficientemente el análisis bi-variable con tablas de contingencia (que también permite convinar tres variables) y con correlaciones.

La distribución de frecuencias nos permite hacer un análisis descriptivo preliminar, para saber ‘de qué va nuestra muestra’, pero para sacarle algún sentido tenemos que combinar variables. Por ejemplo, el 30% responde que ’si’ a la pregunta: “sigo las noticias de política”, pero ese 30%… ¿son hombres o son mujeres? ¿son mayores o jóvenes? ¿ganan mucho o poco?. O dicho de otra manera, ¿quién sigue más la política, los hombres o las mujeres? ¿o no hay ninguna diferencia significativa entre hombres y mujeres?

Hay dos formas especialmente útiles de relacionar variables: las correlaciones y las tablas de contingencia.

- La primera es más abstracta y más general, nos dan un indicador de correlación. sirve para cuando no sabemos por donde van los tiros y queremos correlacionar muchas variables de una sola vez. Muchas vaiables pero de dos en dos. Lo único que tenemos que tener en cuenta es la naturaleza de las variables, si son nominales, ordinales o de escala, para seleccionar la medida de correlación pertinente.

-La segunda es más ‘fina’, ya que nos da la correlación por cada uno de los valores de cada una de las variables. A veces hay que recodificar las variables para que las tablas de contingencia tengan sentido. Por ejemplo, en edad tenemos los años, pero hay que hacer grupos de edad. Así tendremos que sólo el 5% de los menores de 25 años sigue la política, mientras que entre los de 25 y 35 son el 10%, y entre los de 35-45 son el 20%… etc. Por supuesto, cada tabla viene acompañada de sus medidas de correlación y la significación.

Sólo con correlaciones y tablas de contingencia podemos hacer una explotación más que decente de los datos, y sacar conclusiones de lo más útiles.

—-

Ahora el multivariable:

La explotación anterior nos servirá para determinar qué queremos hacer con el multivariable. El factorial agrupa variables por afinidad (correlación), dandonos grupos de variables. En principio, tienen que ser variables de escala, aunque a veces se incluyen también ordinales y nominales (es un error técnico, pero a veces puede estar justificado por las necesidades del análisis y por una fuerte correlacion).

Siempre hay que hacer la rotación, la varimax es la más corriente. La verdad, no soy un experto en las diferentes modalidades de rotación. Hay que tener en cuenta ‘el sentido’ de los factores y aquellos que saturan en positivo o en negativo. También conviene hacer varias pruebas, seleccionar diferentes grupos de variables, quitar las que no saturan bien, las que no dan sentido al conjunto, etc.

El coeficiente de esfericidad es el que nos dice lo ajustada que está la relación factorial. A partir de 0,6 puede valer, aunque lo mejor es pasar de 0,7.

También podemos ‘jugar’ con el número de factores. Por defecto el programa te da aquellos que ‘explican la variaza’ en un porcentaje suficiente, pero puedes seleccionarlo para sacar más o menos, si consideras que así los factores cuadran más con tu teoria o tu explicación.

No hay nada de malo en ‘manipular’ la construcción del factorial. De hecho, la estadística multivariable es una ‘construcción’, una ‘creación’ que se logra combinando variables. La parte ‘científica’ del asunto es el resultado de la combinación, es decir, es ‘lo que los datos te dicen’. En cierto sentido, es como ‘hablar’ con los datos. Tu les combinas y ellos te responden (el leísmo es intencionado).

La conexión con el cluster:

El cluster lo que hace es agrupar ‘casos’, mientras que el factorial agrupa variables. Algunos investigadores seleccionan las variables que definen la agrupación de casos ellos mismos, pero en la mayoría de los casos lo que conviene es que ‘hablar con los datos’ para acordar con ellos cómo se quieren agrupar, es decir, hacer un factorial.  (El tono místico es para motivarse: si no sientes que lo que haces te gusta, es mejor dedicarse a otra cosa).

Cuando haces el análisis factorial hay una opción de crear una variable nueva que aplica a cada caso un valor en cuanto a su relación con el factorial. Luego, el cluster se hace sobre esta variable, con lo que a cada ‘caso’ de la encuesta se le asigna un grupo. Hay que definir previamente el número de grupos, normalmente tantos como factores. También se puede incluir en el cluster alguna variable nominal que haya quedado fuera del factorial pero que consideremos importante, como el sexo.

Así obtenemos la tipología. Porque no sé si ha quedado claro, pero la combinación factorial-cluster se hace para obtener una tipología. En la práctica estadística, la tipología consiste en otra nueva variable que da un número a cada caso, el número del grupo al que pertenece.

Luego volvemos a relacionar esa nueva variable con las variables que hemos usado para el factorial: edad, gustos, hábitos, etc. Ya sea con distribución de medias, correlaciones o tablas de contingencia. Así sabremos las características de cada grupo. Y en función de estas características nombramos al grupo.

—-

Conclusión.

Espero haber aclarado un poco la cuestión. Pero por si acaso, voy a concluir con dos consejos que a mí me han servido de mucho.

El primero, hacer muchas pruebas. El método científico de prueba y error nunca pasará de moda. Así que preparate para sacar varios factoriales, y crear muchas variables diferentes. Sólo tienes que tener cuidado de no liarte cuando lo haces, porque obtendrás muchos resultados diferentes.

Segundo y mucho más importante: Hazte con un libro en el que se exponga un estudio estadístico real, y hazte si puedes con los microdatos del estudio (la matriz). Y sigue el estudio paso a paso, probando a obtener por tí mismo/a los resultados que aparecen publicados en el libro.

En mi caso, escogí un estudio de Andres Canteras Murillo sobre Creencias y valores en los jóvenes, que sigue un barómetro del CIS, que pude encontrar en los ordenadores de mi facultad. En realidad, así es como aprendí a hacer tipologías.

Cómo hacer un cuestionario de marketing, parte 1

Friday, October 30th, 2009

Cualquier diseño de investigación comienza con un planteamiento de los objetivos de investigación. Además de las cuestiones prácticas, como tiempo, presupuesto, personal, etc.

Los objetivos vienen dados en gran parte por el cliente, pero tenemos que adaptarlos y concretarlos para poder diseñar mejor nuestra investigación. En cualquier caso, el objetivo común de cualquier investigación es conocer mejor al consumidor. En este sentido es muy importante considerar cual es la amplitud del target:

  • Target muy amplio: En ocasiones el target es muy aplio, por ejemplo: “consumidores de vino”     “usuarios de internet”
  • Target intermedio: Hemos definido un segmento dentro del gran grupo de consumidores. Por ejemplo: “jóvenes consumidores de vino”, o incluso “mujeres jóvenes consumidoras de vino”.
  • Target concentrado: Son los casos en los que el target está muy definido. Por ejemplo, “personas mayores consumidoras de la marca X”, o “diseñadores gráficos en España”.

Cuanto más definido esté el target más sencillo será profundizar en las características y el comportamiento de estos consumidores. Sin embargo, necesitaremos un trabajo previo de documentación o investigación cualitativa para conocer mejor a este target antes del diseño del cuestionario.

Si el target es amplio o intermedio, nuestro cuestionario tiene que incluir preguntas que los segmenten: el éxito de cualquier campaña de marketing depende de una correcta segmentación de los consumidores. Los gustos y el comportamiento de los consumidores se guían por diferentes tipos de patrones.

Cuestiones que hay que incluir en un cuestionario de marketing:

  • Datos sociodemográficos: sexo, edad y nivel de rento son los criterios fundamentales para diferenciar a los consumidores.
  • Nivel de consumo y nivel de gasto. Es fundamental para entender la importancia y potencialidad de cualquier consumidor.
  • Hábitos de consumo: frecuencia de consumo y situaciones en las que consume. Esto no sólo segmenta, sino que además describe las características del segmento.
  • Tendencias y gustos: esta es la parte más creativa del cuestionario, ya que preguntamos directamente por la opinión del consumidor, sus gustos y las tendencias que más valora.

Formas de incluir y organizar estas preguntas en nuestro cuestionario de marketing:

Los datos sociodemográficos se pueden incluir al principio del cuestionario. Sin embargo, si vamos a preguntar otros datos más personales, como tipo de hogar o si tiene hijos, renta, estudios, profesión, etc. es mejor incluir estos datos al final, puesto que pueden crear cierto rechazo en el encuestado y es más fácil hacerlas cuando ya se ha establecido relación.

Batería de preguntas de consumo: Son las clásicas preguntas de la encuesta de consumo. Tienen que ser muy sencillas y claras. El nivel de consumo o frecuencia de consumo es una buena forma de entrar en materia. Éstas pueden ser preguntas de corte, en el caso de que en realidad no sea consumidor de aquello que queramos encuestar. Las preguntas tipo escala likert son muy útiles en este caso, ya que nos dan un buen baremo para medir los diferentes hábitos de consumo. Además, este tipo de preguntas son muy útiles para realizar luego un análisis factorial y una segmentación estadística.

Por ejemplo:

- Ahora le voy a nombrar una serie de productos para que usted me diga con qué frecuencia los consume: (0 nunca, 1 una vez al mes, 2 una vez a la semana, 3 dos o más veces a la semana, 4 todos los dias). Y se pone la lista de productos.

La escala likert es muy útil a la hora de realizar el análisis, sin embargo, puede resultar un poco pesada de encuestar. Así que se puede sustituir por preguntas múltiples. Por ejemplo, ¿qué tipo de uso suele dar a este servicio? Y se enumeran los tipos de usos considerados para que marque los que le parezca. En la práctica, tienen la misma forma que una escala likert (una respuesta por item) pero con la información reducida a Si/No. Si no consideramos que la importancia de la pregunta requiera el likert, podemos agilizar el cuestionario de esta forma.

En cuanto a las tendencias y gustos, se puede recurrir también a la escala likert de valoración de productos o marcas, ya sea del producto en general o de diferentes aspectos del producto. Por ejemplo, como valoraría X producto en función de su calidad, en función de su precio, en función de su presentación, etc. etc.

Además, hay otro tipo de preguntas más creativas en cuanto a tendencias y gustos, suelen ser preguntas de asociación. Por ejemplo, asociar productos o marcas con personajes famosos, o asociar marcas con situaciones de consumo o viceversa, asociar marcas con imágenes, o marcas o otras marcas, etc, etc.

Por último, suele ser interesante incluir preguntas sobre frenos al consumo. Es necesario indagar qué obstáculos encuentra nuestra marca o producto para los consumidores, qué fallos le ven, etc.

Para cualquier duda o pregunta sobre este tema, escribir un comentario abajo.

Liberación de datos brutos

Tuesday, September 1st, 2009

Este post surge a raíz de una noticia que leído recientemente:

The Cocktail Analysis liberará los datos brutos de sus estudios internos

Se trata de una iniciativa pionera cuyo objetivo es favorecer el desarrollo del conocimiento, en línea con la filosofía de las web 2.0.

He estado buscando microdatos de investigación para poder alimentar este blog con análisis reales. No lo había conseguido hasta ahora. Lo cierto es que tan sólo he podido acceder a los microdatos del CIS (que se cobran o se ‘copian’ de las universidades), pero nada relacionado con la investigación de una empresa privada.

Se trata de una gran idea, de gran utilidad para la comunidad de investigadores y que además demuestra también una gran valentía y seguridad en su propio trabajo por parte del instituto que publica los datos. Porque así, cualquier puede seguir el informe y rastrear el desarrollo de cada dato. Cualquier error puede quedar al descubierto. Sin embargo, es una gran muestra de valía profesional.

A ver si otros institutos siguen el ejemplo, ayudando a desarrollar el conocimiento y la buena praxis investigadora. Por mi parte, me comprometo a publicar microdatos si realizo algún trabajo por mi cuenta.

Mientras tanto, me esforzaré en intentar sacar partido de los datos!

Muchas Gracias The Cocktail Analysis!

Tipologías de consumidor: Validación estadística

Tuesday, December 2nd, 2008

Tengo que reconocer que este blog de Investigación y Marketing es por ahora más de investigación que de marketing… Iba a escribir sobre la función de la investigación en el marketing, y porqué es importante y cómo creo que se debe usar, sin embargo me resultan más interesantes los pormenores de la investigación. Especialmente en el tema que nos ocupa últimamente: la construcción de tipologías.

Nos centramos en la investigacion cuantitativa que se sirve del uso de cuestionarios para estudiar las características, gustos y tendencias de la población. La cualitativa es igualmente interesante, especialmente para buscar nuevas ideas y perspectivas de acercamiento a las cuestiones que queremos resolver. Pero es la cuantitativa la que nos da la medida, y la herramienta de medida a través de las leyes de la estadística.

No obstante, lo cualitavo siempre precede… por ejemplo, para construir el cuestionario tenemos que reflexionar, preguntar a la gente, etc. y eso es un ejercicio cualitativo (con o sin metodología explícita).

Bien. Primero hay que partir de un cuestionario diseñado del mejor modo posible, preguntando todo aquello que nos pueda interesar, y por supuesto, su correspondiente matriz de respuestas de los encuestados.

Para tipologías y validaciones necesitaremos una muestra amplia, cuanto más amplia mejor. El análisis multivariable siempre requiere una muestra amplia para obtener mayor fiabilidad. Aunque si tenemos pocos casos (unos 200 o 400) podremos hacer igualmente una aproximación general: con poca exactitud, pero válida dentro de su nivel de confianza. Las muestras bien tomadas son muy agradecidas.

Entonces, recogemos las variables que nos interesa introducir en la tipología. Antes, las correlacionamos a ver que tal, para hacernos una idea de cuales tienen algo que ver entre sí. Y hacemos con esas variables un Análisis Factorial (con un paquete estadístico, tipo SPSS).

El Analisis Factorial es un concepto difícil de entender (y casi imposible de explicar), pero consiste en algo así como una intercorrelación cruzada entre muchas variables a la vez para hacer grupos con ellas, asociando las que más correlacionan entre sí. Por ejemplo, partimos de 10 variables. Y con el AF las agrupamos en 3 factores (4 variables en una, 3 en otra y 3 en otra). Eso quiere decir que esas 4 variables están muy relacionadas entre sí, y que cuando una varía, lo hacen también las demás. Por ejemplo: ‘peso’ y ‘edad’ correlacionan mucho en una muestra de niños de entre 5 y 15 años, ¿no? Pues esas irían juntas, y ‘calificación’ y ‘horas de estudio’ por ejemplo, irían en otro factor.

Para colmo, el Análisis factorial nos da varias opciones que podemos modificar a voluntad. Por ejemplo, número de factores que queremos sacar, etc. Así que no es una operación que nos ayude a ‘descubrir’ algo preexistente e inequívoco, sino que nos ayuda a ‘construirlo’ conforme a los criterios de consistencia y verosimilitud.

Otra opción muy importante es la rotación de los factores en el AF. Es un paso muy interesante, por medio del cual se busca la mejor interrelación entre las variables. Al final, en lo que consiste el Análisis Factorial es en definir la mejor hipótesis sobre cual es la estructura subyacente de las variables, y no en ‘descubrir’ cual es esta estructura. Esa es la magia performativa de la estadística que sólo los statistics-nerds aprecian!

Ok. El resultado tiene que tener un sentido interpretable. Los factores, la agrupación de variables, tiene que tener una lógica que podamos entender e interpretar. Así, le damos un nombre a cada factor. Por ejemplo, en la tipología Datavin de consumidoras de vino, un factor era: “grado de conocimiento de vino” y estaba compuesto por las variables que respondían a las pregunas: ¿Conoce diferentes tipos de uva? ¿Sabe cómo se hace el vino rosado?, y otras por el estilo.

Hay un valor que nos dice la validez estadística que tiene el AF, pero no nos entretendremos ahora con eso… sólo queremos mostrar cual es el concepto de la operación.

Sólo con eso ya tenemos un gran paso dado. Así podemos validar cuestionarios para medir ciertas tendencias en las personas. Eso se hace mucho en psicología. Técnicamente, los cuestionarios que te dicen ‘cómo eres’ tienen que estar validados así para tener alguna fiabilidad mínima (=estadística, la conceptual ya es otra cosa: depende del enfoque inicial y la interpretación de los valores).

Asi que ahora, para seguir con nuestra tipología, tenemos que hacer un Análisis Clúster: consiste en comparar dónde está cada sujeto (=caso, cuestionario, persona) con respecto a los factores (es decir, las variables que los forman tomadas en conjunto) y agruparlos entre sí. De esta forma, tenemos que el 30% de los sujetos siguen un patrón más o menos determinado con respecto a los factores: puntuan muy alto en uno, muy bajo en otro, y normal en el tercero, por ejemplo. Otro 20% puntúa de otra forma, el 10% sigue otro patrón, etc. Asi hacemos los grupos y valoramos su importancia. También en el Análisis Clúster podemos obtener diferentes grado de ajuste.

Es un proceso complejo, ¿verdad? Pues es así como se construyen las tipologías que vemos en estudios de marketing y en las noticias. Sin los programas estadísticos sería prácticamente imposible lograrlo, pero incluso con ellos, es preciso un buen diseño del cuestionario, un muestreo correcto, y un exhaustivo trabajo de prueba y error en la construcción del modelo, y una buena articulación entre creatividad y capacidad analítica.

Para más información…

preguntar o postear el mail (luego lo quito).