Posts Tagged ‘cuantitativa’

Análisis estadístico 1: Segmentar categorías

Saturday, August 29th, 2009

Una de las primeras operaciones que debemos hacer cuando comenzamos a analizar la base de datos de una encuesta es reorganizar los datos. Para poder presentar los resultados y facilitar el cruce de variables tenemos que agrupar los valores de las variables escalares “naturales”. Por ejemplo, en edad nos conviene recoger el número exacto de años del encuestado en un primer momento, y luego construir los grupos de edad como nos convenga.

Uno de los problemas que nos encontrarmos más frecuentemente es donde hacer ‘los cortes’ que delimitan un grupo de otro. La mayoría de las veces es muy importante que las categorías tengan el mismo número de valores, es decir, grupos cada 5 o 10 años, cada 1.000 €, cada 100 visitas, etc. Salvo en los grupos límite, los de “más de 65 años” o  “menos de 1.000€ al mes”

Una distribución de frecuencias también nos ayudará bastante, dándonos una idea de cómo quedará la distribución de datos con las nuevas categorías. Así, por ejemplo, si de 20 a 30 años tenemos el 50% de los casos, y por encima de 40 años sólo hay un 5%, igual nos conviene hacer grupos de 5 añosy agrupar a todos los de más de 40 años en un solo grupo (aunque incluyamos ahí a gente de 52, 61, 79, 45, etc).

Tampoco debe darnos reparo hacer varias categorizaciones, según diferentes intereses o simplemente para hacer pruebas. Podemos hacer una categoría de grupos de edad quinquenales y otra decenales, y luego al probar correlaciones metemos los dos y vemos cúal se comporta mejor. O podemos crear una variable ‘operativa’ y otra ‘descriptiva’: la primera enfocada para servirnos en el análisis y la segunda para dar una descripción (sólo para un gráfico). Por ejemplo, si un 0,5% de los casos son menores de edad eso es interesante para poner en el gráfico de presentación de edades, pero no es operativo de cara al análisis tener un grupo que representa sólo al 0,5% de los casos. Será mejor aislarlo y hacer un perfil separado para ese subgrupo si es que nos interesa.

Por último, hay un detalle que hay que cuidar: se trata de expresar correctamente los puntos de corte. Por ejemplo, no repitiendo números (de 10 a 20, de 20 a 30: se repite el 20 en dos grupos…). Esto nos lleva a otra duda que parece sin importancia, pero puede dar más de un quebradero de cabeza: ¿acabo las decenas en 9 o las empiezo en 1? El CIS y el INE acaban en 9 y aunque esta respuesta puede parecer aleatoria, no lo es: hay que contar también el 0, así que las decenas acaban en 9 y empiezan en 0. Esta es la regla del 9.

Más allá de las categorías, un pequeño consejo sobre el análisis cuantitativo: no hay que dar nada por sentado, hay que probarlo todo. Partimos de una gran matriz de números y con la ayuda de una motor de análisis estadístico tenemos que darle forma y sentido a la maraña de datos. El programa nunca se cansa de trabajar, así que prueba de todo hasta descubrir inter-relaciones interesantes, no te conformes con describir!

Tipologías de consumidor: Validación estadística

Tuesday, December 2nd, 2008

Tengo que reconocer que este blog de Investigación y Marketing es por ahora más de investigación que de marketing… Iba a escribir sobre la función de la investigación en el marketing, y porqué es importante y cómo creo que se debe usar, sin embargo me resultan más interesantes los pormenores de la investigación. Especialmente en el tema que nos ocupa últimamente: la construcción de tipologías.

Nos centramos en la investigacion cuantitativa que se sirve del uso de cuestionarios para estudiar las características, gustos y tendencias de la población. La cualitativa es igualmente interesante, especialmente para buscar nuevas ideas y perspectivas de acercamiento a las cuestiones que queremos resolver. Pero es la cuantitativa la que nos da la medida, y la herramienta de medida a través de las leyes de la estadística.

No obstante, lo cualitavo siempre precede… por ejemplo, para construir el cuestionario tenemos que reflexionar, preguntar a la gente, etc. y eso es un ejercicio cualitativo (con o sin metodología explícita).

Bien. Primero hay que partir de un cuestionario diseñado del mejor modo posible, preguntando todo aquello que nos pueda interesar, y por supuesto, su correspondiente matriz de respuestas de los encuestados.

Para tipologías y validaciones necesitaremos una muestra amplia, cuanto más amplia mejor. El análisis multivariable siempre requiere una muestra amplia para obtener mayor fiabilidad. Aunque si tenemos pocos casos (unos 200 o 400) podremos hacer igualmente una aproximación general: con poca exactitud, pero válida dentro de su nivel de confianza. Las muestras bien tomadas son muy agradecidas.

Entonces, recogemos las variables que nos interesa introducir en la tipología. Antes, las correlacionamos a ver que tal, para hacernos una idea de cuales tienen algo que ver entre sí. Y hacemos con esas variables un Análisis Factorial (con un paquete estadístico, tipo SPSS).

El Analisis Factorial es un concepto difícil de entender (y casi imposible de explicar), pero consiste en algo así como una intercorrelación cruzada entre muchas variables a la vez para hacer grupos con ellas, asociando las que más correlacionan entre sí. Por ejemplo, partimos de 10 variables. Y con el AF las agrupamos en 3 factores (4 variables en una, 3 en otra y 3 en otra). Eso quiere decir que esas 4 variables están muy relacionadas entre sí, y que cuando una varía, lo hacen también las demás. Por ejemplo: ‘peso’ y ‘edad’ correlacionan mucho en una muestra de niños de entre 5 y 15 años, ¿no? Pues esas irían juntas, y ‘calificación’ y ‘horas de estudio’ por ejemplo, irían en otro factor.

Para colmo, el Análisis factorial nos da varias opciones que podemos modificar a voluntad. Por ejemplo, número de factores que queremos sacar, etc. Así que no es una operación que nos ayude a ‘descubrir’ algo preexistente e inequívoco, sino que nos ayuda a ‘construirlo’ conforme a los criterios de consistencia y verosimilitud.

Otra opción muy importante es la rotación de los factores en el AF. Es un paso muy interesante, por medio del cual se busca la mejor interrelación entre las variables. Al final, en lo que consiste el Análisis Factorial es en definir la mejor hipótesis sobre cual es la estructura subyacente de las variables, y no en ‘descubrir’ cual es esta estructura. Esa es la magia performativa de la estadística que sólo los statistics-nerds aprecian!

Ok. El resultado tiene que tener un sentido interpretable. Los factores, la agrupación de variables, tiene que tener una lógica que podamos entender e interpretar. Así, le damos un nombre a cada factor. Por ejemplo, en la tipología Datavin de consumidoras de vino, un factor era: “grado de conocimiento de vino” y estaba compuesto por las variables que respondían a las pregunas: ¿Conoce diferentes tipos de uva? ¿Sabe cómo se hace el vino rosado?, y otras por el estilo.

Hay un valor que nos dice la validez estadística que tiene el AF, pero no nos entretendremos ahora con eso… sólo queremos mostrar cual es el concepto de la operación.

Sólo con eso ya tenemos un gran paso dado. Así podemos validar cuestionarios para medir ciertas tendencias en las personas. Eso se hace mucho en psicología. Técnicamente, los cuestionarios que te dicen ‘cómo eres’ tienen que estar validados así para tener alguna fiabilidad mínima (=estadística, la conceptual ya es otra cosa: depende del enfoque inicial y la interpretación de los valores).

Asi que ahora, para seguir con nuestra tipología, tenemos que hacer un Análisis Clúster: consiste en comparar dónde está cada sujeto (=caso, cuestionario, persona) con respecto a los factores (es decir, las variables que los forman tomadas en conjunto) y agruparlos entre sí. De esta forma, tenemos que el 30% de los sujetos siguen un patrón más o menos determinado con respecto a los factores: puntuan muy alto en uno, muy bajo en otro, y normal en el tercero, por ejemplo. Otro 20% puntúa de otra forma, el 10% sigue otro patrón, etc. Asi hacemos los grupos y valoramos su importancia. También en el Análisis Clúster podemos obtener diferentes grado de ajuste.

Es un proceso complejo, ¿verdad? Pues es así como se construyen las tipologías que vemos en estudios de marketing y en las noticias. Sin los programas estadísticos sería prácticamente imposible lograrlo, pero incluso con ellos, es preciso un buen diseño del cuestionario, un muestreo correcto, y un exhaustivo trabajo de prueba y error en la construcción del modelo, y una buena articulación entre creatividad y capacidad analítica.

Para más información…

preguntar o postear el mail (luego lo quito).