Cuando nos enfrentamos con la tarea de recoger las valoraciones de la población acerca de un producto, surge la duda sobre cuál es la mejor escala que se pude utilizar. ¿Escala numérica o escala semántica? ¿Utilizar muchas o pocas categorías? ¿Incluir o no incluir términos medios? El objetivo de este post es dar algunas pistas que ayuden a determinar cuál es la mejor escala de valoración para acercarse a la medición de un determinado fenómeno.
Para presentar estas orientaciones, se toma como base un estudio comparativo realizado por Darbyshire y McDonald (2004). Estos autores realizaron una encuesta a 400 personas que pretendía conocer el nivel de satisfacción global con una empresa de telecomunicaciones australiana. En la misma encuesta utilizaron dos escalas distintas: una numérica y otra semántica. La escala numérica constaba de 9 categorías numéricas (del 1 al 9), a cuyos extremos se añadían dos valores semánticos: “muy mal” y “muy bien”. La escala semántica se componía de 5 categorías ordinales: “muy mal”, “mal”, “indiferente”, “bien” y “muy bien”. La comparación de los datos obtenidos con estas dos preguntas les sirvió para llegar a diversas conclusiones.
1. ¿Escala numérica o escala semántica? A partir de un análisis de correspondencias que relacionaba los resultados obtenidos a través de las dos escalas, llegaron a la conclusión que los encuestados interpretaban de manera muy distinta las relaciones entre las categorías que componían cada una de las escalas. Primera conclusión: el tipo de escala sí influye en los resultados obtenidos.
En segundo lugar, también se dieron cuenta que, aunque las valoraciones extremas tendían a coincidir (es decir, quien valoraba con un “muy bien” en la escala semántica, también valoraba con la máxima puntuación en las escala numérica), las puntuaciones intermedias no se correspondían entre las dos escalas. Para la escala semántica, la categoría “muy mal” se correspondía con los valores 1 a 4 de la escala numérica, mientras que la categoría “mal” se asociaba a valores numéricos que van del 1 al 6. Resulta evidente que si las dos escalas fueran igualmente válidas, a “muy mal” le corresponderían valores de 1 y 2, mientras que a “mal” le corresponderían valores de 3 y 4.
¿Cuál es la explicación de estas diferencias? Parece que la razón más probable es que en la escala semántica los encuestados psicológicamete interpretan que los significados de cada categoría no son expresables en términos de intervalos. La distancia entre los significados “muy mal” y “mal” es mucho más alta que la distancia existente entre los dos extremos del primer intervalo de la escala numérica. Esto se puede medir cuantitativamente mediante la distancia euclídea que separa los dos extremos de cada uno de los intervalos.
En resumen, si se quiere trabajar con datos que reflejen intervalos, y no ideas, se tendría que utilizar una escala numérica. Sin embargo, la decisión final depende de los objetivos que se persiguen con la realización del estudio. Algunas veces puede interesar más medir ideas, significados, que no intervalos. Además, hay que añadir que muchos investigadores prefieren utilizar la escala semántica por la razón que es menos ambigua que la escala numérica, y también por el hecho de que la primera es más cercana al lenguaje humano.
2.¿Incluir términos medios? Cuando se miden actitudes o expectativas, el encuestado se puede sentir confundido si se le fuerza a contestar positiva o negativamente, y se le niega la posibilidad de responder “ninguno de los anteriores” o “indiferente”. Los términos medios también aportan información importante. En estos casos, pues, el término medio es necesario. En otros casos, no obstante esto, estos podrían ser prescindibles. Los que defienden la no inclusión de términos medios se fundamentan en la creencia, no contrastada empíricamente, que proceder así ayuda a conseguir respuestas más meditadas por parte del encuestado.
3.¿Cuál es el número de categorías que se deberían utilizar en una pregunta de escala? Las particularidades del estudio llevado a cabo por Darbyshire y McDonald impiden responder a esta pregunta, ya que ellos comparan una escala semántica y una escala numérica. Para realizar una comparación de los resultados obtenidos mediante escalas de diferente longitud, se deberían tomar escalas del mismo tipo, ya sean numéricas o semánticas. Sin embargo, estos autores proponen una solución a tenor de la bibliografía existente al respecto.
Alwin (1997) estableció cuatro criterios medibles que orientan la toma de decisión alrededor de esta cuestión: confiabilidad, poder, precisión y utilidad. La confiabilidad, relativa al tamaño de la muestra necesaria para un determinado nivel de precisión, se mide mediante la desviación standard de cada una de las escalas. Si tomamos una escala de 10 y una escala de 5 como ejemplos, se deduce que si la desviación standard de la escala de 10 es inferior a 2,25 (10-1/5-1, donde la resta se utiliza para el cálculo del número de intervalos), el tamaño de la muestra necesaria será menor que en el caso de la escala de 5 unidades y, por lo tanto, su uso será más válido que en el otro caso.
En lo referente al poder de la escala, definido como la capacidad de un tipo de medida para detectar cambios en la puntuación media obtenida, Alwin llegó a la conclusión que a medida que aumenta el número de categorías utilizadas se reduce el número de casos necesario para llegar al mismo resultado mediante una escala de menor tamaño. Así, según su estudio, una escala de 10 categorías requirió sólo el 71,3% de los casos para conseguir el mismo nivel de precisión que una escala de 5 categorías.
La amplitud de una escala también determina su nivel de precisión. Una escala que presente en su interior muchas categorías permite refinar mucho la medida, ya que el encuestado es capaz de marcar aquella opción que más se ajusta a su situación de una manera más precisa. Sin embargo, hay que tener en cuenta que una escala excesivamente larga puede confundir al encuestado y, en segundo lugar, puede requerir una muestra más grande para poder llevar a cabo análisis estadísticos basados en la construcción de tablas de contingencia.
En lo referente al concepto de utilidad, Alwin dice que un tipo de escala no es bueno o es malo por definición, sino que lo que se tiene que buscar es que ésta sea útil a los objetivos que se han marcado en el proyecto. Aunque se han presentado algunas de las orientaciones básicas que guían la toma dedecisión alrededor de cuál es la escala más adecuada (resumiendo, se recomiendan escalas largas, numéricas y con término medio), al final el criterio de elección básico tiene que ser el sentido común del investigador. Cada situación concreta presenta unas peculiaridades que tienen que ser analizadas por el equipo de investigación; a partir de este análisis, se está en condiciones de elegir cuál es sistema de medida que mejor se adapta a unas determinadas necesidades.
Referencias bibliográficas
-Darbyshire, Penny y McDonald, Heath (2004). «Choosing Response Scale Labels and Length: Guidance for Researchers and Clients», Australasian Journal of Market Research, volumen 12, número 2, noviembre 2004.
-Alwin, D.F. (1997). «Feeling thermometers vs 7-point scales«, Sociological Methods and Research, 25(3): 318-351.
Fotografía 1: marklarson
Fotografía 2: sirwiseowl
© 2019 Empirica Influentials & Research
Add comment