Residuos de Haberman

Residuos de Haberman

Top  Previous  Next

Todos sabemos que cuando analizamos tablas, lo que estamos deseando ver es si existe una asociación o no entre las dos variables que estamos analizando. Cuando se ha observado una muestra, aquello que ha visto en ella es fruto de esa observación; los resultados de esa observación son lo que conocemos como frecuencias reales u observadas. Estas frecuencias observadas, ordenadas en forma de tabla, dan lugar, gracias a unas sencillas operaciones matemáticas, a un concepto del que muchos han oído hablar: las frecuencias esperadas.

Las frecuencias esperadas son aquellas observaciones que cabría esperar, si no hubiera asociación alguna entre las variables tabuladas. Su cálculo es muy sencillo: si tomamos el total marginal de la columna i, y lo multiplicamos por el total marginal de la fila j, dividiendo posteriormente por el total de observaciones, obtendremos un número llamado frecuencia esperada de la celda ij. Esta frecuencia esperada —la misma que en las pruebas derivadas de c2— es muy utilizada para realizar contrastes de frecuencias.

Esta frecuencia esperada será la base del análisis de residuos y también de las posteriores pruebas estadísticas que analizaremos.

Ya estamos a punto de conocer lo que es un residuo: la diferencia entre la frecuencia observada y la frecuencia esperada. Así de simple. Valores positivos significarán que en la muestra se han observado más casos de los que cabría esperar; de la misma forma, valores negativos implican que en la muestra real se han dado menos valores de los que cabría esperar.

Claro, lo que no sabemos es si ese número, esa diferencia, es significativa estadísticamente. Hagamos unos pocos números y busquemos el poder asignar significación a esa diferencia. Podemos comenzar por normalizar o estandarizar los residuos. Para ello podemos considerar que la frecuencia esperada es la media de las frecuencias, y que una aproximación a la desviación típica de la distribución de frecuencias puede ser la raíz cuadrada de la frecuencia esperada. Esto lo podríamos expresar de la siguiente forma:

Xp es la media de la variable continua para el grupo de los que tienen la dicotomía positiva
X es la media total de la variable continua
sx es la desviación típica total
p es la proporción de la dicotomía positiva y q es la complementaria de p, es decir, p+q=1.
RN significará para nosotros el residuo normalizado.

De esta forma estamos eliminando el efecto que sobre su valor puedan tener los marginales de las dos variables, ya que de forma independiente a las categorías, cuanto mayor sean los marginales, más probabilidad tendremos que los residuos sean grandes. Pero todavía seguimos sin poder saber si ese resultado es significativo o no lo es. Haberman (1978) propone que ajustemos esa fórmula de la siguiente forma:

siendo fi y cj los totales marginales de fila y columna de la celda valorada. Ahora sí; este estadístico se distribuye aproximadamente como una normal, y por tanto valores superiores a ± 1,96 serán estadísticamente significativos al nivel 0,05. ¿Y para qué sirve todo esto?. Para afirmar que las categorías relacionadas en una tabla con valores residuales positivos y mayores de 1,96 sienten una fuerte atracción, y de la misma forma, valores inferiores a - 1,96 implican un fuerte rechazo entre las categorías valoradas. Valores entre - 1,96 y 1,96 no son estadísticamente significativos, por lo que no podremos lanzar hipótesis sobre su validez.

Proceso de cálculo

Fichero > Residuos de Haberman.gbw

Órdenes > Tabulación - > Frecuencias - > Seleccionar las variables VAR1 en columna, VAR2 en filas

Imaginemos la relación entre dos variables que muestran la propensión a una valoración alta en una dimensión relacionada con la calidad de servicio y la edad del trabajador. La primera variable se mide con una escala de tres categorías (alta, media y baja > VAR1) y la segunda se mide con una escala de tres categorías también (novel, ayudante y experto > VAR2).

La tabla de frecuencias resultante la mostramos combinando la frecuencia observada con la frecuencia esperada, y es la siguiente:

 

TOTAL

Propensión

 

 

Frecuencias
Frecuencias esperadas

 

Alta

Media

Baja

TOTAL

229

80

88

61

Experiencia

 

 

 

 

Novel

76

48
27

20
29

8
20

Ayudante

80

12
28

32
31

36
21

Experto

73

20
26

36
28

17
19

Si analizamos esta tabla viendo sus valores residuales, obtenemos que:

 

TOTAL

Propensión

 

 

Residuos directo
Residuos normalizados
Residuos corregidos

 

Alta

Media

Baja

TOTAL

229

80

88

61

Experiencia

 

 

 

 

Novel

76

21.45
4.16
6.31

- 9.21
- 1.70
- 2.66

- 12.24
- 2.72
- 3.89

Ayudante

80

- 15.95
- 3.02
- 4.64

1.26
0.23
0.36

14.69
3.18
4.61

Experto

73

- 5.50
- 1.09
- 1.64

7.95
1.50
2.32

- 2.45
- 0.55
- 0.78

El valor del residual directo, lo podemos contemplar como un indicador de la distancia entre la frecuencia observada y la esperada, pero esa distancia no tiene significación estadística, tan sólo tiene una significación dentro de los propios valores de la tabla. Podemos ver que 21,45 es el valor más alto, es decir, en esa contingencia se produce la diferencia más importante entre lo observado y lo esperado. El segundo residual, el residual normalizado, nos permite trabajar en términos relativos y en este caso podemos comparar las importancias relativas del residual, pero seguimos sin tener significancia estadística.

Es sólo con el tercer valor, el residuo corregido de Haberman, donde ese indicador de diferencia podemos considerar que sigue una distribución aproximadamente normal. Si fijamos nuestra hipótesis nula en la independencia de las categorías, podemos observar que un valor mayor que ±1,96 difieren de 0 con una probabilidad superior a 0,95. Es decir el valor 6,31 de la contingencia alta - novel se interpreta diciendo que “la relación entre la propensión a valorar de forma alta y ser trabajador novel es positiva y estadísticamente significativa: el número de asociaciones es estadísticamente mayor que el número que cabría esperar si ser trabajador novel y puntuar alto fueran categorías independientes”.