Com es calcula el coeficient de correlació?

Si tenim en compte únicament el cas de la correlació lineal (que és el nostre objectiu), se sol utilitzar l'anomenat coeficient de Pearson.


El coeficient de Pearson, r, d'una variable bidimensional (X,Y) és un paràmetre estadístic que es calcula a partir de l'expressió:

envoltorio caja negrita espacio negrita espacio negrita r negrita igual fracción numerador negrita sigma subíndice negrita x negrita y fin subíndice entre denominador negrita sigma subíndice negrita x negrita por negrita sigma subíndice negrita y fin fracción negrita espacio negrita espacio negrita espacio fin envoltorio

on

bold italic sigma subíndice negrita x negrita y fin subíndice negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic c bold italic o bold italic v bold italic a bold italic r bold italic i bold italic à bold italic n bold italic c bold italic i bold italic a
sigma subíndice x y fin subíndice igual fracción numerador estilo mostrar sumatorio para i coma j de x subíndice i por y subíndice j por n subíndice i j fin subíndice fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba x espacio por espacio envoltorio arriba y espacio espacio espacio espacio espacio espacio paréntesis izquierdo espacio espacio N igual pila sumatorio x subíndice i con i debajo igual pila sumatorio y subíndice j con j debajo espacio espacio espacio paréntesis derecho

bold italic sigma subíndice negrita x negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negrita espacio bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negrita espacio bold italic o negrita espacio bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic X
sigma subíndice x igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para i de x subíndice i superíndice 2 por n subíndice i fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba x espacio al cuadrado espacio espacio fin raíz espacio espacio

bold italic sigma subíndice negrita y negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negrita espacio bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negrita espacio bold italic o negrita espacio bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic Y
sigma subíndice y igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para j de y subíndice j superíndice 2 por n j fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba y espacio al cuadrado espacio espacio fin raíz espacio espacio

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic X negrita dos puntos
envoltorio arriba x igual fracción numerador estilo mostrar sumatorio para i de x subíndice i superíndice blanco por n subíndice i fin estilo entre denominador estilo mostrar sumatorio para i de espacio n subíndice i fin estilo fin fracción

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic Y negrita dos puntos
envoltorio arriba y espacio igual fracción numerador estilo mostrar sumatorio para j de y subíndice j superíndice blanco por n subíndice j fin estilo entre denominador estilo mostrar pila sumatorio n subíndice j con j debajo fin estilo fin fracción

Procediment:

  • Saber quina és la variable X, i quina és la variable Y
  • Fem la taula de doble entrada
  • A partir d'aquesta taula crearem 3 taules més:
    • La primera d'aquestes taules serà de la variable X. En les columnes hi situarem els valors  x subíndice i espacio coma espacio x subíndice i por n subíndice i espacio espacio i espacio espacio espacio x subíndice i superíndice 2 por n subíndice i    
    • La segona d'aquestes taules serà de la variable Y. En les columnes hi situarem els valors y subíndice j espacio coma espacio y subíndice j por n subíndice j espacio espacio i espacio espacio espacio y subíndice j superíndice 2 por n subíndice j
    • La tercera i última d'aquestes taules serà de la variable bidimensional XY. En les columnes hi situarem els valors paréntesis izquierdo x subíndice i coma y subíndice j paréntesis derecho espacio coma espacio n subíndice i j fin subíndice espacio espacio i espacio espacio espacio x subíndice i por y subíndice j por n subíndice i j fin subíndice espacio espacio

Amb aquestes tres taules i la suma total de les seves columnes, podreu calcular tots els paràmetres:

  • Mitjana, variància i desviació estàndard (o típica) de X
  • Mitjana, variància i desviació estàndard (o típica) de Y
  • Covariància
  • Coeficient de correlació lineal de Pearson

Encara que són molts passos, sempre són els mateixos. I per tant si sabeu fer un problema d'aquest tipus, segur que sabreu fer-los tots.

Exemple :

S'ha realitzat una enquesta a 50 persones preguntant per el nombre de persones (X) que habiten la llar familiar i el nombre d'habitacions (Y) que té la casa. Els resultats obtinguts (x,yj) són els següents:

(3,4),(2,1),(2,4),(3,2),(3,2),(3,3),(2,1),(2,2),(2,2),(4,5),

(4,3),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),(3,2),(3,4),(4,4),

(5,4),(6,4),(3,2),(2,2),(2,2),(4,5),(4,3),(2,3),(3,3),(3,4),

(3,2),(5,3),(6,5),(6,4),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),

(1,1),(2,4),(3,2),(3,2),(1,2),(4,3),(4,4),(1,2),(4,5),(3,3)

La taula de doble entrada següent mostra la distribució de dades obtingudes


També podem considerar les variables X i Y com a variables unidimensionals si volem trobar els seus paràmetres estadístics com ara la mitjana i la desviació tipus. Aquestes variables es coneixen com a marginals. Observem que a partir de la informació bidimensional, sempre podem trobar les característiques de les variables marginals (X  i Y pensades separadament), només s'han de sumar files o columnes segons el cas. Un cop tenim les marginals, ja podem calcular-ne tots els paràmetres estadístics unidimensionals que ens calguin.

I ara finalment ja podem trobar el coeficient de Pearson:   r igual fracción numerador 0 apóstrofo 81 entre denominador 1 apóstrofo 24 espacio por espacio 1 apóstrofo 07 fin fracción igual espacio envoltorio caja espacio 0 apóstrofo 61 espacio fin envoltorio

A partir d'aquest valor que podríem dir? Doncs que hi ha certa dependència lineal positiva entre les dues variable, en prendre el valor 0,61 veiem que la dependència és forta però tampoc massa.