Com es calcula el coeficient de correlació?

Si tenim en compte únicament el cas de la correlació lineal (que és el nostre objectiu), se sol utilitzar l'anomenat coeficient de Pearson.


El coeficient de Pearson, r, d'una variable bidimensional (X,Y) és un paràmetre estadístic que es calcula a partir de l'expressió:

envoltori caixa negreta espai negreta espai negreta r negreta igual fracció numerador negreta sigma subíndex negreta x negreta y fi subíndex entre denominador negreta sigma subíndex negreta x negreta per negreta sigma subíndex negreta y fi fracció negreta espai negreta espai negreta espai fi envoltori

on

bold italic sigma subíndex negreta x negreta y fi subíndex negreta espai bold italic é bold italic s negreta espai bold italic l bold italic a negreta espai bold italic c bold italic o bold italic v bold italic a bold italic r bold italic i bold italic à bold italic n bold italic c bold italic i bold italic a
sigma subíndex x y fi subíndex igual fracció numerador estil mostrar sumatori per a i coma j de x subíndex i per y subíndex j per n subíndex i j fi subíndex fi estil entre denominador N fi fracció espai menys espai envoltori superior x espai per espai envoltori superior y espai espai espai espai espai espai parèntesi esquerre espai espai N igual pila sumatori x subíndex i amb i a sota igual pila sumatori y subíndex j amb j a sota espai espai espai parèntesi dret

bold italic sigma subíndex negreta x negreta espai bold italic é bold italic s negreta espai bold italic l bold italic a negreta espai bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negreta espai bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negreta espai bold italic o negreta espai bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negreta espai bold italic d bold italic e negreta espai bold italic l bold italic a negreta espai bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negreta espai bold italic X
sigma subíndex x igual arrel quadrada de fracció numerador estil mostrar sumatori per a i de x subíndex i superíndex 2 per n subíndex i fi estil entre denominador N fi fracció espai menys espai envoltori superior x espai al quadrat espai espai fi arrel espai espai

bold italic sigma subíndex negreta y negreta espai bold italic é bold italic s negreta espai bold italic l bold italic a negreta espai bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negreta espai bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negreta espai bold italic o negreta espai bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negreta espai bold italic d bold italic e negreta espai bold italic l bold italic a negreta espai bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negreta espai bold italic Y
sigma subíndex y igual arrel quadrada de fracció numerador estil mostrar sumatori per a j de y subíndex j superíndex 2 per n j fi estil entre denominador N fi fracció espai menys espai envoltori superior y espai al quadrat espai espai fi arrel espai espai

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negreta espai bold italic d bold italic e negreta espai bold italic l bold italic a negreta espai bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negreta espai bold italic X negreta dos punts
envoltori superior x igual fracció numerador estil mostrar sumatori per a i de x subíndex i superíndex blanc per n subíndex i fi estil entre denominador estil mostrar sumatori per a i de espai n subíndex i fi estil fi fracció

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negreta espai bold italic d bold italic e negreta espai bold italic l bold italic a negreta espai bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negreta espai bold italic Y negreta dos punts
envoltori superior y espai igual fracció numerador estil mostrar sumatori per a j de y subíndex j superíndex blanc per n subíndex j fi estil entre denominador estil mostrar pila sumatori n subíndex j amb j a sota fi estil fi fracció

Procediment:

  • Saber quina és la variable X, i quina és la variable Y
  • Fem la taula de doble entrada
  • A partir d'aquesta taula crearem 3 taules més:
    • La primera d'aquestes taules serà de la variable X. En les columnes hi situarem els valors  x subíndex i espai coma espai x subíndex i per n subíndex i espai espai i espai espai espai x subíndex i superíndex 2 per n subíndex i    
    • La segona d'aquestes taules serà de la variable Y. En les columnes hi situarem els valors y subíndex j espai coma espai y subíndex j per n subíndex j espai espai i espai espai espai y subíndex j superíndex 2 per n subíndex j
    • La tercera i última d'aquestes taules serà de la variable bidimensional XY. En les columnes hi situarem els valors parèntesi esquerre x subíndex i coma y subíndex j parèntesi dret espai coma espai n subíndex i j fi subíndex espai espai i espai espai espai x subíndex i per y subíndex j per n subíndex i j fi subíndex espai espai

Amb aquestes tres taules i la suma total de les seves columnes, podreu calcular tots els paràmetres:

  • Mitjana, variància i desviació estàndard (o típica) de X
  • Mitjana, variància i desviació estàndard (o típica) de Y
  • Covariància
  • Coeficient de correlació lineal de Pearson

Encara que són molts passos, sempre són els mateixos. I per tant si sabeu fer un problema d'aquest tipus, segur que sabreu fer-los tots.

Exemple :

S'ha realitzat una enquesta a 50 persones preguntant per el nombre de persones (X) que habiten la llar familiar i el nombre d'habitacions (Y) que té la casa. Els resultats obtinguts (x,yj) són els següents:

(3,4),(2,1),(2,4),(3,2),(3,2),(3,3),(2,1),(2,2),(2,2),(4,5),

(4,3),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),(3,2),(3,4),(4,4),

(5,4),(6,4),(3,2),(2,2),(2,2),(4,5),(4,3),(2,3),(3,3),(3,4),

(3,2),(5,3),(6,5),(6,4),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),

(1,1),(2,4),(3,2),(3,2),(1,2),(4,3),(4,4),(1,2),(4,5),(3,3)

La taula de doble entrada següent mostra la distribució de dades obtingudes


També podem considerar les variables X i Y com a variables unidimensionals si volem trobar els seus paràmetres estadístics com ara la mitjana i la desviació tipus. Aquestes variables es coneixen com a marginals. Observem que a partir de la informació bidimensional, sempre podem trobar les característiques de les variables marginals (X  i Y pensades separadament), només s'han de sumar files o columnes segons el cas. Un cop tenim les marginals, ja podem calcular-ne tots els paràmetres estadístics unidimensionals que ens calguin.

I ara finalment ja podem trobar el coeficient de Pearson:   r igual fracció numerador 0 apòstrof 81 entre denominador 1 apòstrof 24 espai per espai 1 apòstrof 07 fi fracció igual espai envoltori caixa espai 0 apòstrof 61 espai fi envoltori

A partir d'aquest valor que podríem dir? Doncs que hi ha certa dependència lineal positiva entre les dues variable, en prendre el valor 0,61 veiem que la dependència és forta però tampoc massa.