Com es calcula el coeficient de correlació?

Si tenim en compte únicament el cas de la correlació lineal (que és el nostre objectiu), se sol utilitzar l'anomenat coeficient de Pearson.


El coeficient de Pearson, r, d'una variable bidimensional (X,Y) és un paràmetre estadístic que es calcula a partir de l'expressió:

box enclose bold space bold space bold r bold equals fraction numerator bold sigma subscript bold x bold y end subscript over denominator bold sigma subscript bold x bold times bold sigma subscript bold y end fraction bold space bold space bold space end enclose

on

bold italic sigma subscript bold x bold y end subscript bold space bold italic é bold italic s bold space bold italic l bold italic a bold space bold italic c bold italic o bold italic v bold italic a bold italic r bold italic i bold italic à bold italic n bold italic c bold italic i bold italic a
sigma subscript x y end subscript equals fraction numerator begin display style sum for i comma j of x subscript i times y subscript j times n subscript i j end subscript end style over denominator N end fraction space minus space top enclose x space times space top enclose y space space space space space space left parenthesis space space N equals stack sum x subscript i with i below equals stack sum y subscript j with j below space space space right parenthesis

bold italic sigma subscript bold x bold space bold italic é bold italic s bold space bold italic l bold italic a bold space bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó bold space bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a bold space bold italic o bold space bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d bold space bold italic d bold italic e bold space bold italic l bold italic a bold space bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e bold space bold italic X
sigma subscript x equals square root of fraction numerator begin display style sum for i of x subscript i superscript 2 times n subscript i end style over denominator N end fraction space minus space top enclose x space squared space space end root space space

bold italic sigma subscript bold y bold space bold italic é bold italic s bold space bold italic l bold italic a bold space bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó bold space bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a bold space bold italic o bold space bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d bold space bold italic d bold italic e bold space bold italic l bold italic a bold space bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e bold space bold italic Y
sigma subscript y equals square root of fraction numerator begin display style sum for j of y subscript j superscript 2 times n j end style over denominator N end fraction space minus space top enclose y space squared space space end root space space

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a bold space bold italic d bold italic e bold space bold italic l bold italic a bold space bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e bold space bold italic X bold colon
top enclose x equals fraction numerator begin display style sum for i of x subscript i superscript blank times n subscript i end style over denominator begin display style sum for i of space n subscript i end style end fraction

bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a bold space bold italic d bold italic e bold space bold italic l bold italic a bold space bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e bold space bold italic Y bold colon
top enclose y space equals fraction numerator begin display style sum for j of y subscript j superscript blank times n subscript j end style over denominator begin display style stack sum n subscript j with j below end style end fraction

Procediment:

  • Saber quina és la variable X, i quina és la variable Y
  • Fem la taula de doble entrada
  • A partir d'aquesta taula crearem 3 taules més:
    • La primera d'aquestes taules serà de la variable X. En les columnes hi situarem els valors  x subscript i space comma space x subscript i times n subscript i space space i space space space x subscript i superscript 2 times n subscript i    
    • La segona d'aquestes taules serà de la variable Y. En les columnes hi situarem els valors y subscript j space comma space y subscript j times n subscript j space space i space space space y subscript j superscript 2 times n subscript j
    • La tercera i última d'aquestes taules serà de la variable bidimensional XY. En les columnes hi situarem els valors left parenthesis x subscript i comma y subscript j right parenthesis space comma space n subscript i j end subscript space space i space space space x subscript i times y subscript j times n subscript i j end subscript space space

Amb aquestes tres taules i la suma total de les seves columnes, podreu calcular tots els paràmetres:

  • Mitjana, variància i desviació estàndard (o típica) de X
  • Mitjana, variància i desviació estàndard (o típica) de Y
  • Covariància
  • Coeficient de correlació lineal de Pearson

Encara que són molts passos, sempre són els mateixos. I per tant si sabeu fer un problema d'aquest tipus, segur que sabreu fer-los tots.

Exemple :

S'ha realitzat una enquesta a 50 persones preguntant per el nombre de persones (X) que habiten la llar familiar i el nombre d'habitacions (Y) que té la casa. Els resultats obtinguts (x,yj) són els següents:

(3,4),(2,1),(2,4),(3,2),(3,2),(3,3),(2,1),(2,2),(2,2),(4,5),

(4,3),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),(3,2),(3,4),(4,4),

(5,4),(6,4),(3,2),(2,2),(2,2),(4,5),(4,3),(2,3),(3,3),(3,4),

(3,2),(5,3),(6,5),(6,4),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),

(1,1),(2,4),(3,2),(3,2),(1,2),(4,3),(4,4),(1,2),(4,5),(3,3)

La taula de doble entrada següent mostra la distribució de dades obtingudes


També podem considerar les variables X i Y com a variables unidimensionals si volem trobar els seus paràmetres estadístics com ara la mitjana i la desviació tipus. Aquestes variables es coneixen com a marginals. Observem que a partir de la informació bidimensional, sempre podem trobar les característiques de les variables marginals (X  i Y pensades separadament), només s'han de sumar files o columnes segons el cas. Un cop tenim les marginals, ja podem calcular-ne tots els paràmetres estadístics unidimensionals que ens calguin.

I ara finalment ja podem trobar el coeficient de Pearson:   r equals fraction numerator 0 apostrophe 81 over denominator 1 apostrophe 24 space times space 1 apostrophe 07 end fraction equals space box enclose space 0 apostrophe 61 space end enclose

A partir d'aquest valor que podríem dir? Doncs que hi ha certa dependència lineal positiva entre les dues variable, en prendre el valor 0,61 veiem que la dependència és forta però tampoc massa.