Recta de regressió

En una distribució bidimensional, una vegada constatada la correlació lineal entre les dues variables, mitjançant el coeficient de correlació lineal de Pearson (r) es poden fer estimacions, és a dir prediccions de valors possibles d'una variable.

Per fer aquestes prediccions, s'ha de calcular una recta de regressió, és a dir s'ha de buscar l'expressió algebraica de la recta que aproxima millor el núvol de punts.

Hi ha dues rectes de regressió que es calcularan en funció de la correlació i les mitjanes i variàncies de les variables marginals:

La de Y sobre X début de style de taille 18px espace espace espace y espace égal à trait sur entourant y espace plus numérateur de la fraction sigma indice x y fin d'indice au-dessus du dénominateur sigma indice x exposant 2 fin de la fraction fois parenthèse gauche x moins trait sur entourant x parenthèse droite espace espace espace fin de style
La de X sobre Y début de style de taille 18px espace espace x espace égal à trait sur englobant x espace fin plus numérateur de la fraction sigma indice x y fin d'indice au-dessus du dénominateur sigma indice y exposant 2 fin de la fraction fois parenthèse gauche y moins trait sur entourant y parenthèse droite espace espace espace fin de style

La utilització d'una o l'altra depèn del context del problema. En ocasions l'enunciat ja diu quina recta utilitzar. En altres ocasions cal deduir-ho en funció de les dades.

Si es demana predir un valor de y donat el valor de x, cal usar la recta de Y sobre X, ja que és la recta en la que queda aïllada la Y.

Si es demana predir el valor de x coneixent la y corresponent, cal usar la recta de regressió de X sobre Y, ja que és la recta en la que queda aïllada la X.

La recta de regressió correspon a la recta que millor s'ajusta a la distribució de punts (núvol de punts).

Per exemple en la distribució bidimensional d'aquest notes: