Recta de regressió

En una distribució bidimensional, una vegada constatada la correlació lineal entre les dues variables, mitjançant el coeficient de correlació lineal de Pearson (r) es poden fer estimacions, és a dir prediccions de valors possibles d'una variable.

Per fer aquestes prediccions, s'ha de calcular una recta de regressió, és a dir s'ha de buscar l'expressió algebraica de la recta que aproxima millor el núvol de punts.

Hi ha dues rectes de regressió que es calcularan en funció de la correlació i les mitjanes i variàncies de les variables marginals:

La de Y sobre X Anfang mathsize 18px Stil Leerzeichen Leerzeichen Leerzeichen y Leerzeichen gleich Oberstrich eingeschlossen y Leerzeichen plus Zähler sigma unterer Index x y Ende unterer Index geteilt durch Nenner sigma unterer Index x oberer Index 2 Bruchergebnis mal linke klammer x minus Oberstrich eingeschlossen x rechte klammer Leerzeichen Leerzeichen Leerzeichen Ende Stil
La de X sobre Y Anfang mathsize 18px Stil Leerzeichen Leerzeichen x Leerzeichen gleich Oberstrich eingeschlossen x Leerzeichen Ende plus Zähler sigma unterer Index x y Ende unterer Index geteilt durch Nenner sigma unterer Index y oberer Index 2 Bruchergebnis mal linke klammer y minus Oberstrich eingeschlossen y rechte klammer Leerzeichen Leerzeichen Leerzeichen Ende Stil

La utilització d'una o l'altra depèn del context del problema. En ocasions l'enunciat ja diu quina recta utilitzar. En altres ocasions cal deduir-ho en funció de les dades.

Si es demana predir un valor de y donat el valor de x, cal usar la recta de Y sobre X, ja que és la recta en la que queda aïllada la Y.

Si es demana predir el valor de x coneixent la y corresponent, cal usar la recta de regressió de X sobre Y, ja que és la recta en la que queda aïllada la X.

La recta de regressió correspon a la recta que millor s'ajusta a la distribució de punts (núvol de punts).

Per exemple en la distribució bidimensional d'aquest notes: