Què vol dir dependència estadística?

Entre dues variables diem que hi ha dependència estadística quan els valors que pren una variable estan relacionats d'alguna manera amb els valors que pren l'altra, possiblement no d'una manera exacte.

Aquesta dependència pot ser de molts tipus: quadràtica, exponencial, lineal, funcional, .... En general l'estudi del curs es basarà en la dependència lineal (és a dir, estudiar si el comportament d'una variable respecte a l'altra s'aproxima a una recta).

Quan les variables són de tipus quantitatiu, l'estudi de la dependència estadística es coneix com el problema de "regressió", i l'anàlisi del grau de dependència que hi ha entre les variables es coneix com el problema de correlació. L'objectiu principal de la regressió és descobrir la manera en què es relacionen.


Exemple

En una taula de pesos i altures de 10 persones es pot suposar que la variable "Alçada" influeix sobre la variable "Pes" en el sentit que pesos grans vénen explicats per valors grans d'altura (en general). De les dues variables a estudiar, que anomenarem amb X i Y, anomenarem a la X VARIABLE INDEPENDENT , i a l'altra (la Y) l'anomenarem VARIABLE DEPENDENT.

En la majoria dels casos la relació entre les variables és mútua, i és difícil saber quina variable influeix sobre l'altra. En l'exemple anterior, a una persona que pesa poc li suposarem menor altura i a una persona de poca altura li suposarem un pes més baix. És a dir, es pot admetre que cada variable influeix sobre l'altra de forma natural i per igual. Un exemple més clar on distingir entre variable independent i dependent és aquell on s'anota, de cada alumne d'una classe, el seu temps d'estudi (en hores) i la seva nota d'examen.
En aquest cas un petit temps d'estudi tendirà a obtenir una nota més baixa, i una nota bona ens indicarà que potser l'alumne ha estudiat molt. No obstant això, a l'hora de determinar quina variable depèn de l'altra, és clar que el "temps d'estudi" influeix sobre la "nota d'examen" i no al contrari, ja que l'alumne primer estudia un temps que pot decidir lliurement, i després obté una nota que ja no decideix arbitràriament. Per tant,

X = Temps d'estudi (variable  independent)

Y = Nota d'examen (variable dependent)

Per detectar si hi ha algun tipus de relació de dependència entre dues variables  és molt útil dibuixar-les per a visualitzar com és aquesta relació. Per això se sol utilitzar un gràfic anomenat núvol de punts o diagrama de dispersió consistent en representar sobre uns eixos de coordenades tots els parells de valors que apareguin en la mostra.
Habitualment es representa en l'eix d'abscises (X)  la variable independent, i en l'eix de les ordenades (Y) la variable dependent.

En realitzar un diagrama de dispersió entre dues variables X i Y poden sorgir algunes de les següents situacions:

  • Una relació matemàtica exacta entre X i Y, és a dir, donat un valor de X podem calcular el valor de la variable Y corresponent mitjançant una fórmula (dependència matemàtica).
  • No s'observa cap relació entre les variables, és a dir, conèixer X no serveix en absolut per calcular Y (independència estadística).
  • Tot i que no hi hagi una dependència matemàtica exacta, si que s'observa una relació aproximada (dependència estadística). Els punts s'acosten a la gràfica d'una funció

Exemples :

Hi ha una relació matemàtica exacte

entre X i Y ja que  y igual parèntesi esquerre x menys 2 parèntesi dret al quadrat

No hi ha cap relació entre X i Y

S'observa una relació aproximada

o dependència estadística (i és lineal)

S'observa una relació aproximada

o dependència estadística

(i no és lineal)

El problema de trobar una relació funcional entre dues variables és molt complex, ja que hi ha infinitat de funcions de formes diferents. El cas més senzill de relació entre dues variables és la relació LINEAL, és a dir que Y = a + b X . És l'equació d'una recta on a i b són nombres, que és el cas en què ens centrarem en aquest curs

En concret el tercer núvol de punts es "semblant " a una recta. Si sabéssim calcular l'equació d'aquesta recta, es podria "aproximar" el valor de Y un cop conegut el valor de X. El problema de trobar l'equació de la recta que més s'assembli (o que millor s'ajusti) al núvol de punts es coneix com regressió lineal.
El primer núvol de punts és similar a l'últim, encara que en aquests cassos els núvols de punts s'aproximen a una corba i no a una recta. Trobar l'equació d'aquesta corba seria un problema de regressió no lineal.