Llibre resum dels continguts bàsics del lliurament 4.

Sitio:	Cursos IOC - Batxillerat
Curso:	Matemàtiques I (Bloc 2) ~ gener 2020
Libro:	Llibre resum dels continguts bàsics del lliurament 4.

Imprimido por:	Guest user
Día:	domingo, 19 de mayo de 2024, 11:33

Descripción

Tabla de contenidos

1. Estadística unidimensional. Conceptes bàsics
2. Estadística bidimensional

Estadística descriptiva unidimensional

En aquest primer capítol del llibre, es recorden els principals conceptes de l'estadística unidimensional (és a dir, en la què s'estudia només una variable), per a poder posteriorment encarar l'estadística de dues variables o bidimensional. Si aquests conceptes ja els domines, pots passar directament al capítol 2.

Què és l'estadística?

Avui dia difícilment podem llegir un diari o veure un telenotícies sense trobar-nos gràfics i estudis estadístics. És important conèixer els conceptes bàsics d'aquesta ciència per entendre i interpretar críticament la informació que se'ns dóna.

L'estadística és una branca de les matemàtiques que té per objectiu recopilar, organitzar, analitzar i interpretar dades referides a un col·lectiu.

Primers conceptes

Convé conèixer el vocabulari específic que es fa servir en els estudis estadístics.

Població: conjunt d'individus amb algunes característiques comunes sobre el què recau l'estudi.

Mostra: subconjunt de la població sobre la què es fa l'estudi quan és impossible fer l'estudi exhaustiu sobre tota la població. La mostra cal que sigui representativa de tota la població, per tal que se'n puguin extraure resultats fiables.Quan més gran sigui la mostra, més fiable seran els resultats.

Variable estadística: és la propietat o característica de la població que estem interessats a estudiar. Es solen representar per lletres majúscules X, Y, Z...Hi ha molts tipus de variables i convé començar classificant-les segons diferents criteris.

Les dades són els valors concrets que pren aquesta variable estadística.

Exemple

Si fem un estudi sobre el nombre de germans que tenen els estudiants de Batxillerat a l'IOC, podríem passar una enquesta demanant quants germans té cada estudiant.

La població estaria formada per tots els estudiants de Batxillerat de l'IOC.

Una mostra podria estar formada per 100 estudiants agafats de forma aleatòria. És important el fet que estem dient que sigui aleatòria, perquè si per exemple fem l'estudi amb una mostra formada pels alumnes de l'IOC que no són majors d'edat, el resultat quedaria alterat perquè aquesta mostra no seria representativa.
La variable en aquest cas seria el nombre de germans que té cada estudiant.
I les dades serien els resultats concrets: 0 germans, 1 germà, 2 germans, etc que respongués cada estudiant a la consulta.

Classificació de les dades

Les variables estadístiques poden ser de diferent naturalesa segons com són les dades que s'obtenen, per això és important fer-ne una classificació i aquesta es pot fer segons diversos criteris.

Si les classifiquem segons si les dades es poden o no comptar parlarem de variables estadístiques quantitatives i qualitatives.

Les variables qualitatives prenen valors no numèrics, que no es poden mesurar. Dins d'aquest tipus encara podem separar les variables ordinals tals que tot i no ser numèriques podrien ser ordenades (per exemple molt, bastant, suficientment, poc, gens) i les nominals que són atributs que no poden ser ordenats (colors, nacionalitats, etc)
Les variables quantitatives prenen valors numèrics, les podem mesurar. Entre elles, distingim dos tipus: discretes i contínues.

- Les variables quantitatives discretes no poden prendre valors intermedis entre dos valors possibles consecutius.

- Les variables quantitatives contínues poden prendre valors intermedis entre dos valors tan propers com vulguem.

Exemples

Sigui X la variable estadística que estudia el color del cotxe dels ciutadans d'una certa població. Aquesta variable pot prendre els valors

X={blanc, vermell, blau, verd, groc, negre,...} i és una variable qualitativa.

Sigui Y la variable estadística que estudia la llargada de les erugues de les diferents espècies de papallones d'un determinat continent. Aquesta variable pot prendre qualsevol nombre real que està dins l'interval [0'5, 10] cm.

Es tracta d'una variable quantitativa contínua.

Sigui Z la variable estadística que estudia el nombre de vegades que van al cinema mensualment els habitants d'una ciutat. Aquesta variable pot prendre els valors

Z={0, 1, 2, 3, 4, ....} i és una variable quantitativa discreta, observeu que entre 1 i 2 la variable no pot prendre els valors decimals intermedis, perquè no podem anar al cinema 1,3 vegades.

La classificació anterior la podem resumir en aquest quadre:

Es recomana consultar el document Conceptes bàsics d'estadística unidimensional (pag 1-2) on trobareu exemples i explicacions més detallades d'aquests primers conceptes.

Les taules

Tal com hem dit en un inici, en estudi estadístic comença recollint un conjunt molt gran de dades de diferents maneres: amb enquestes, amb l'observació directa, etc.

Un cop recollides les dades caldrà passar-les a net, és a dir organitzar-les, de manera que siguin de fàcil interpretació, per això es posen en una taula amb diverses columnes.

Aquestes taules les anomenem taules de freqüències. Aquí indiquem quins són els conceptes que habitualment es recullen a les taules i les seves notacions, tot i que cal tenir en compte que de vegades segons el llibre o l'estudi les notacions poden variar.

N= nombre total de dades recollides (o d'individus estudiats). És possible que algun llibre posi n en lloc de N, però segur que pel context ho veuràs.

nom	notació	definició i càlcul
valor de la dada	x_i	dada que ocupa el lloc i
freqüència absoluta	n_i	indica el nombre de vegades que s'ha observat la dada x_i
freqüència relativa	f_i	$fracción n subíndice i entre N$ freqüència absoluta dividida pel nombre total de dades
percentatge	f_i%	$fracción n subíndice i entre N por 100$ freqüència relativa en tant per cent
freq. absoluta acumulada	N_i	N_i=n₁+n₂+...+n_i nombre de dades inferiors o iguals a x_i
freq. relativa acumulada	F_i	_{$f subíndice 1 más f subíndice 2 más... más f subíndice i$}suma de les freqüències relatives inferiors o iguals a la í-essima

Com hem dit, aquestes notacions poden variar en funció del llibre, així en alguns llibres la notació és al revés: f_i indica la freqüència absoluta i n_i indica la freqüència relativa. Independentment de la notació que es faci servir, fixa't que sempre: les freqüències absolutes prenen valors enters i la seva suma és el nombre total de dades i les freqüències relatives prenen valors decimals ( entre 0 i 1) i la seva suma dóna 1. Si estan donats en percentatge la suma dóna 100.

Les freqüències acumulades només tenen sentit per variables quantitatives, perquè el que ens indiquen és quantes dades hi ha inferiors o iguals a una donada.

Convé, si no coneixes massa aquests conceptes, que llegeixis amb atenció les pàgines 3-6 del document Conceptes bàsics d'estadística unidimensional que ja t'hem enllaçat abans. Hi trobaràs explicacions detallades i exemples senzills explicats.

Dades agrupades en intervals

En el cas de dades quantitatives continues o algunes discretes amb molts valors, es solen agrupar en intervals. En aquest cas interessa posar una columna amb l'interval [a,b) i una altra columna amb la marca de classe que notarem x_i i que és el punt mig de l'interval

x subíndice i igual fracción numerador a más b entre denominador 2 fin fracción

. El fet de treballar amb intervals fa perdre precisió, perquè deixem de saber el valor exacte de cada dada, però fa que els càlculs siguin més ràpids.
Veiem un exemple d'una taula on les dades estan recollides per intervals.

Fixa't que a la primera columna s'han separat 5 intervals. En aquest cas tots d'amplitud (distància entre els extrems de l'interval) 200.

A la segona columna s'han calculat les marques de classe, és a dir els punts mitjos dels intervals: $fracción numerador 0 más 200 entre denominador 2 fin fracción igual 100 punto y coma espacio fracción numerador 200 más 400 entre denominador 2 fin fracción igual 300 coma espacio......$

I a la darrera columna hi tenim les freqüències absolutes. Per exemple el primer 5 ens indica que de les dades estudiades n'hi ha 5 que estan entre 0 i 200, però no sabem quin valor exacte prenen: (podrien estar molt properes a 0, properes a 200, disperses dins l'interval, centrades a prop de la marca de classe,...). Ara bé, quan passem a fer càlculs es treballarà com si les 5 dades fossin la marca de classe 100 i això naturalment fa perdre precisió, però aquesta pèrdua de precisió es compensa en la rapidesa en què es podran fer els càlculs posteriors.

Els gràfics estadístics

Els gràfics estadístics ens permeten fer-nos una idea ràpida i visual sobre el comportament de la variable estudiada a partir d'un dibuix. N'hi ha de molts tipus. Els més importants són:

Diagrama de barres i polígon de freqüències

Aquests diagrames es fan amb variables qualitatives, o quantitatives discretes. Per fer-los cal:

Dibuixar els eixos de coordenades.

A l'eix d'abscisses es representa el valor de la variable i a l'eix d'ordenades la freqüència absoluta (o relativa).

Per cada valor es dibuixa una barra que tingui com alçada la freqüència absoluta (o relativa)

El polígon de freqüències es pot fer unint els punts mitjos dels extrems d'aquestes barres.

Histograma

És com el diagrama de barres però per variables agrupades en intervals.

Cal dibuixar els eixos
A l'eix d'abscisses es dibuixen els intervals i a l'eix d'ordenades les freqüències
Per cada interval dibuixem un rectangle amb àrea proporcional a la freqüència. Si tots els intervals tenen la mateixa amplitud , tots els rectangles tenen la mateixa amplada i l'altura correspon a la freqüència

Diagrama de sectors

El podem fer per qualsevol tipus de variable

Es dibuixa un cercle o semicercle i es divideix en tants sectors com valors pren la variable. L'amplitud de cada sector ha de ser proporcional a la freqüència absoluta o relativa.
Per calcular l'amplitud de cada sector utilitzarem la següent fórmula. $alfa subíndice i igual 360 grados por f subíndice i igual fracción numerador 360 grados por n subíndice i entre denominador N fin fracción$ (fixeu-vos que podeu fer-ho aplicant la regla de tres)

Paràmetres estadístics

Un cop tenim les dades endreçades en una taula, en el cas de les variables quantitatives interessa buscar-ne alguns paràmetres que ens aportin informació a partir d'un sol nombre.

Hi ha paràmetres de molts tipus: de centralització, de dispersió, de simetria, de curtosis, etc, però ens centrarem bàsicament en els dos primers tipus.

Mesures de centralització

Ens indiquen on es situen els valors centrals de la distribució. Les principals són:

NOM	COM ES CALCULA
Mitjana aritmètica $envoltorio arriba X$	$Error converting from MathML to accessible text.$ És el valor que tindrien les dades si totes fossin iguals i sumessin el mateix.
Mediana Me	Si la N és senar Me = dada que ocupa el lloc $Error converting from MathML to accessible text.$ Si la N és parell Me = mitjana de les dades que ocupen el lloc $Error converting from MathML to accessible text.$ És el valor que està just al mig de la distribució. La meitat de dades són iguals o superiors a la mediana i la meitat menors o iguals.
Moda Mo	És la dada que té més freqüència, és a dir la que més és repeteix

Convé molt que llegeixis amb deteniment els detalls i exemples que trobaràs en aquest document, sobretot fixa't molt bé en la interpretació de cada paràmetre: Mesures de centralització.

Mesures de dispersió

Fixa't en aquestes dues distribucions de dades:

A:1, 4, 4, 9.

B: 4, 4, 4, 4, 4, 5, 5, 6

En el cas A: la Mo=4, la Me=4 i la $envoltorio arriba X$ = 4,5.

En el cas B: la Mo=4, la Me=4 i la $envoltorio arriba X$ = 4,5.

Observa que coincideixen els tres paràmetres de centralització, en canvi a cop d'ull es veu que es tracta de dues distribucions prou diferents. Això ens fa pensar que ens calen altres paràmetres per fer un bon estudi.

Les mesures de dispersió ens donen una idea del grau de separació de les dades de la distribució.

Aquí tenim les fórmules principals. És especialment important que recordeu i sapigueu aplicar la fórmula de la variància i de la desviació típica. Observeu que es donen dues fórmules alternatives pel càlcul de la variància. Convé saber les dues i utilitzar la que més convingui segons quines dades coneguem. A ser possible farem servir la segona opció, ja que això ens evitarà haver d'anar introduint parèntesis a la calculadora.

NOM	COM ES CALCULA
Rang o recorregut R	$Error converting from MathML to accessible text.$
Desviació mitjana $Error converting from MathML to accessible text.$	$Error converting from MathML to accessible text.$
Variància $Error converting from MathML to accessible text.$	$Error converting from MathML to accessible text.$
Desviació típica $Error converting from MathML to accessible text.$	$Error converting from MathML to accessible text.$

El coeficient de variació

El coeficient de variació serveix per comparar dues distribucions diferents. Ens indica quina de les distribucions té menys dispersió i per tant una mitjana més representativa.

Quan més petit és el CV menys dispersió i més representativitat té la mitjana aritmètica de la distribució.

$Error converting from MathML to accessible text.$ es calcula dividint la desviació típica entre la mitjana aritmètica.

Exercici resolt: estadística unidimensional

Les dades (en blau) de la taula inferior mostren els resultats d'uns esportistes en una prova de salt de perxa.

a) Completa la taula de freqüències omplint les caselles que falten.

_{mesura salt} _(metres)	marca de classe	Nombre d'esportistes (Freqüència absoluta)	Freqüència absoluta acumulada	Freqüència relativa arrodonir a dos decimals	Freqüència relativa acumulada arrodonir a dos decimals	*x_in_i**	n_i·x_i²
[2, 2.5)		6
[2.5, 3)		12
[3, 3.5)		15
[3.5, 4)		4
TOTALS

b) Calcula el rang.

c) Calcula la mitjana aritmètica.

d) Calcula quin % d'esportistes va saltar més 3.5 m.

e) Calcula la variància i la desviació típica.

a) Resposta

_{mesura salt} _(metres)	marca de classe	Nombre d'esportistes (Freqüència absoluta)	Freqüència absoluta acumulada	Freqüència relativa arrodonir a dos decimals	Freqüència relativa acumulada arrodonir a dos decimals	*x_in_i**	n_i·x_i²
[2, 2.5)	2.25	6	6	6/37=0.16	0.16	13.5	30,375
[2.5, 3)	2.75	12	18	12/37=0.32	0.48	33	90,75
[3, 3.5)	3.25	15	33	15/37=0.41	0.89	48.75	158,4375
[3.5, 4)	3.75	4	37	4/37=0.11	1	15	56,25
TOTAL		37		1		110.25	335,8125

b) El rang d'una variable estadística és la diferència entre el valor més gran i el valor més petit. Rang (X) =4-2=2

c) La mitjana aritmètica es calcula amb la fórmula:

$\bar{x}= \frac{ \sum x_{i} \cdot n_{i}}{n}$

$envoltorio arriba x igual fracción numerador 110.25 entre denominador 37 fin fracción igual 2.98 espacio m$

d) Cal mirar la freqüència relativa de l'interval [3.5 , 4) i veiem que és 4/37=0,11→11%

És a dir , hi ha 4 esportistes dels 37 que hi ha en total que han saltat més de 3.5 m. O sigui l'11%

e) Disposem de dues fórmules pel càlcul de la variància, però a partir de la taula (darrera columna) ens convé fer servir $sigma al cuadrado igual fracción numerador estilo mostrar pila sumatorio normal x al cuadrado subíndice normal î con normal i debajo y normal k encima por normal n subíndice normal i fin estilo entre denominador normal N fin fracción menos envoltorio arriba normal X al cuadrado$

Substituïm els valors de la taula i els ja obtinguts a la fórmula:

$sigma al cuadrado igual fracción numerador estilo mostrar pila sumatorio normal x al cuadrado subíndice normal î con normal i debajo y normal k encima por normal n subíndice normal i fin estilo entre denominador normal N fin fracción menos envoltorio arriba normal X al cuadrado igual fracción numerador 335 coma 8125 entre denominador 37 fin fracción menos 2 coma 98 al cuadrado casi igual a 0 coma 1956$ m

Estadística bidimensional

Una variable estadística bidimensional és la que resulta d'observar conjuntament dues característiques X i Y relatives a una mateixa població o mostra.

Cada observació d’un element de la mostra està representada per un parell de valors (x,y).
No es tracta de fer un estudi aïllat de cadascuna de les variables, sinó d’estudiar la relació o dependència que pugui existir entre elles, en el cas que aquesta relació existeixi.

Exemple: La variable (X,Y) que recull les notes finals de matemàtiques i física respectivament dels alumnes d'una classe. Aquesta variable pot prendre els valors:

(X,Y)={(0,0),(0,1),(0,2),...(0,10),(1,0),(1,1),(1,2)....(1,10),(2,0),(2,1)...(2,10),........(10,0),(10,1),...(10,10)}

El conjunt de totes les dades procedents de l'observació d'una variable estadística bidimensional s'anomena distribució bidimensional.

Taules bidimensionals

La manera més habitual d’expressar els valors obtinguts en una distribució estadística bidimensional és mitjançant una taula de contingència o taula de doble entrada.
Al marge superior de la taula s’escriuen els resultats d’una de les variables i al marge esquerre, els valors de l’altra variable.
En les caselles de la taula s’indiquen simultàniament les freqüències absolutes, les freqüències relatives o els percentatges corresponents a les dues variables.
També s’acostuma a afegir al final de cada fila i de cada columna les anomenades distribucions marginals, que donen les distribucions unidimensionals de cadascuna de les variables per separat.

Les distribucions marginals de les variables X i Y s’obtenen a partir de la taula de contingència, considerant cada variable per separat. Representen les freqüències dels valors d’una variable, independentment dels valors de l’altra.
A partir de les distribucions marginals podem calcular la mitjana i la desviació típica de cadascuna de les variables, estudiant-les com una variable unidimensional.

Exemple

S'ha realitzat una enquesta a 50 persones preguntant pel nombre de persones (X) que habiten la llar familiar i el nombre d'habitacions (Y) que té la casa. Els resultats obtinguts (x_i,y_j) són els següents:

(3,4),(2,1),(2,4),(3,2),(3,2),(3,3),(2,1),(2,2),(2,2),(4,5),

(4,3),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),(3,2),(3,4),(4,4),

(5,4),(6,4),(3,2),(2,2),(2,2),(4,5),(4,3),(2,3),(3,3),(3,4),

(3,2),(5,3),(6,5),(6,4),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),

(1,1),(2,4),(3,2),(3,2),(1,2),(4,3),(4,4),(1,2),(4,5),(3,3)

La taula de doble entrada següent mostra la distribució de dades obtingudes

La fila final en color blau correspon a la variable marginal de la X, observa que senzillament cal sumar totes les freqüències per columnes.

La columna final en color blau correspon a la variable marginal de la Y, observa que senzillament cal sumar totes les freqüències per files.

També podem considerar les variables X i Y com a variables unidimensionals si volem trobar els seus paràmetres estadístics com ara la mitjana i la desviació tipus

Exemple 2

En casos de poques dades o dades no repetides, és habitual que les taules es donin només en dues files (o dues columnes)

Per exemple una taula com aquesta

ens indica en cada columna l'observació d'un individu respecte a les dues variables observades.

Suposem que en aquest cas

X=nombre de vegades que va necessitar un individu per aprovar la teòrica del carnet de conduir.

i Y=nombre de vegades que va necessitar un individu per aprovar les pràctiques del carnet de conduir.

Doncs bé, aquesta taula treballa amb una mostra de 10 individus (les 10 columnes).

El primer individu va aprovar a la primera la teòrica i a la tercera les pràctiques, el segon va aprovar a la segona la teòrica i a la cinquena les pràctiques,....

En aquests casos de poques dades no és necessari fer la taula de contingència.

Què vol dir dependència estadística?

Entre dues variables diem que hi ha dependència estadística quan els valors que pren una variable estan relacionats d'alguna manera amb els valors que pren l'altra, possiblement no d'una manera exacte.

Aquesta dependència pot ser de molts tipus: quadràtica, exponencial, lineal, funcional, .... En general l'estudi del curs es basarà en la dependència lineal (és a dir, estudiar si el comportament d'una variable respecte a l'altra s'aproxima a una recta).

Quan les variables són de tipus quantitatiu, l'estudi de la dependència estadística es coneix com el problema de "regressió", i l'anàlisi del grau de dependència que hi ha entre les variables es coneix com el problema de correlació. L'objectiu principal de la regressió és descobrir la manera en què es relacionen.

Exemple

En una taula de pesos i altures de 10 persones es pot suposar que la variable "Alçada" influeix sobre la variable "Pes" en el sentit que pesos grans vénen explicats per valors grans d'altura (en general). De les dues variables a estudiar, que anomenarem amb X i Y, anomenarem a la X VARIABLE INDEPENDENT , i a l'altra (la Y) l'anomenarem VARIABLE DEPENDENT.

En la majoria dels casos la relació entre les variables és mútua, i és difícil saber quina variable influeix sobre l'altra. En l'exemple anterior, a una persona que pesa poc li suposarem menor altura i a una persona de poca altura li suposarem un pes més baix. És a dir, es pot admetre que cada variable influeix sobre l'altra de forma natural i per igual. Un exemple més clar on distingir entre variable independent i dependent és aquell on s'anota, de cada alumne d'una classe, el seu temps d'estudi (en hores) i la seva nota d'examen.
En aquest cas un petit temps d'estudi tendirà a obtenir una nota més baixa, i una nota bona ens indicarà que potser l'alumne ha estudiat molt. No obstant això, a l'hora de determinar quina variable depèn de l'altra, és clar que el "temps d'estudi" influeix sobre la "nota d'examen" i no al contrari, ja que l'alumne primer estudia un temps que pot decidir lliurement, i després obté una nota que ja no decideix arbitràriament. Per tant,

X = Temps d'estudi (variable independent)

Y = Nota d'examen (variable dependent)

Per detectar si hi ha algun tipus de relació de dependència entre dues variables és molt útil dibuixar-les per a visualitzar com és aquesta relació. Per això se sol utilitzar un gràfic anomenat núvol de punts o diagrama de dispersió consistent en representar sobre uns eixos de coordenades tots els parells de valors que apareguin en la mostra.
Habitualment es representa en l'eix d'abscises (X) la variable independent, i en l'eix de les ordenades (Y) la variable dependent.

En realitzar un diagrama de dispersió entre dues variables X i Y poden sorgir algunes de les següents situacions:

Una relació matemàtica exacta entre X i Y, és a dir, donat un valor de X podem calcular el valor de la variable Y corresponent mitjançant una fórmula (dependència matemàtica).
No s'observa cap relació entre les variables, és a dir, conèixer X no serveix en absolut per calcular Y (independència estadística).
Tot i que no hi hagi una dependència matemàtica exacta, si que s'observa una relació aproximada (dependència estadística). Els punts s'acosten a la gràfica d'una funció

Exemples :

		Hi ha una relació matemàtica exacte entre X i Y ja que $y igual paréntesis izquierdo x menos 2 paréntesis derecho al cuadrado$
		No hi ha cap relació entre X i Y
		S'observa una relació aproximada o dependència estadística (i és lineal)
		S'observa una relació aproximada o dependència estadística (i no és lineal)

El problema de trobar una relació funcional entre dues variables és molt complex, ja que hi ha infinitat de funcions de formes diferents. El cas més senzill de relació entre dues variables és la relació LINEAL, és a dir que Y = a + b X . És l'equació d'una recta on a i b són nombres, que és el cas en què ens centrarem en aquest curs

En concret el tercer núvol de punts es "semblant " a una recta. Si sabéssim calcular l'equació d'aquesta recta, es podria "aproximar" el valor de Y un cop conegut el valor de X. El problema de trobar l'equació de la recta que més s'assembli (o que millor s'ajusti) al núvol de punts es coneix com regressió lineal.
El primer núvol de punts és similar a l'últim, encara que en aquests cassos els núvols de punts s'aproximen a una corba i no a una recta. Trobar l'equació d'aquesta corba seria un problema de regressió no lineal.

Fórmules per variables bidimensioanals

Amb les variables bidimensionals, un cop s'han recollit les dades en taules interessa fer càlculs que ens ajudin a determinar el grau de dependència entre les dues variables.

La dependència entre dues variables pot ser lineal (recta) o funcional (altre tipus de funció). Per estudiar si dues variables tenen dependència lineal tenim diversos paràmetres.

Covariància

Tenim dues possibles fórmules per calcular la covariància entre dues variables X i Y. Triarem una o altra depenent del tipus de dades que disposem, tot i que en general és més ràpida la primera doncs no s'han d'introduir parèntesis a la calculadora.

$envoltorio caja sigma subíndice x y fin subíndice igual fracción numerador sumatorio subíndice blanco superíndice blanco x subíndice i por y subíndice i por n subíndice i entre denominador N fin fracción menos x con barra encima por y con barra encima espacio espacio espacio espacio espacio espacio espacio espacio espacio espacio espacio espacio o espacio b é dos puntos espacio fino espacio espacio espacio espacio espacio espacio espacio espacio espacio espacio sigma subíndice x y fin subíndice igual fracción numerador sumatorio subíndice blanco superíndice blanco paréntesis izquierdo x subíndice i menos x con barra encima paréntesis derecho paréntesis izquierdo y subíndice i menos y con barra encima paréntesis derecho entre denominador N fin fracción fin envoltorio$

Es pot veure que la variància és com la covariància en cas que les dues variables fossin la mateixa.

Què ens indica el valor de la covariància entre dues variables? L'hem d'interpretar de la següent manera:

Si $sigma subíndice X Y fin subíndice mayor que 0 menos menos mayor que d e p e n d è n c i a espacio l i n e a l espacio p o s i t i v a$

Si $sigma subíndice X Y fin subíndice menor que 0 menos menos mayor que d e p e n d è n c i a espacio l i n e a l espacio n e g a t i v a$

Si $sigma subíndice X Y fin subíndice igual 0 menos menos mayor que n o espacio h i espacio h a espacio d e p e n d è n c i a espacio l i n e a l$

Correlació

Coeficient de correlació

La correlació, que es calcula a partir de la covariància, a més de dir-nos si hi ha o no dependència de tipus lineal, ens dóna informació sobre el grau d'aquesta dependència. Ens diu si aquesta dependència és forta o fluixa.

Si estudiem la correlació entre dues variables, podem mesurar-la quantitativament, mitjançant el coeficient de correlació lineal de Pearson r.

$envoltorio caja negrita espacio negrita r subíndice negrita XY negrita igual fracción numerador negrita sigma subíndice negrita XY entre denominador negrita sigma subíndice negrita X negrita por negrita sigma subíndice negrita Y fin fracción negrita espacio fin envoltorio$

El coeficient de correlació és un nombre entre -1 i 1.

$menos 1 menor o igual que r subíndice X Y fin subíndice menor o igual que 1$

$negrita sigma subíndice negrita xy negrita espacio negrita és negrita espacio negrita la negrita espacio negrita covariància normal sigma subíndice xy igual fracción numerador estilo mostrar sumatorio para normal i coma normal j de normal x subíndice normal i por normal y subíndice normal j por normal n subíndice ij fin estilo entre denominador normal N fin fracción espacio menos espacio envoltorio arriba normal x espacio por espacio envoltorio arriba normal y espacio espacio espacio espacio espacio espacio N igual n º espacio t o t a l espacio d apóstrofo i n d i v i d u s espacio e s t u d i a t s. negrita sigma subíndice negrita x negrita espacio negrita és negrita espacio negrita la negrita espacio negrita desviació negrita espacio negrita típica negrita espacio negrita o negrita espacio negrita estàndard negrita espacio negrita de negrita espacio negrita la negrita espacio negrita variable negrita espacio negrita X normal sigma subíndice normal x igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para normal i de normal x subíndice normal i superíndice 2 por normal n subíndice normal i fin estilo entre denominador normal N fin fracción espacio menos espacio envoltorio arriba normal x espacio al cuadrado espacio espacio fin raíz espacio espacio negrita sigma subíndice negrita y negrita espacio negrita és negrita espacio negrita la negrita espacio negrita desviació negrita espacio negrita típica negrita espacio negrita o negrita espacio negrita estàndard negrita espacio negrita de negrita espacio negrita la negrita espacio negrita variable negrita espacio negrita Y normal sigma subíndice normal y igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para normal j de normal y subíndice normal j superíndice 2 por nj fin estilo entre denominador normal N fin fracción espacio menos espacio envoltorio arriba normal y espacio al cuadrado espacio espacio fin raíz espacio espacio$

Com interpretarem la correlació r?

- -1≤ r ≤ 1 sempre
- Si r > 0 (nombre positiu), hi ha correlació lineal positiva o directa
- Si r < 0 (nombre negatiu), hi ha correlació lineal negativa o inversa
- Si r = -1 Les dues variables estaran correlacionades linealment de forma perfecta, i el núvol de punts es disposa exactament damunt d'una línia recta decreixent (a la pràctica rarament serà així)
- Si r = 1 Les dues variables estaran correlacionades linealment de forma perfecte, i el núvol de punts es disposa exactament damunt d'una d'una línia recta creixent (a la pràctica rarament serà així)
- Com més proper sigui r a -1, la correlació serà més forta i inversa
- Com més proper sigui r a 1, la correlació serà més forta i directa
- Com més proper sigui r a 0, la correlació serà més dèbil, és a dir el núvol de punts s'assemblarà menys a la recta.

Gràficament :


correlació positiva o directa, dèbil	correlació positiva o directa, forta

correlació negativa o inversa, forta	No hi ha correlació

Com es calcula el coeficient de correlació?

Si tenim en compte únicament el cas de la correlació lineal (que és el nostre objectiu), se sol utilitzar l'anomenat coeficient de Pearson.

El coeficient de Pearson, r, d'una variable bidimensional (X,Y) és un paràmetre estadístic que es calcula a partir de l'expressió:

$envoltorio caja negrita espacio negrita espacio negrita r negrita igual fracción numerador negrita sigma subíndice negrita x negrita y fin subíndice entre denominador negrita sigma subíndice negrita x negrita por negrita sigma subíndice negrita y fin fracción negrita espacio negrita espacio negrita espacio fin envoltorio$

$bold italic sigma subíndice negrita x negrita y fin subíndice negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic c bold italic o bold italic v bold italic a bold italic r bold italic i bold italic à bold italic n bold italic c bold italic i bold italic a sigma subíndice x y fin subíndice igual fracción numerador estilo mostrar sumatorio para i coma j de x subíndice i por y subíndice j por n subíndice i j fin subíndice fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba x espacio por espacio envoltorio arriba y espacio espacio espacio espacio espacio espacio paréntesis izquierdo espacio espacio N igual pila sumatorio x subíndice i con i debajo igual pila sumatorio y subíndice j con j debajo espacio espacio espacio paréntesis derecho bold italic sigma subíndice negrita x negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negrita espacio bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negrita espacio bold italic o negrita espacio bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic X sigma subíndice x igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para i de x subíndice i superíndice 2 por n subíndice i fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba x espacio al cuadrado espacio espacio fin raíz espacio espacio bold italic sigma subíndice negrita y negrita espacio bold italic é bold italic s negrita espacio bold italic l bold italic a negrita espacio bold italic d bold italic e bold italic s bold italic v bold italic i bold italic a bold italic c bold italic i bold italic ó negrita espacio bold italic t bold italic í bold italic p bold italic i bold italic c bold italic a negrita espacio bold italic o negrita espacio bold italic e bold italic s bold italic t bold italic à bold italic n bold italic d bold italic a bold italic r bold italic d negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic Y sigma subíndice y igual raíz cuadrada de fracción numerador estilo mostrar sumatorio para j de y subíndice j superíndice 2 por n j fin estilo entre denominador N fin fracción espacio menos espacio envoltorio arriba y espacio al cuadrado espacio espacio fin raíz espacio espacio bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic X negrita dos puntos envoltorio arriba x igual fracción numerador estilo mostrar sumatorio para i de x subíndice i superíndice blanco por n subíndice i fin estilo entre denominador estilo mostrar sumatorio para i de espacio n subíndice i fin estilo fin fracción bold italic m bold italic i bold italic t bold italic j bold italic a bold italic n bold italic a negrita espacio bold italic d bold italic e negrita espacio bold italic l bold italic a negrita espacio bold italic v bold italic a bold italic r bold italic i bold italic a bold italic b bold italic l bold italic e negrita espacio bold italic Y negrita dos puntos envoltorio arriba y espacio igual fracción numerador estilo mostrar sumatorio para j de y subíndice j superíndice blanco por n subíndice j fin estilo entre denominador estilo mostrar pila sumatorio n subíndice j con j debajo fin estilo fin fracción$

Procediment:

Saber quina és la variable X, i quina és la variable Y
Fem la taula de doble entrada
A partir d'aquesta taula crearem 3 taules més:
- La primera d'aquestes taules serà de la variable X. En les columnes hi situarem els valors $x subíndice i espacio coma espacio x subíndice i por n subíndice i espacio espacio i espacio espacio espacio x subíndice i superíndice 2 por n subíndice i$
- La segona d'aquestes taules serà de la variable Y. En les columnes hi situarem els valors $y subíndice j espacio coma espacio y subíndice j por n subíndice j espacio espacio i espacio espacio espacio y subíndice j superíndice 2 por n subíndice j$
- La tercera i última d'aquestes taules serà de la variable bidimensional XY. En les columnes hi situarem els valors $paréntesis izquierdo x subíndice i coma y subíndice j paréntesis derecho espacio coma espacio n subíndice i j fin subíndice espacio espacio i espacio espacio espacio x subíndice i por y subíndice j por n subíndice i j fin subíndice espacio espacio$

Amb aquestes tres taules i la suma total de les seves columnes, podreu calcular tots els paràmetres:

Mitjana, variància i desviació estàndard (o típica) de X
Mitjana, variància i desviació estàndard (o típica) de Y
Covariància
Coeficient de correlació lineal de Pearson

Encara que són molts passos, sempre són els mateixos. I per tant si sabeu fer un problema d'aquest tipus, segur que sabreu fer-los tots.

Exemple :

S'ha realitzat una enquesta a 50 persones preguntant per el nombre de persones (X) que habiten la llar familiar i el nombre d'habitacions (Y) que té la casa. Els resultats obtinguts (x_i,y_j) són els següents:

(3,4),(2,1),(2,4),(3,2),(3,2),(3,3),(2,1),(2,2),(2,2),(4,5),

(4,3),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),(3,2),(3,4),(4,4),

(5,4),(6,4),(3,2),(2,2),(2,2),(4,5),(4,3),(2,3),(3,3),(3,4),

(3,2),(5,3),(6,5),(6,4),(2,2),(5,4),(4,3),(4,2),(4,3),(4,3),

(1,1),(2,4),(3,2),(3,2),(1,2),(4,3),(4,4),(1,2),(4,5),(3,3)

La taula de doble entrada següent mostra la distribució de dades obtingudes

També podem considerar les variables X i Y com a variables unidimensionals si volem trobar els seus paràmetres estadístics com ara la mitjana i la desviació tipus. Aquestes variables es coneixen com a marginals. Observem que a partir de la informació bidimensional, sempre podem trobar les característiques de les variables marginals (X i Y pensades separadament), només s'han de sumar files o columnes segons el cas. Un cop tenim les marginals, ja podem calcular-ne tots els paràmetres estadístics unidimensionals que ens calguin.

I ara finalment ja podem trobar el coeficient de Pearson: $r igual fracción numerador 0 apóstrofo 81 entre denominador 1 apóstrofo 24 espacio por espacio 1 apóstrofo 07 fin fracción igual espacio envoltorio caja espacio 0 apóstrofo 61 espacio fin envoltorio$

A partir d'aquest valor que podríem dir? Doncs que hi ha certa dependència lineal positiva entre les dues variable, en prendre el valor 0,61 veiem que la dependència és forta però tampoc massa.

Recta de regressió

En una distribució bidimensional, una vegada constatada la correlació lineal entre les dues variables, mitjançant el coeficient de correlació lineal de Pearson (r) es poden fer estimacions, és a dir prediccions de valors possibles d'una variable.

Per fer aquestes prediccions, s'ha de calcular una recta de regressió, és a dir s'ha de buscar l'expressió algebraica de la recta que aproxima millor el núvol de punts.

Hi ha dues rectes de regressió que es calcularan en funció de la correlació i les mitjanes i variàncies de les variables marginals:

La de Y sobre X	$estilo tamaño 18px espacio espacio espacio y espacio igual envoltorio arriba y espacio más fracción numerador sigma subíndice x y fin subíndice entre denominador sigma subíndice x superíndice 2 fin fracción por paréntesis izquierdo x menos envoltorio arriba x paréntesis derecho espacio espacio espacio fin estilo$
La de X sobre Y	$estilo tamaño 18px espacio espacio x espacio igual envoltorio arriba x espacio fin envoltorio más fracción numerador sigma subíndice x y fin subíndice entre denominador sigma subíndice y superíndice 2 fin fracción por paréntesis izquierdo y menos envoltorio arriba y paréntesis derecho espacio espacio espacio fin estilo$

La utilització d'una o l'altra depèn del context del problema. En ocasions l'enunciat ja diu quina recta utilitzar. En altres ocasions cal deduir-ho en funció de les dades.

Si es demana predir un valor de y donat el valor de x, cal usar la recta de Y sobre X, ja que és la recta en la que queda aïllada la Y.

Si es demana predir el valor de x coneixent la y corresponent, cal usar la recta de regressió de X sobre Y, ja que és la recta en la que queda aïllada la X.

La recta de regressió correspon a la recta que millor s'ajusta a la distribució de punts (núvol de punts).

Per exemple en la distribució bidimensional d'aquest notes:

Procediment pel càlcul de la recta

Per trobar l'equació de la recta de regressió ens cal:

Saber quina és la variable X, i quina és la variable Y
Fer una taula amb les columnes: valors de X, valors de Y , valors de X², valors de Y², valors de XY i els totals.

Amb aquestes columnes i la suma total d'aquestes columnes, es podran calcular tots els paràmetres:

Mitjana, variància i desviació estàndard (o típica) de X
Mitjana, variància i desviació estàndard (o típica) de Y
Covariància
Coeficient de correlació lineal de Pearson
Recta de regressió de Y sobre X o bé Recta de regressió de X sobre Y
Fer una predicció

Encara que són molts passos, sempre són els mateixos. I per tant si sabeu fer un problema d'aquest tipus, segur que sabreu fer-los tots.

Exemple

En la taula següent es donen les notes del test de aptitud (X) de sis aspirants a venedors i Y vendes realitzades per cada un, durant el primer mes, en cents d'euros.

a) Calcular "r" i interpretar el resultat

b) Trobar la recta de regressió de Y sobre X. Predir les vendes d'un venedor que tingui 47 en el test.

Resolució:

Observem que "r" és molt proper a 1, per tant la correlació lineal és forta i directa. A més nota en el test, més vendes és possible que faci l'aspirant.

r ens indica que les dues variables estan fortament relaciones, i per tant la predicció que ha sortit aplicant la recta de regressió, és fiable.

Després dels càlculs hem arribat a la conclusió que un aspirant amb 47 punts en el test, és probable que vengui per un valor de 76,41 cents d'euros = 7641 €

Exemple de regressió II

Seguint amb l'exemple treballat en el punt 2.4 on s'estudiaven les variables X= nombre d'habitants en una llar, Y=nombre d'habitacions.

En el punt 2.4 estaven fets els càlculs fins a trobar el coeficient de correlació de Pearson. Ara anem ara a cercar-ne la recta de regressió de Y sobre X.

$estilo tamaño 14px espacio espacio espacio y espacio igual envoltorio arriba y espacio más fracción numerador sigma subíndice x y fin subíndice entre denominador sigma subíndice x superíndice 2 fin fracción por paréntesis izquierdo x menos envoltorio arriba x paréntesis derecho espacio espacio espacio espacio espacio y espacio igual 2 apóstrofo 94 más fracción numerador 0 apóstrofo 81 entre denominador 1 apóstrofo 24 al cuadrado fin fracción por paréntesis izquierdo x menos 3 apóstrofo 32 paréntesis derecho espacio espacio espacio flecha derecha y espacio igual 2 apóstrofo 94 más 0 apóstrofo 53 por paréntesis izquierdo x menos 3 apóstrofo 32 paréntesis derecho espacio espacio espacio flecha derecha envoltorio caja espacio y espacio igual 0 apóstrofo 53 x espacio más 1 apóstrofo 18 espacio fin envoltorio fin estilo$

Si volem ara per exemple inferir quantes habitacions tindrà una llar on hi visquin 4 persones sols hem de substituir la x per 4

$estilo tamaño 14px espacio espacio y espacio igual 0 apóstrofo 53 por 4 espacio más 1 apóstrofo 18 igual espacio 3 apóstrofo 3 espacio espacio espacio flecha derecha espacio 3 espacio h a b i t a c i o n s fin estilo$

Si fem el núvol de punts o diagrama de dispersió consistent de tots els parells de valors que apareguin en la mostra i també hi dibuixem la recta de regressió tindrem: