Statistikk og Simulering

Skisser

Veke 12. Korrelasjon og regresjon

4.2. Veke 12. Korrelasjon og regresjon

4.2.1. Lesestoff og heimearbeid

Les 13 (Regresjon og Korrelasjon) Frå Frisvold og Moe: Kapittel 12.1, 12.2 og 12.5.

4.2.2. Onsdag (førelesing)

Merk at notata nedanfor er meint å gje eit kort overblikk over hovedpunkta som vert gjennomgått. Det er ikkje meininga at du skal læra stoffet utan å vera til stades og lesa læreboka.

Regresjon

Oppgåve 4.12 Me ynskjer å forstå samanhengen mellom areal og pris på bustader. Me har observert sal av fem bustadar:

Areal 50 70 95 100 120
Pris 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill

Kva teknikkar og modellar kan me bruka for å forklara samanhengen?

Døme 7 Me har observert to stokastiske variablar: areal, som me skriv X og pris, som me skriv Y . Observasjonane kjem i par (X,Y ), der me har observert pris og areal på den same bustaden. Då er det naturleg å plotta dei to variablane saman i (x,y)-planet.

pict

Oppgåve 4.13 (Drøfting) Sjå på plottet over. Går det an å skriva prisen som ein funksjon (omtrentleg eller eksakt) av arealet? Kva slags funksjon vil du føreslå?

Døme 8 Ein lineær funksjon er ein høveleg god tilnærming, som me ser her:

pict

Me bruker minste kvadrats metode for å finna den beste lina eksakt (sjå læreboka).

Korrelasjon

Døme 9 Me kan rekna ut variansen for dei to variablane som fylgjer:

x 50 70 95 100 120 Sum
x x ̄ -37 -17 8 13 33 0
(x x̄)2 1369 289 64 169 1089 2980
y 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill
y ȳ -0,7 mill. -0,4 mill 0,3 mill 0,2 mill 0,6 mill 0
(y ȳ)2 0,49 0,16 0,09 0,04 0,36 1,14

Mao. sX2 = 2980 og sY 2 = 1,14.

Dei to variablane er openbert ikkje uavhengige og variasjonen i kvar variabel er langt mindre interessant enn samanhengen mellom dei.

Variansen er

σX2 = E((X μ X)2)

for X og

σY 2 = E((Y μ Y )2)

for Y . Utfall som er svært forskjellig frå gjennomsnittet trekk forventingsverdien (variansen) mykje opp. Utfall nær gjennomsnittet har liten innverknad.

Me kan òg studera kovariansen

σXY = E((X μX)(Y μY )).

Her ser me at utfall som er svært forskjellig frå gjennomsnittet for X berre påverkar forventingsverdien når dei opptrer saman med Y -verdiar som òg avvik frå gjennomsnittet. Kovariansen kan ha negativt forteikn dersom X plar vera stor når Y er liten og omvendt.

Døme 10 Me kan rekna ut utvalskovariansen som fylgjer:

x 50 70 95 100 120 Sum
x x ̄ -37 -17 8 13 33 0
y 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill
y ȳ -0,7 mill. -0,4 mill 0,3 mill 0,2 mill 0,6 mill 0
(x x̄)(y ȳ) 25,9 6,8 2,4 2,6 19,8 57,5

Mao. sXY = 57,54 = 14,375.

Et problem med kovariansen som mål er at høg varians også bidreg til høg kovarians (i absoluttverdi). To variablar med høg kovarians treng difor ikkje vera svært avhengige av kvarandre. For å få eit godt mål for avhenget uavhengig av variansen, kan me normalisera og få den sokalla korrelasjonskoeffisienten:

ρ = σXY σXσY

4.2.3. Tysdag (rekneøving)

Oppgåve 4.14 Frisvold og Moe: oppgåve 12.1

Oppgåve 4.15 Frisvold og Moe: oppgåve 12.5

Oppgåve 4.16 (Predicting Mental Ability)

Er der ein lineær samanheng mellom alderen når eit barn tek til å tala, og mentale evnar seinare?

For å svara på dette har me samla data om ti born og registrert alderen i månader då dei fyrst talte, og score på ein evnetest som tenåring.

Alder (i månader) Score
15 95
26 71
10 83
9 91
15 102
20 87
18 93
11 100
8 104
20 94

Teikn eit spreidingplott (scatterplot) og avgjer om du synest der ser ut til å vera ein lineær samanheng mellom dei to variablane. Beskriv evt. samanhengen.

Rekn ut korrelasjonskoeffisienten (r = ρ̂) Kor stor andel av variasjonen i evnenivå (testresultat) kan forklarast med modellen?

Oppgåve 4.17 Sjå på fylgjande datasett:

x 0.00 1.00 2.00 3.00 4.00 5.00
y 0.03 0.15 0.89 2.79 6.42 12.5

Bruk minste kvadrats metode for å finna ei rett line y = a + bx som tilnærmer datasettet.