Skisser
Veke 12. Korrelasjon og regresjon
4.1. Veke 12. Korrelasjon og regresjon
4.1.2 Onsdag (førelesing)
Regresjon
Korrelasjon
4.1.3 Tysdag (rekneøving)
4.1.1. Lesestoff og heimearbeid
Les 13 (Regresjon og Korrelasjon) Frå Frisvold og Moe: Kapittel 12.1, 12.2 og 12.5.
4.1.2. Onsdag (førelesing)
Merk at notata nedanfor er meint å gje eit kort overblikk over hovedpunkta som vert gjennomgått. Det er ikkje meininga at du skal læra stoffet utan å vera til stades og lesa læreboka.
Oppgåve 4.1 Me ynskjer å forstå samanhengen mellom areal og pris på bustader. Me har observert sal av fem bustadar:
Areal | 50 | 70 | 95 | 100 | 120 |
Pris | 2 mill. | 2,3 mill | 3 mill | 2,9 mill | 3,3 mill |
Kva teknikkar og modellar kan me bruka for å forklara samanhengen?
Døme 7 Me har observert to stokastiske variablar: areal, som me skriv og pris, som me skriv . Observasjonane kjem i par , der me har observert pris og areal på den same bustaden. Då er det naturleg å plotta dei to variablane saman i -planet.
Oppgåve 4.2 (Drøfting) Sjå på plottet over. Går det an å skriva prisen som ein funksjon (omtrentleg eller eksakt) av arealet? Kva slags funksjon vil du føreslå?
Døme 8 Ein lineær funksjon er ein høveleg god tilnærming, som me ser her:
Me bruker minste kvadrats metode for å finna den beste lina eksakt (sjå læreboka).
Døme 9 Me kan rekna ut variansen for dei to variablane som fylgjer:
50 | 70 | 95 | 100 | 120 | Sum | |
-37 | -17 | 8 | 13 | 33 | 0 | |
1369 | 289 | 64 | 169 | 1089 | 2980 | |
2 mill. | 2,3 mill | 3 mill | 2,9 mill | 3,3 mill | ||
-0,7 mill. | -0,4 mill | 0,3 mill | 0,2 mill | 0,6 mill | 0 | |
0,49 | 0,16 | 0,09 | 0,04 | 0,36 | 1,14 | |
Mao. og .
Variansen er
for og
for . Utfall som er svært forskjellig frå gjennomsnittet trekk forventingsverdien (variansen) mykje opp. Utfall nær gjennomsnittet har liten innverknad.
Me kan òg studera kovariansen
Her ser me at utfall som er svært forskjellig frå gjennomsnittet for berre påverkar forventingsverdien når dei opptrer saman med -verdiar som òg avvik frå gjennomsnittet. Kovariansen kan ha negativt forteikn dersom plar vera stor når er liten og omvendt.
Døme 10 Me kan rekna ut utvalskovariansen som fylgjer:
50 | 70 | 95 | 100 | 120 | Sum | |
-37 | -17 | 8 | 13 | 33 | 0 | |
2 mill. | 2,3 mill | 3 mill | 2,9 mill | 3,3 mill | ||
-0,7 mill. | -0,4 mill | 0,3 mill | 0,2 mill | 0,6 mill | 0 | |
25,9 | 6,8 | 2,4 | 2,6 | 19,8 | 57,5 | |
Mao. .
Et problem med kovariansen som mål er at høg varians også bidreg til høg kovarians (i absoluttverdi). To variablar med høg kovarians treng difor ikkje vera svært avhengige av kvarandre. For å få eit godt mål for avhenget uavhengig av variansen, kan me normalisera og få den sokalla korrelasjonskoeffisienten:
4.1.3. Tysdag (rekneøving)
Oppgåve 4.3 Frisvold og Moe: oppgåve 12.1
Oppgåve 4.4 Frisvold og Moe: oppgåve 12.5
Oppgåve 4.5 (Predicting Mental Ability)
Er der ein lineær samanheng mellom alderen når eit barn tek til å tala, og mentale evnar seinare?
For å svara på dette har me samla data om ti born og registrert alderen i månader då dei fyrst talte, og score på ein evnetest som tenåring.
Alder (i månader) | Score |
15 | 95 |
26 | 71 |
10 | 83 |
9 | 91 |
15 | 102 |
20 | 87 |
18 | 93 |
11 | 100 |
8 | 104 |
20 | 94 |
Teikn eit spreidingplott (scatterplot) og avgjer om du synest der ser ut til å vera ein lineær samanheng mellom dei to variablane. Beskriv evt. samanhengen.
Rekn ut korrelasjonskoeffisienten () Kor stor andel av variasjonen i evnenivå (testresultat) kan forklarast med modellen?
Oppgåve 4.6 Sjå på fylgjande datasett:
0.00 | 1.00 | 2.00 | 3.00 | 4.00 | 5.00 | |
0.03 | 0.15 | 0.89 | 2.79 | 6.42 | 12.5 | |
Bruk minste kvadrats metode for å finna ei rett line som tilnærmer datasettet.