Statistikk og Simulering

Prosjekt 5

Veke 14 Bootstrap

9.1. Veke 14 Bootstrap

  9.1.1 Forundersøking
  9.1.2 Bootstrap
  9.1.3 Kontroll
  9.1.4 Eit døme til (Ekstra)
  9.1.5 Rekneøving (Ekstra)

Les 14 Frå Frisvold og Moe: Kapittel 14.

Sett at me studerer fordelinga åt vekta til ein bestemt fiskeart. Vekta til ein tilfeldig fisk er ein stokastisk variabel X med ei viss sannsynsfordeling. Sett at me har fiska n = 20 fisk, og målt fylgjande vekter:

15,6; 12,6; 13,7; 13,8; 17,0; 12,9; 11,5; 6,9; 7,8; 3,7; 13,0; 14,4; 6,6; 11,7; 11,1; 1,8; 14,9; 16,5; 12,3; 10,5

Dette er eit utval, med n observasjonar x1,x2,,xn av X.

Me veit korleis me kan rekna ut utvalsgjennomsnittet x̄ = 11,4 og utvalsstandardavviket s = 4,02 for dette utvalet.

Utvalsgjennomsnittet x̄ vert brukt for å estimera populasjonsgjennomsnittet μ. Sidan x̄ er rekna ut frå observasjonane xi, er ogso x̄ ein observasjon av ein stokastisk variabel som me noterer X̄. Dvs. utvalsgjennomsnittet har ein sannsynsfordeling, og kvar gong me finn gjennomsnittet i eit nytt utval får me ein ny observasjon og som regel eit nytt tal. Me vil (nesten) aldri treffa populasjonsgjennomsnittet μ akkurat, men som regel vil me treffa nær.

Kor nær me treff avheng av standardavviket åt X̄. Standardavviket åt ein estimator vert òg kalt standardfeilen. Me veit at standardfeilen her er gjeve som

σX̄ = σ n, (25) 

der σ er standardavviket åt X. Me kan estimera standardfeilen som

σ̂X̄ = σ̂ n = s n. (26) 

Dette gjev eit mål for kor presis X̄ er som estimator for μ.

Sett no at me ynskjer å studera standardavviket σ like djupt som me kan studera μ. Me har utvalsstandardavviket S som estimator for σ, men korleis kan me estimera standardfeilen σS åt S?

Med mindre me kjenner den underliggjande sannsynsfordelinga åt X finst der inga analytisk løysing på dette. I mange tilfelle må me rett og slett observera S mange gongar, slik at me har eit utval å rekna med. Me kan gjenta forsøket m gongar, og kvar gong observera eit utval på n = 20 fisk. For kvart utval kan me rekna ut eit utvalsstandardavvik, slik at me til slutt har m observasjonar s1,,sm av S. Då kan me rekna ut gjennomsnittet s̄ og utvalsstandardavviket sS.

Problemet med dette er at det er kostbart å samla data. Me treng m gongar so mykje data for å estimera standardfeilen for det opprinnelege forsøket. Bootstrap er ei vanleg løysing som går ut på å simulera m gjentakne utval basert på det eine opprinnelege utvalet.

For å laga eit bootstrap-utval, trekk me 20 tilfeldige fisk frå det fyrste utvalet med tilbakelegging; dvs. same måling kan verta utvald fleire gongar. Dersom det opprinnelege utvalet er representativt for populasjonen, so har bootstrap-utvalet òg ei rimeleg sannsynsfordeling.

13,0; 12,6; 10,513,7; 12,9; 14,4; 10,53,7; 10,512,6; 13,7; 13,7; 11,7; 14,9; 12,6; 11,7; 14,4; 13,0; 13,7; 14,9;

I dette bootstrap-utvalet finn me x̄ = 12,4 og s = 2,4. Gjentek med dette eksperimentet m gongar, kan me få eit utval med m observasjonar s av S, og rekna ut utvalsstandardavviket ss for utvalet av observasjonar av S, og bruka det som estimat for standardfeilen ved estimering av σ.

Bootstrap er mykje rekning og vert sjelden gjort for hand. Det er ei typisk simuleringsøving, og enkelt å gjera på maskin.

9.1.1. Forundersøking

Oppgåve 9.1 Last ned bootstrapgen.m, som du skal bruka til å laga syntetiske datasett.

Oppgåve 9.2 Test funksjonen

1   X = bootstrapgen(200) Dette dannar eit utval X med n = 200 observasjonar.

Oppgåve 9.3 Lag eit histogram over datasettet X. Bruk minst 20 søyler for å få eit godt inntrykk av fordelinga.

Oppgåve 9.4 Prøv å tippa på gjennomsnittet x̄ og utvalsstandardavviket s på augamål frå histogrammet. Kva verdiar vil du venta å finna når du startar å rekna?

Oppgåve 9.5 Bruk Matlab til å rekna ut gjennomsnittet x̄ og utvalsstandardavviket s for X.

9.1.2. Bootstrap

No skal me analysera standardavviket σ i dømet over vha. bootstrap.

Oppgåve 9.6 Estimer standardfeilen for gjennomsnittet X̄ i datasettet X over.

Oppgåve 9.7 Lag ein matlabfunksjon som tek eit utval X som argument, og returnerer eit bootstrap-utval med same storleik. Test funksjonen på datasettet X som du har brukt over. Finn s og x̄ for bootstrap-utvalet. Ser tala fornuftige ut?

Oppgåve 9.8 Skriv ein funksjon som genererer m bootstrap-utval frå det same datasettet X og reknar ut utvalsstandardavviket s kvar gong. Returverdien skal vera ein matrise (vektor) med m observasjonar av s.

Oppgåve 9.9 Test funksjonen frå forrige oppgåve på datasettet X, og lag eit datasett S med m observasjonar av s. Vel m sjølv. Plott S i eit histogram.

Oppgåve 9.10 Rekn ut gjennomsnitt og utvalsstandardavviket for datasettet S.

9.1.3. Kontroll

Får å validera bootstrap som metode, skal me no gjenta oppgåvene 9.89.10 med ein liten variasjon. I staden for å generera m bootstrap-utval skal me generera «ekte» utval ved hjelp av bootstrapgen.m.

Oppgåve 9.11 Skriv ein funksjon som genererer m utval vha. bootstrapgen.m, kvart med n = 200 observasjonar. Rekn ut utvalsstandardavviket s for kvart utval og returner ein matrise med m observasjonar av s.

Oppgåve 9.12 Test funksjonen frå forrige oppgåve og lag eit datasett S2 med m observasjonar av s. Bruk same m som i oppgåve 9.9. Plott S2 i eit histogram.

Oppgåve 9.13 Rekn ut gjennomsnitt og utvalsstandardavviket for datasettet S2.

9.1.4. Eit døme til (Ekstra)

Oppgåve 9.14 Sjå på datasettet som me brukte som døme i starten:

15,6; 12,6; 13,7; 13,8; 17,0; 12,9; 11,5; 6,9; 7,8; 3,7; 13,0; 14,4; 6,6; 11,7; 11,1; 1,8; 14,9; 16,5; 12,3; 10,5

Estimer standardavviket σ og standardfeilen for estimatoren vha. bootstrap.

9.1.5. Rekneøving (Ekstra)

Oppgåve 9.15 Ta utgangspunkt i fylgjande datasett:

10, 11, 11, 13, 15.

Svar på fylgjande

1.
Estimer standardavviket for populasjonen. (Punktestimat er tilrekkeleg.)
2.
Vis korleis du bruker bootstrap for å estimera standardfeilen for estimatoren du brukte over.

Oppgåve 9.16 Eksamen våren 2015, oppgåve 1.

Oppgåve 9.17 Eksamen våren 2015, oppgåve 7 og 9.

Oppgåve 9.18 Eksamen våren 2015, oppgåve 5 og 6.