Statistikk og Simulering

Prosjekt 5

Veke 14 Bootstrap

9.1. Veke 14 Bootstrap

  9.1.1 Forundersøking
  9.1.2 Bootstrap
  9.1.3 Kontroll
  9.1.4 Eit døme til (Ekstra)
  9.1.5 Rekneøving (Ekstra)

Les 14 Frå Frisvold og Moe: Kapittel 14.

Sett at me studerer fordelinga åt vekta til ein bestemt fiskeart. Vekta til ein tilfeldig fisk er ein stokastisk variabel $X$ med ei viss sannsynsfordeling. Sett at me har fiska $n = 20$ fisk, og målt fylgjande vekter:

\begin{array}{l} 15,6; 12,6; 13,7; 13,8; 17,0; \\ 12,9; 11,5; 6,9; 7,8; 3,7; \\ 13,0; 14,4; 6,6; 11,7; 11,1; \\ 1,8; 14,9; 16,5; 12,3; 10,5 \end{array}

Dette er eit utval, med $n$ observasjonar $x_{1}, x_{2}, \dots, x_{n}$ av $X$ .

Me veit korleis me kan rekna ut utvalsgjennomsnittet $\bar{x} = 11,4$ og utvalsstandardavviket $s = 4,02$ for dette utvalet.

Utvalsgjennomsnittet $\bar{x}$ vert brukt for å estimera populasjonsgjennomsnittet $μ$ . Sidan $\bar{x}$ er rekna ut frå observasjonane $x_{i}$ , er ogso $\bar{x}$ ein observasjon av ein stokastisk variabel som me noterer $\bar{X}$ . Dvs. utvalsgjennomsnittet har ein sannsynsfordeling, og kvar gong me finn gjennomsnittet i eit nytt utval får me ein ny observasjon og som regel eit nytt tal. Me vil (nesten) aldri treffa populasjonsgjennomsnittet $μ$ akkurat, men som regel vil me treffa nær.

Kor nær me treff avheng av standardavviket åt $\bar{X}$ . Standardavviket åt ein estimator vert òg kalt standardfeilen. Me veit at standardfeilen her er gjeve som

\begin{align} σ_{\bar{X}} = \frac{σ}{\sqrt{n}}, & (25) \end{align}

der $σ$ er standardavviket åt $X$ . Me kan estimera standardfeilen som

\begin{align} {\hat{σ}}_{\bar{X}} = \frac{\hat{σ}}{\sqrt{n}} = \frac{s}{\sqrt{n}} . & (26) \end{align}

Dette gjev eit mål for kor presis $\bar{X}$ er som estimator for $μ$ .

Sett no at me ynskjer å studera standardavviket $σ$ like djupt som me kan studera $μ$ . Me har utvalsstandardavviket $S$ som estimator for $σ$ , men korleis kan me estimera standardfeilen $σ_{S}$ åt $S$ ?

Med mindre me kjenner den underliggjande sannsynsfordelinga åt $X$ finst der inga analytisk løysing på dette. I mange tilfelle må me rett og slett observera $S$ mange gongar, slik at me har eit utval å rekna med. Me kan gjenta forsøket $m$ gongar, og kvar gong observera eit utval på $n = 20$ fisk. For kvart utval kan me rekna ut eit utvalsstandardavvik, slik at me til slutt har $m$ observasjonar $s_{1}, \dots, s_{m}$ av $S$ . Då kan me rekna ut gjennomsnittet $\bar{s}$ og utvalsstandardavviket $s_{S}$ .

Problemet med dette er at det er kostbart å samla data. Me treng $m$ gongar so mykje data for å estimera standardfeilen for det opprinnelege forsøket. Bootstrap er ei vanleg løysing som går ut på å simulera $m$ gjentakne utval basert på det eine opprinnelege utvalet.

For å laga eit bootstrap-utval, trekk me 20 tilfeldige fisk frå det fyrste utvalet med tilbakelegging; dvs. same måling kan verta utvald fleire gongar. Dersom det opprinnelege utvalet er representativt for populasjonen, so har bootstrap-utvalet òg ei rimeleg sannsynsfordeling.

\begin{array}{l} 13,0; 12,6; 10,5 13,7; 12,9; \\ 14,4; 10,5 3,7; 10,5 12,6; \\ 13,7; 13,7; 11,7; 14,9; 12,6; \\ 11,7; 14,4; 13,0; 13,7; 14,9; \end{array}

I dette bootstrap-utvalet finn me $\bar{x} = 12,4$ og $s = 2,4$ . Gjentek med dette eksperimentet $m$ gongar, kan me få eit utval med $m$ observasjonar $s$ av $S$ , og rekna ut utvalsstandardavviket $s_{s}$ for utvalet av observasjonar av $S$ , og bruka det som estimat for standardfeilen ved estimering av $σ$ .

Bootstrap er mykje rekning og vert sjelden gjort for hand. Det er ei typisk simuleringsøving, og enkelt å gjera på maskin.

9.1.1. Forundersøking

Oppgåve 9.1 Last ned bootstrapgen.m, som du skal bruka til å laga syntetiske datasett.

Oppgåve 9.2 Test funksjonen

1   X = bootstrapgen(200)

Dette dannar eit utval X med

n = 200

observasjonar.

Oppgåve 9.3 Lag eit histogram over datasettet X. Bruk minst 20 søyler for å få eit godt inntrykk av fordelinga.

Oppgåve 9.4 Prøv å tippa på gjennomsnittet $\bar{x}$ og utvalsstandardavviket $s$ på augamål frå histogrammet. Kva verdiar vil du venta å finna når du startar å rekna?

Oppgåve 9.5 Bruk Matlab til å rekna ut gjennomsnittet $\bar{x}$ og utvalsstandardavviket $s$ for X.

9.1.2. Bootstrap

No skal me analysera standardavviket $σ$ i dømet over vha. bootstrap.

Oppgåve 9.6 Estimer standardfeilen for gjennomsnittet $\bar{X}$ i datasettet X over.

Oppgåve 9.7 Lag ein matlabfunksjon som tek eit utval X som argument, og returnerer eit bootstrap-utval med same storleik. Test funksjonen på datasettet X som du har brukt over. Finn $s$ og $\bar{x}$ for bootstrap-utvalet. Ser tala fornuftige ut?

Oppgåve 9.8 Skriv ein funksjon som genererer $m$ bootstrap-utval frå det same datasettet X og reknar ut utvalsstandardavviket $s$ kvar gong. Returverdien skal vera ein matrise (vektor) med $m$ observasjonar av $s$ .

Oppgåve 9.9 Test funksjonen frå forrige oppgåve på datasettet X, og lag eit datasett S med $m$ observasjonar av $s$ . Vel $m$ sjølv. Plott S i eit histogram.

Oppgåve 9.10 Rekn ut gjennomsnitt og utvalsstandardavviket for datasettet S.

9.1.3. Kontroll

Får å validera bootstrap som metode, skal me no gjenta oppgåvene 9.8–9.10 med ein liten variasjon. I staden for å generera $m$ bootstrap-utval skal me generera «ekte» utval ved hjelp av bootstrapgen.m.

Oppgåve 9.11 Skriv ein funksjon som genererer $m$ utval vha. bootstrapgen.m, kvart med $n = 200$ observasjonar. Rekn ut utvalsstandardavviket $s$ for kvart utval og returner ein matrise med $m$ observasjonar av $s$ .

Oppgåve 9.12 Test funksjonen frå forrige oppgåve og lag eit datasett S2 med $m$ observasjonar av $s$ . Bruk same $m$ som i oppgåve 9.9. Plott S2 i eit histogram.

Oppgåve 9.13 Rekn ut gjennomsnitt og utvalsstandardavviket for datasettet S2.

9.1.4. Eit døme til (Ekstra)

Oppgåve 9.14 Sjå på datasettet som me brukte som døme i starten:

\begin{array}{l} 15,6; 12,6; 13,7; 13,8; 17,0; \\ 12,9; 11,5; 6,9; 7,8; 3,7; \\ 13,0; 14,4; 6,6; 11,7; 11,1; \\ 1,8; 14,9; 16,5; 12,3; 10,5 \end{array}

Estimer standardavviket $σ$ og standardfeilen for estimatoren vha. bootstrap.

9.1.5. Rekneøving (Ekstra)

Oppgåve 9.15 Ta utgangspunkt i fylgjande datasett:

10, 11, 11, 13, 15 .

Svar på fylgjande

1.: Estimer standardavviket for populasjonen. (Punktestimat er tilrekkeleg.)
2.: Vis korleis du bruker bootstrap for å estimera standardfeilen for estimatoren du brukte over.

Oppgåve 9.16 Eksamen våren 2015, oppgåve 1.

Oppgåve 9.17 Eksamen våren 2015, oppgåve 7 og 9.

Oppgåve 9.18 Eksamen våren 2015, oppgåve 5 og 6.