Statistikk og Simulering

Veke 9. Intervalestimering KLADD

Måndag (førelesing)

9.1. Måndag (førelesing)

9.1.1. Simuleringsresultat

Oppgåve 9.1 Eg har gjort øvingane frå i går, og simulert kodeord frå Hamming-koden sendt over BSC(0,1). Då eg gjentok simuleringa 100 gongar, fekk eg ordfeil 15 gongar, dvs. p̂ = 15% av gongane.

Kva seier dette feiltalet om sannsynet for ordfeil?

pict

Figur 5: Histogram of word errors in 500 experiments and 10 words transmitted per experiment.

Oppgåve 9.2 Figur 5 viser talet på ordfeil i 500 testar med 10 ord per test. Liknar plottet på nokon kjend sannsynsfordeling?

pict

Figur 6: Histogram of word errors in 40 experiments and 100 words transmitted per experiment.

Oppgåve 9.3 Eg gjenteke eksperimentet som nemnd i forrige oppgåve 40 gongar og teikna histogram over talet på ordfeil. (Dvs. eg har totalt simulert 40 × 100 kodeord sendt på kanalen.)

Diskuter kva histogrammet fortel oss om sannsynet for ordfeil når du sender eit hammingkodeord over BSC(0,1.

9.1.2. Standardavvik og standardfeil

Estimer standardfeilen:

1.
Mogleg å gjenta eksperimentet og ta utvalsstandardavviket, men dette er tidkrevjande.
2.
Bruk estimatet π̂ i formelen
σ = π(1 π) n

Dvs.

σ̂ = π ̂ (1 π ̂ ) n

9.1.3. Konfidensintervall

Definisjon 20 Dersom x̂ er ein estimator for x, so kallar me standardavviket σ åt x̂ for standardfeilen åt estimatoren, og skriv

S.E.(x̂) = σ.

Sats 3 Feilraten p̂ er ein estimator for feilsannsynet p, og standardfeilen er gjeve som

S.E.(p̂) = p(1 p) n ,

når feilraten er rekna over n forsøk. Ein estimator for standardfeilen er

S.E.̂(p̂) = p ̂ (1 p ̂ ) n .

Dersom me tek fylgjande intervall rundt punktestimatoren p̂

(p̂ S.E.̂(p̂),p̂ + S.E.̂(p̂))

går det an å visa at sannsynet for at intervallet omfattar parameteren p er cirka 68%. Meir presist

P(p > p̂ + S.E.̂(p̂)) = 0.1587 (12)  P(p̂ S.E.̂(p̂) < p < p̂ + S.E.̂(p̂)) = 0.683 (13)  P(p < p̂ S.E.̂(p̂)) = 0.1587 (14) 

Me kaller intervallet for eit 68.3% konfidensintervall for dekodingsfeilssannsynet p. Talet 68.3% konfidensnivået.

Merk at det er intervallet som er stokastisk, medan parameteren p er konstant (men ukjent). Me kan difor ikkje tala om sannsynet for at p ligg i intervallet.

Oppgåve 9.4 Me skal estimera ein feilrate, og testar systemet 1000 gongar, og finn 120 feil. Finn eit 68,3% konfidensintervall for feilsannsynet π.

Oppgåve 9.5 Me skal finna gjennomsnittsvekta for ein viss dyreart i eit visst område. Me veit at vekta er normalfordelt med standardavvik σ = 4, men gjennomsnittsvekta varierer frå område til område avhengig av mattilgang m.m.

Me måler ni dyr, og finn vektane

3,2; 3,8; 4,2; 4,4; 4,4; 4,5; 4,7; 5,1; 5,2

Finn eit 95,4% konfidensintervall for gjennomsnittsvekta.

Oppgåve 9.6 Tilsvarande forrige oppgåve, men denne gongen er σ ukjend. Oservasjonene er dei same som over. Finn eit Finn eit 95% konfidensintervall for gjennomsnittsvekta.

9.1.4. One pitfall to avoid

Consider the following to statements:

1.
When you are going to calculate a 95% confidence interval for p, the probability is 95% that you get an interval which encloses p.
2.
When you have calculated a 95% confidence interval (l,u) for p, the probability is 95% that l p u.

Oppgåve 9.7 Compare the two statements above. Are they equivalent or not? Is the first statement true? Is the second statement true?