Populasjon vs. utvalg, utvalgsfeil, sannsynlighetsfordeling.
I dette kapittelet skal du lære om grunnleggende statistiske begreper som er avgjørende for all empirisk forskning. Statistikk er verktøyet som gjør det mulig å trekke slutninger om store grupper basert på informasjon fra mindre grupper.
Læringsmål:
- Forklare forskjellen mellom populasjon og utvalg
- Forstå begrepene utvalgsfeil og skjevhet
- Beskrive sannsynlighetsfordelinger, spesielt normalfordelingen
- Beregne og tolke standardavvik og gjennomsnitt i kontekst
All statistisk analyse starter med et fundamentalt skille: vi ønsker å si noe om en populasjon, men vi har som regel bare tilgang til et utvalg.
Tenk deg at du vil undersøke gjennomsnittlig skjermtid blant norske VG3-elever. Populasjonen er alle VG3-elever i Norge — kanskje 60 000 personer. Det er umulig å spørre alle, så du velger ut et utvalg på for eksempel 200 elever og måler deres skjermtid.
Utfordringen er å sikre at utvalget er representativt — at det gjenspeiler populasjonen godt nok til at vi kan generalisere resultatene. Hvordan vi velger utvalget er derfor helt avgjørende for kvaliteten på forskningen.
Det finnes flere metoder for å trekke utvalg:
Sannsynlighetsutvalg (tilfeldig utvalg):
- Enkelt tilfeldig utvalg: Alle i populasjonen har lik sannsynlighet for å bli valgt. Tilsvarer loddtrekning.
- Stratifisert utvalg: Populasjonen deles i undergrupper (strata), og det trekkes tilfeldig fra hvert stratum. Sikrer at viktige undergrupper er representert.
- Klyngeutvalg: Populasjonen deles i naturlige klynger (f.eks. skoler), og hele klynger velges tilfeldig. Praktisk, men gir større utvalgsfeil.
Ikke-sannsynlighetsutvalg:
- Bekvemmelighetsutvalg: Man bruker de som er lettest tilgjengelige. Vanlig, men gir størst risiko for skjevhet.
- Snøballutvalg: Deltakere rekrutterer andre deltakere. Nyttig for vanskelig tilgjengelige grupper.
Utvalg er den delmengden av populasjonen som vi faktisk undersøker og samler inn data fra.
Populasjonsparameter er den sanne verdien i populasjonen (f.eks. det sanne gjennomsnittet eller det sanne standardavviket ). Disse er vanligvis ukjente.
Utvalgsstatistikk er verdien beregnet fra utvalget (f.eks. utvalgsgjennomsnittet eller utvalgsstandardavviket ). Disse brukes som estimater for de ukjente parameterne.
En forsker vil undersøke gjennomsnittlig reaksjonstid hos norske 18-åringer. Hun tester 150 tilfeldig valgte 18-åringer og finner et gjennomsnitt på ms med standardavvik ms. Identifiser populasjonen, utvalget, parameteren og statistikken.
Utvalg: De 150 tilfeldig valgte 18-åringene som ble testet.
Populasjonsparameter: Den sanne gjennomsnittlige reaksjonstiden for alle norske 18-åringer — denne er ukjent.
Utvalgsstatistikk: ms (utvalgsgjennomsnitt) og ms (utvalgsstandardavvik). Disse er våre beste estimater for de ukjente parameterne og .
Legg merke til notasjonen: greske bokstaver (, ) brukes for populasjonsparametere, mens latinske bokstaver (, ) brukes for utvalgsstatistikk.
En kommune ønsker å kartlegge innbyggernes holdning til et nytt byutviklingsprosjekt. De sender spørreskjema til 500 tilfeldig valgte innbyggere. Hva er populasjonen i denne undersøkelsen?
Selv med et godt utvalg vil utvalgsstatistikken aldri være nøyaktig lik populasjonsparameteren. Denne forskjellen kalles utvalgsfeil, og den oppstår uunngåelig fordi vi bare undersøker en del av populasjonen.
Utvalgsfeil kan deles i to hovedtyper:
Tilfeldig utvalgsfeil (sampling error):
Skyldes tilfeldigheter i hvilke enheter som havner i utvalget. Denne feilen er uunngåelig, men kan reduseres ved å øke utvalgsstørrelsen. Tilfeldig utvalgsfeil følger kjente statistiske lovmessigheter, og vi kan beregne hvor stor den sannsynligvis er.
Systematisk skjevhet (bias):
Skyldes at utvalget på en systematisk måte avviker fra populasjonen. Denne feilen kan ikke reduseres ved å øke utvalgsstørrelsen — et stort skjevt utvalg er like skjevt som et lite skjevt utvalg. Eksempler:
- Seleksjonsskjevhet: Ikke alle i populasjonen har lik sjanse for å bli valgt
- Frafallsskjevhet: De som svarer skiller seg systematisk fra de som ikke svarer
- Responsskjevhet: Deltakere svarer uærlig eller påvirkes av spørsmålsformulering
Standardfeilen (standard error, SE) er et mål på den tilfeldige usikkerheten i et estimat. For gjennomsnittet er standardfeilen:
der er utvalgsstandardavviket og er utvalgsstørrelsen. Formelen viser at standardfeilen synker når utvalgsstørrelsen øker — et større utvalg gir mer presise estimater.
For gjennomsnittet:
En liten standardfeil betyr at estimatet er presist. En stor standardfeil betyr stor usikkerhet.
Tommelregel: Firedobling av utvalgsstørrelsen halverer standardfeilen ().
Et utvalg på VG3-elever har gjennomsnittlig puls slag per minutt med standardavvik slag per minutt. Beregn standardfeilen, og forklar hva den betyr.
Tolkning: Standardfeilen på 1,0 slag/min betyr at dersom vi gjentok undersøkelsen mange ganger med nye utvalg på 64 elever, ville gjennomsnittsverdiene typisk avvike med ca. 1 slag/min fra det sanne populasjonsgjennomsnittet.
Hadde vi i stedet hatt elever:
Med fire ganger færre deltakere er standardfeilen dobbelt så stor — estimatet er halvparten så presist.
Et utvalg på har standardavvik . Hva skjer med standardfeilen dersom utvalgsstørrelsen øker til ?
En sannsynlighetsfordeling beskriver hvilke verdier en tilfeldig variabel kan ta, og med hvilken sannsynlighet. Den gir en matematisk modell for usikkerhet.
I statistisk analyse er normalfordelingen den viktigste sannsynlighetsfordelingen. Den er klokkekurve-formet og beskrevet av to parametere:
- Gjennomsnittet (sentrum av fordelingen)
- Standardavviket (spredningen rundt sentrum)
Vi skriver for å angi at variabelen er normalfordelt.
For normalfordelingen gjelder:
- Ca. 68 % av verdiene ligger innenfor
- Ca. 95 % av verdiene ligger innenfor
- Ca. 99,7 % av verdiene ligger innenfor
Denne regelen gir en rask måte å vurdere om en observasjon er «vanlig» eller «uvanlig». En verdi som ligger mer enn fra gjennomsnittet forekommer bare i 5 % av tilfellene og regnes ofte som statistisk uvanlig.
Sentralgrenseteoremet (SGT) er et av statistikkens viktigste resultater: Uansett hvordan den opprinnelige fordelingen ser ut, vil fordelingen av utvalgsgjennomsnittet nærme seg en normalfordeling når utvalgsstørrelsen blir stor nok (tommelregel: ).
Dette betyr at vi kan bruke normalfordelingen til å lage konfidensintervaller og utføre hypotesetester — selv når den underliggende variabelen ikke er normalfordelt.
Standardnormalfordelingen har og . En vilkårlig normalfordelt variabel kan transformeres til standardnormalfordelingen ved z-transformasjon:
-verdien angir hvor mange standardavvik en observasjon ligger fra gjennomsnittet.
Høyden til norske 18-årige gutter er tilnærmet normalfordelt med cm og cm. (a) Hva er sannsynligheten for at en tilfeldig valgt gutt er høyere enn 194 cm? (b) Mellom hvilke verdier finner vi de midterste 95 % av fordelingen?
En z-verdi på 2,0 betyr at 194 cm ligger 2 standardavvik over gjennomsnittet. Fra 68-95-99,7-regelen vet vi at ca. 95 % ligger innenfor , så ca. 5 % ligger utenfor. Halvparten av disse (2,5 %) er over .
Bare ca. 2,5 % av 18-årige gutter er høyere enn 194 cm.
(b) De midterste 95 % finnes innenfor :
De midterste 95 % av høydene ligger altså mellom 166 cm og 194 cm.
Kroppsvekten til voksne i en populasjon er normalfordelt med kg og kg. Omtrent hvor mange prosent av populasjonen veier mellom 55 kg og 95 kg?
- Populasjonen er hele gruppen vi vil si noe om; utvalget er den delen vi faktisk undersøker.
- Greske bokstaver (, ) brukes for populasjonsparametere, latinske (, ) for utvalgsstatistikk.
- Tilfeldig utvalgsfeil er uunngåelig, men kan reduseres med større utvalg. Systematisk skjevhet kan ikke reduseres ved å øke utvalget.
- Standardfeilen angir presisjonen til et estimat og synker med kvadratroten av utvalgsstørrelsen.
- Normalfordelingen er klokkekurve-formet og beskrevet av og . 68-95-99,7-regelen gir en rask tommelregel.
- Sentralgrenseteoremet sikrer at utvalgsgjennomsnitt er tilnærmet normalfordelt for store nok utvalg, uavhengig av populasjonens form.
En forsker måler stressnivået (skala 0–100) hos et tilfeldig utvalg på VG3-elever og finner og . (a) Beregn standardfeilen til gjennomsnittet. (b) Bruk sentralgrenseteoremet til å finne et 95 %-konfidensintervall for det sanne gjennomsnittlige stressnivået . (c) Forklar med egne ord hva dette konfidensintervallet betyr.
En nettavis rapporterer: «Ny undersøkelse viser at norske ungdommer bruker i gjennomsnitt 4,2 timer daglig på skjerm.» Undersøkelsen er basert på et bekvemmelighetsutvalg av 300 elever fra tre skoler i Oslo. Drøft: (a) Hvilke typer skjevhet kan påvirke dette resultatet? (b) Kan vi generalisere til alle norske ungdommer? Begrunn svaret. (c) Foreslå en bedre utvalgsstrategi.