• Lærebøker
  • Python
  • GeoGebra
  • Hoderegning
  • Test deg selv

Søk i Skolesaga

Søk etter lærebøker, kapitler, trinn og verktøy

Gratis interaktive lærebøker for norsk skole.

Lærebok
PersonvernVilkår

© 2025 Skolesaga · Alle rettigheter forbeholdt

Deler av innholdet er utviklet med hjelp av AI-verktøy

Teknologi og forskningslære 2Tilbake
2.1 Populasjoner, utvalg og sannsynlighet
Populasjoner, utvalg og sannsynlighet

2.1 Populasjoner, utvalg og sannsynlighet

Alle fag for VG3

Populasjon vs. utvalg, utvalgsfeil, sannsynlighetsfordeling.

30 min
5 oppgaver
PopulasjonUtvalgSannsynlighetNormalfordeling
Din fremgang i kapitlet
0 / 5 oppgaver

Populasjoner, utvalg og sannsynlighet

I dette kapittelet skal du lære om grunnleggende statistiske begreper som er avgjørende for all empirisk forskning. Statistikk er verktøyet som gjør det mulig å trekke slutninger om store grupper basert på informasjon fra mindre grupper.

Læringsmål:
- Forklare forskjellen mellom populasjon og utvalg
- Forstå begrepene utvalgsfeil og skjevhet
- Beskrive sannsynlighetsfordelinger, spesielt normalfordelingen
- Beregne og tolke standardavvik og gjennomsnitt i kontekst

Populasjon og utvalg

All statistisk analyse starter med et fundamentalt skille: vi ønsker å si noe om en populasjon, men vi har som regel bare tilgang til et utvalg.

Tenk deg at du vil undersøke gjennomsnittlig skjermtid blant norske VG3-elever. Populasjonen er alle VG3-elever i Norge — kanskje 60 000 personer. Det er umulig å spørre alle, så du velger ut et utvalg på for eksempel 200 elever og måler deres skjermtid.

Utfordringen er å sikre at utvalget er representativt — at det gjenspeiler populasjonen godt nok til at vi kan generalisere resultatene. Hvordan vi velger utvalget er derfor helt avgjørende for kvaliteten på forskningen.

Utvalgsteknikker

Det finnes flere metoder for å trekke utvalg:

Sannsynlighetsutvalg (tilfeldig utvalg):
- Enkelt tilfeldig utvalg: Alle i populasjonen har lik sannsynlighet for å bli valgt. Tilsvarer loddtrekning.
- Stratifisert utvalg: Populasjonen deles i undergrupper (strata), og det trekkes tilfeldig fra hvert stratum. Sikrer at viktige undergrupper er representert.
- Klyngeutvalg: Populasjonen deles i naturlige klynger (f.eks. skoler), og hele klynger velges tilfeldig. Praktisk, men gir større utvalgsfeil.

Ikke-sannsynlighetsutvalg:
- Bekvemmelighetsutvalg: Man bruker de som er lettest tilgjengelige. Vanlig, men gir størst risiko for skjevhet.
- Snøballutvalg: Deltakere rekrutterer andre deltakere. Nyttig for vanskelig tilgjengelige grupper.

Populasjon og utvalg
Populasjon er den fullstendige mengden av alle enheter (personer, objekter, hendelser) som vi ønsker å si noe om. Populasjonen defineres av forskningsspørsmålet.

Utvalg er den delmengden av populasjonen som vi faktisk undersøker og samler inn data fra.

Populasjonsparameter er den sanne verdien i populasjonen (f.eks. det sanne gjennomsnittet μ\muμ eller det sanne standardavviket σ\sigmaσ). Disse er vanligvis ukjente.

Utvalgsstatistikk er verdien beregnet fra utvalget (f.eks. utvalgsgjennomsnittet xˉ\bar{x}xˉ eller utvalgsstandardavviket sss). Disse brukes som estimater for de ukjente parameterne.

✏️Eksempel: Populasjon vs. utvalg

En forsker vil undersøke gjennomsnittlig reaksjonstid hos norske 18-åringer. Hun tester 150 tilfeldig valgte 18-åringer og finner et gjennomsnitt på xˉ=245\bar{x} = 245xˉ=245 ms med standardavvik s=32s = 32s=32 ms. Identifiser populasjonen, utvalget, parameteren og statistikken.

Populasjon: Alle norske 18-åringer (ca. 60 000 personer).

Utvalg: De 150 tilfeldig valgte 18-åringene som ble testet.

Populasjonsparameter: Den sanne gjennomsnittlige reaksjonstiden μ\muμ for alle norske 18-åringer — denne er ukjent.

Utvalgsstatistikk: xˉ=245\bar{x} = 245xˉ=245 ms (utvalgsgjennomsnitt) og s=32s = 32s=32 ms (utvalgsstandardavvik). Disse er våre beste estimater for de ukjente parameterne μ\muμ og σ\sigmaσ.

Legg merke til notasjonen: greske bokstaver (μ\muμ, σ\sigmaσ) brukes for populasjonsparametere, mens latinske bokstaver (xˉ\bar{x}xˉ, sss) brukes for utvalgsstatistikk.

📝Oppgave 2.1.1

En kommune ønsker å kartlegge innbyggernes holdning til et nytt byutviklingsprosjekt. De sender spørreskjema til 500 tilfeldig valgte innbyggere. Hva er populasjonen i denne undersøkelsen?

Utvalgsfeil og skjevhet

Selv med et godt utvalg vil utvalgsstatistikken aldri være nøyaktig lik populasjonsparameteren. Denne forskjellen kalles utvalgsfeil, og den oppstår uunngåelig fordi vi bare undersøker en del av populasjonen.

Utvalgsfeil kan deles i to hovedtyper:

Tilfeldig utvalgsfeil (sampling error):
Skyldes tilfeldigheter i hvilke enheter som havner i utvalget. Denne feilen er uunngåelig, men kan reduseres ved å øke utvalgsstørrelsen. Tilfeldig utvalgsfeil følger kjente statistiske lovmessigheter, og vi kan beregne hvor stor den sannsynligvis er.

Systematisk skjevhet (bias):
Skyldes at utvalget på en systematisk måte avviker fra populasjonen. Denne feilen kan ikke reduseres ved å øke utvalgsstørrelsen — et stort skjevt utvalg er like skjevt som et lite skjevt utvalg. Eksempler:
- Seleksjonsskjevhet: Ikke alle i populasjonen har lik sjanse for å bli valgt
- Frafallsskjevhet: De som svarer skiller seg systematisk fra de som ikke svarer
- Responsskjevhet: Deltakere svarer uærlig eller påvirkes av spørsmålsformulering

Standardfeilen

Standardfeilen (standard error, SE) er et mål på den tilfeldige usikkerheten i et estimat. For gjennomsnittet er standardfeilen:

SE=snSE = \frac{s}{\sqrt{n}}SE=n​s​

der sss er utvalgsstandardavviket og nnn er utvalgsstørrelsen. Formelen viser at standardfeilen synker når utvalgsstørrelsen øker — et større utvalg gir mer presise estimater.

Standardfeil
Standardfeilen (SE) er standardavviket til utvalgsfordelingen til en statistikk. Den angir hvor mye en utvalgsstatistikk typisk varierer fra den sanne populasjonsparameteren.

For gjennomsnittet:

SExˉ=snSE_{\bar{x}} = \frac{s}{\sqrt{n}}SExˉ​=n​s​

En liten standardfeil betyr at estimatet er presist. En stor standardfeil betyr stor usikkerhet.

Tommelregel: Firedobling av utvalgsstørrelsen halverer standardfeilen (4=2\sqrt{4} = 24​=2).

✏️Eksempel: Beregning av standardfeil

Et utvalg på n=64n = 64n=64 VG3-elever har gjennomsnittlig puls xˉ=72\bar{x} = 72xˉ=72 slag per minutt med standardavvik s=8s = 8s=8 slag per minutt. Beregn standardfeilen, og forklar hva den betyr.

Vi bruker formelen for standardfeil:

SE=sn=864=88=1,0 slag/minSE = \frac{s}{\sqrt{n}} = \frac{8}{\sqrt{64}} = \frac{8}{8} = 1{,}0 \text{ slag/min}SE=n​s​=64​8​=88​=1,0 slag/min

Tolkning: Standardfeilen på 1,0 slag/min betyr at dersom vi gjentok undersøkelsen mange ganger med nye utvalg på 64 elever, ville gjennomsnittsverdiene typisk avvike med ca. 1 slag/min fra det sanne populasjonsgjennomsnittet.

Hadde vi i stedet hatt n=16n = 16n=16 elever:

SE=816=84=2,0 slag/minSE = \frac{8}{\sqrt{16}} = \frac{8}{4} = 2{,}0 \text{ slag/min}SE=16​8​=48​=2,0 slag/min

Med fire ganger færre deltakere er standardfeilen dobbelt så stor — estimatet er halvparten så presist.

📝Oppgave 2.1.2

Et utvalg på n=100n = 100n=100 har standardavvik s=20s = 20s=20. Hva skjer med standardfeilen dersom utvalgsstørrelsen øker til n=400n = 400n=400?

Sannsynlighetsfordelinger og normalfordelingen

En sannsynlighetsfordeling beskriver hvilke verdier en tilfeldig variabel kan ta, og med hvilken sannsynlighet. Den gir en matematisk modell for usikkerhet.

I statistisk analyse er normalfordelingen den viktigste sannsynlighetsfordelingen. Den er klokkekurve-formet og beskrevet av to parametere:
- Gjennomsnittet μ\muμ (sentrum av fordelingen)
- Standardavviket σ\sigmaσ (spredningen rundt sentrum)

Vi skriver X∼N(μ,σ2)X \sim N(\mu, \sigma^2)X∼N(μ,σ2) for å angi at variabelen XXX er normalfordelt.

68-95-99,7-regelen

For normalfordelingen gjelder:
- Ca. 68 % av verdiene ligger innenfor μ±1σ\mu \pm 1\sigmaμ±1σ
- Ca. 95 % av verdiene ligger innenfor μ±2σ\mu \pm 2\sigmaμ±2σ
- Ca. 99,7 % av verdiene ligger innenfor μ±3σ\mu \pm 3\sigmaμ±3σ

Denne regelen gir en rask måte å vurdere om en observasjon er «vanlig» eller «uvanlig». En verdi som ligger mer enn 2σ2\sigma2σ fra gjennomsnittet forekommer bare i 5 % av tilfellene og regnes ofte som statistisk uvanlig.

Sentralgrenseteoremet

Sentralgrenseteoremet (SGT) er et av statistikkens viktigste resultater: Uansett hvordan den opprinnelige fordelingen ser ut, vil fordelingen av utvalgsgjennomsnittet nærme seg en normalfordeling når utvalgsstørrelsen nnn blir stor nok (tommelregel: n≥30n \geq 30n≥30).

Xˉ∼N(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)Xˉ∼N(μ,nσ2​)

Dette betyr at vi kan bruke normalfordelingen til å lage konfidensintervaller og utføre hypotesetester — selv når den underliggende variabelen ikke er normalfordelt.

Normalfordelingen
Normalfordelingen N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2) er en symmetrisk, klokkekurve-formet sannsynlighetsfordeling definert av tetthetsfunksjonen:

f(x)=1σ2π⋅e−(x−μ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}} \cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}f(x)=σ2π​1​⋅e−2σ2(x−μ)2​

Standardnormalfordelingen N(0,1)N(0, 1)N(0,1) har μ=0\mu = 0μ=0 og σ=1\sigma = 1σ=1. En vilkårlig normalfordelt variabel kan transformeres til standardnormalfordelingen ved z-transformasjon:

z=x−μσz = \frac{x - \mu}{\sigma}z=σx−μ​

zzz-verdien angir hvor mange standardavvik en observasjon ligger fra gjennomsnittet.

✏️Eksempel: Normalfordeling og z-verdier

Høyden til norske 18-årige gutter er tilnærmet normalfordelt med μ=180\mu = 180μ=180 cm og σ=7\sigma = 7σ=7 cm. (a) Hva er sannsynligheten for at en tilfeldig valgt gutt er høyere enn 194 cm? (b) Mellom hvilke verdier finner vi de midterste 95 % av fordelingen?

(a) Vi beregner z-verdien:

z=194−1807=147=2,0z = \frac{194 - 180}{7} = \frac{14}{7} = 2{,}0z=7194−180​=714​=2,0

En z-verdi på 2,0 betyr at 194 cm ligger 2 standardavvik over gjennomsnittet. Fra 68-95-99,7-regelen vet vi at ca. 95 % ligger innenfor ±2σ\pm 2\sigma±2σ, så ca. 5 % ligger utenfor. Halvparten av disse (2,5 %) er over μ+2σ\mu + 2\sigmaμ+2σ.

P(X>194)≈0,025=2,5%P(X > 194) \approx 0{,}025 = 2{,}5\%P(X>194)≈0,025=2,5%

Bare ca. 2,5 % av 18-årige gutter er høyere enn 194 cm.

(b) De midterste 95 % finnes innenfor μ±2σ\mu \pm 2\sigmaμ±2σ:

180±2⋅7=180±14180 \pm 2 \cdot 7 = 180 \pm 14180±2⋅7=180±14

De midterste 95 % av høydene ligger altså mellom 166 cm og 194 cm.

📝Oppgave 2.1.3

Kroppsvekten til voksne i en populasjon er normalfordelt med μ=75\mu = 75μ=75 kg og σ=10\sigma = 10σ=10 kg. Omtrent hvor mange prosent av populasjonen veier mellom 55 kg og 95 kg?

Oppsummering

- Populasjonen er hele gruppen vi vil si noe om; utvalget er den delen vi faktisk undersøker.
- Greske bokstaver (μ\muμ, σ\sigmaσ) brukes for populasjonsparametere, latinske (xˉ\bar{x}xˉ, sss) for utvalgsstatistikk.
- Tilfeldig utvalgsfeil er uunngåelig, men kan reduseres med større utvalg. Systematisk skjevhet kan ikke reduseres ved å øke utvalget.
- Standardfeilen SE=s/nSE = s / \sqrt{n}SE=s/n​ angir presisjonen til et estimat og synker med kvadratroten av utvalgsstørrelsen.
- Normalfordelingen er klokkekurve-formet og beskrevet av μ\muμ og σ\sigmaσ. 68-95-99,7-regelen gir en rask tommelregel.
- Sentralgrenseteoremet sikrer at utvalgsgjennomsnitt er tilnærmet normalfordelt for store nok utvalg, uavhengig av populasjonens form.

📝Oppgave 4

En forsker måler stressnivået (skala 0–100) hos et tilfeldig utvalg på n=49n = 49n=49 VG3-elever og finner xˉ=62\bar{x} = 62xˉ=62 og s=14s = 14s=14. (a) Beregn standardfeilen til gjennomsnittet. (b) Bruk sentralgrenseteoremet til å finne et 95 %-konfidensintervall for det sanne gjennomsnittlige stressnivået μ\muμ. (c) Forklar med egne ord hva dette konfidensintervallet betyr.

📝Oppgave 5

En nettavis rapporterer: «Ny undersøkelse viser at norske ungdommer bruker i gjennomsnitt 4,2 timer daglig på skjerm.» Undersøkelsen er basert på et bekvemmelighetsutvalg av 300 elever fra tre skoler i Oslo. Drøft: (a) Hvilke typer skjevhet kan påvirke dette resultatet? (b) Kan vi generalisere til alle norske ungdommer? Begrunn svaret. (c) Foreslå en bedre utvalgsstrategi.